1 year ago · e8bb7fbabc
--- a/examples/Getting_to_know_Llama.ipynb
+++ b/examples/Getting_to_know_Llama.ipynb
--- a/examples/quickstart.ipynb
+++ b/examples/quickstart.ipynb
@@ -32,7 +32,7 @@
 
				    "outputs": [],
			
 
				    "source": [
			
 
				     "# %%bash\n",
			
 
				-    "# pip install transformers datasets accelerate sentencepiece protobuf==3.20 py7zr scipy peft bitsandbytes fire torch_tb_profiler ipywidgets\n",
			
 
				+    "# pip install llama-recipes transformers datasets accelerate sentencepiece protobuf==3.20 py7zr scipy peft bitsandbytes fire torch_tb_profiler ipywidgets\n",
			
 
				     "# TRANSFORM=`python -c \"import transformers;print('/'.join(transformers.__file__.split('/')[:-1])+'/models/llama/convert_llama_weights_to_hf.py')\"`\n",
			
 
				     "# python ${TRANSFORM} --input_dir models --model_size 7B --output_dir models_hf/7B"
			
 
				    ]
			
@@ -130,11 +130,8 @@
 
				     }
			
 
				    ],
			
 
				    "source": [
			
 
				-    "from pathlib import Path\n",
			
 
				-    "import os\n",
			
 
				-    "import sys\n",
			
 
				-    "from utils.dataset_utils import get_preprocessed_dataset\n",
			
 
				-    "from configs.datasets import samsum_dataset\n",
			
 
				+    "from llama_recipes.utils.dataset_utils import get_preprocessed_dataset\n",
			
 
				+    "from llama_recipes.configs.datasets import samsum_dataset\n",
			
 
				     "\n",
			
 
				     "train_dataset = get_preprocessed_dataset(tokenizer, samsum_dataset, 'train')"
			
 
				    ]
			
--- a/src/llama_recipes/datasets/grammar_dataset/grammar_dataset_process.ipynb
+++ b/src/llama_recipes/datasets/grammar_dataset/grammar_dataset_process.ipynb
@@ -35,10 +35,10 @@
 
				     "  (\" '\", \"'\"),\n",
			
 
				     "  (\" ?\", \"?\"),\n",
			
 
				     "  (\" !\", \"!\"),\n",
			
 
				-    "  (\" :\", \"!\"),\n",
			
 
				-    "  (\" ;\", \"!\"),\n",
			
 
				+    "  (\" :\", \":\"),\n",
			
 
				+    "  (\" ;\", \";\"),\n",
			
 
				     "  (\" n't\", \"n't\"),\n",
			
 
				-    "  (\" v\", \"n't\"),\n",
			
 
				+    "  (\" v\", \"v\"),\n",
			
 
				     "  (\"2 0 0 6\", \"2006\"),\n",
			
 
				     "  (\"5 5\", \"55\"),\n",
			
 
				     "  (\"4 0 0\", \"400\"),\n",
			
--- a/src/llama_recipes/utils/train_utils.py
+++ b/src/llama_recipes/utils/train_utils.py
@@ -4,6 +4,7 @@
 
				 import os
			
 
				 import time
			
 
				 import yaml
			
 
				+from contextlib import nullcontext
			
 
				 from pathlib import Path
			
 
				 from pkg_resources import packaging
			
 
				 
			
@@ -25,7 +26,7 @@ from llama_recipes.utils.memory_utils import MemoryTrace
 
				 def set_tokenizer_params(tokenizer: LlamaTokenizer):
			
 
				     tokenizer.pad_token_id = 0
			
 
				     tokenizer.padding_side = "left"
			
 
				-    
			
 
				+
			
 
				 # Converting Bytes to Megabytes
			
 
				 def byte2mb(x):
			
 
				     return int(x / 2**20)
			
@@ -33,7 +34,7 @@ def byte2mb(x):
 
				 def train(model, train_dataloader,eval_dataloader, tokenizer, optimizer, lr_scheduler, gradient_accumulation_steps, train_config, fsdp_config=None, local_rank=None, rank=None):
			
 
				     """
			
 
				     Trains the model on the given dataloader
			
 
				-    
			
 
				+
			
 
				     Args:
			
 
				         model: The model to be trained
			
 
				         train_dataloader: The dataloader containing the training data
			
@@ -45,16 +46,18 @@ def train(model, train_dataloader,eval_dataloader, tokenizer, optimizer, lr_sche
 
				         train_config: The training configuration
			
 
				         eval_dataloader: The dataloader containing the eval data
			
 
				         tokenizer: tokenizer used in the eval for decoding the predicitons
			
 
				-    
			
 
				+
			
 
				     Returns: results dictionary containing average training and validation perplexity and loss
			
 
				     """
			
 
				     # Create a gradient scaler for fp16
			
 
				     if train_config.use_fp16 and train_config.enable_fsdp:
			
 
				         scaler = ShardedGradScaler()
			
 
				     elif train_config.use_fp16 and not train_config.enable_fsdp:
			
 
				-        scaler = torch.cuda.amp.GradScaler() 
			
 
				+        scaler = torch.cuda.amp.GradScaler()
			
 
				     if train_config.enable_fsdp:
			
 
				-        world_size = int(os.environ["WORLD_SIZE"]) 
			
 
				+        world_size = int(os.environ["WORLD_SIZE"])
			
 
				+    autocast = torch.cuda.amp.autocast if train_config.use_fp16 else nullcontext
			
 
				+
			
 
				     train_prep = []
			
 
				     train_loss = []
			
 
				     val_prep = []
			
@@ -76,7 +79,8 @@ def train(model, train_dataloader,eval_dataloader, tokenizer, optimizer, lr_sche
 
				                         batch[key] = batch[key].to(local_rank)
			
 
				                     else:
			
 
				                         batch[key] = batch[key].to('cuda:0')
			
 
				-                loss = model(**batch).loss
			
 
				+                with autocast():
			
 
				+                    loss = model(**batch).loss
			
 
				                 loss = loss / gradient_accumulation_steps
			
 
				                 total_loss += loss.detach().float()
			
 
				                 if train_config.use_fp16:
			
@@ -97,9 +101,9 @@ def train(model, train_dataloader,eval_dataloader, tokenizer, optimizer, lr_sche
 
				 
			
 
				                 pbar.set_description(f"Training Epoch: {epoch+1}/{train_config.num_epochs}, step {step}/{len(train_dataloader)} completed (loss: {loss.detach().float()})")
			
 
				             pbar.close()
			
 
				-                
			
 
				+
			
 
				         epoch_end_time = time.perf_counter()-epoch_start_time
			
 
				-        epoch_times.append(epoch_end_time)    
			
 
				+        epoch_times.append(epoch_end_time)
			
 
				         # Reducing total_loss across all devices if there's more than one CUDA device
			
 
				         if torch.cuda.device_count() > 1 and train_config.enable_fsdp:
			
 
				             dist.all_reduce(total_loss, op=dist.ReduceOp.SUM)
			
@@ -107,10 +111,10 @@ def train(model, train_dataloader,eval_dataloader, tokenizer, optimizer, lr_sche
 
				         if train_config.enable_fsdp:
			
 
				             train_epoch_loss = train_epoch_loss/world_size
			
 
				         train_perplexity = torch.exp(train_epoch_loss)
			
 
				-        
			
 
				+
			
 
				         train_prep.append(train_perplexity)
			
 
				         train_loss.append(train_epoch_loss)
			
 
				-        
			
 
				+
			
 
				         if train_config.enable_fsdp:
			
 
				             if rank==0:
			
 
				                 print(f"Max CUDA memory allocated was {memtrace.peak} GB")
			
@@ -124,10 +128,10 @@ def train(model, train_dataloader,eval_dataloader, tokenizer, optimizer, lr_sche
 
				             print(f"Peak active CUDA memory was {memtrace.peak_active_gb} GB")
			
 
				             print(f"Cuda Malloc retires : {memtrace.cuda_malloc_retires}")
			
 
				             print(f"CPU Total Peak Memory consumed during the train (max): {memtrace.cpu_peaked + memtrace.cpu_begin} GB")
			
 
				-        
			
 
				+
			
 
				         # Update the learning rate as needed
			
 
				         lr_scheduler.step()
			
 
				-          
			
 
				+
			
 
				         if train_config.run_validation:
			
 
				             eval_ppl, eval_epoch_loss = evaluation(model, train_config, eval_dataloader, local_rank, tokenizer)
			
 
				             checkpoint_start_time = time.perf_counter()
			
@@ -140,23 +144,23 @@ def train(model, train_dataloader,eval_dataloader, tokenizer, optimizer, lr_sche
 
				                             print(f"we are about to save the PEFT modules")
			
 
				                     else:
			
 
				                         print(f"we are about to save the PEFT modules")
			
 
				-                    model.save_pretrained(train_config.output_dir)  
			
 
				+                    model.save_pretrained(train_config.output_dir)
			
 
				                     if train_config.enable_fsdp:
			
 
				-                        if rank==0: 
			
 
				+                        if rank==0:
			
 
				                             print(f"PEFT modules are saved in {train_config.output_dir} directory")
			
 
				                     else:
			
 
				                         print(f"PEFT modules are saved in {train_config.output_dir} directory")
			
 
				-                        
			
 
				+
			
 
				                 else:
			
 
				                     if not train_config.use_peft and fsdp_config.checkpoint_type == StateDictType.FULL_STATE_DICT:
			
 
				-                        
			
 
				+
			
 
				                         save_model_checkpoint(
			
 
				                             model, optimizer, rank, train_config, epoch=epoch
			
 
				                         )
			
 
				                     elif not train_config.use_peft and fsdp_config.checkpoint_type == StateDictType.SHARDED_STATE_DICT:
			
 
				                         print(" Saving the FSDP model checkpoints using SHARDED_STATE_DICT")
			
 
				                         print("=====================================================")
			
 
				-                        
			
 
				+
			
 
				                         save_model_and_optimizer_sharded(model, rank, train_config)
			
 
				                         if train_config.save_optimizer:
			
 
				                             save_model_and_optimizer_sharded(model, rank, train_config, optim=optimizer)
			
@@ -168,7 +172,7 @@ def train(model, train_dataloader,eval_dataloader, tokenizer, optimizer, lr_sche
 
				                             model, optimizer, rank, train_config, epoch=epoch
			
 
				                         )
			
 
				                         print(" Saving the FSDP model checkpoints and optimizer using FULL_STATE_DICT")
			
 
				-                        print("=====================================================")                     
			
 
				+                        print("=====================================================")
			
 
				                 if train_config.enable_fsdp:
			
 
				                     dist.barrier()
			
 
				             checkpoint_end_time = time.perf_counter() - checkpoint_start_time
			
@@ -192,8 +196,8 @@ def train(model, train_dataloader,eval_dataloader, tokenizer, optimizer, lr_sche
 
				     avg_train_prep = sum(train_prep)/len(train_prep)
			
 
				     avg_train_loss = sum(train_loss)/len(train_loss)
			
 
				     if train_config.run_validation:
			
 
				-        avg_eval_prep = sum(val_prep)/len(val_prep) 
			
 
				-        avg_eval_loss = sum(val_loss)/len(val_loss) 
			
 
				+        avg_eval_prep = sum(val_prep)/len(val_prep)
			
 
				+        avg_eval_loss = sum(val_loss)/len(val_loss)
			
 
				 
			
 
				     results['avg_train_prep'] = avg_train_prep
			
 
				     results['avg_train_loss'] = avg_train_loss
			
@@ -202,27 +206,27 @@ def train(model, train_dataloader,eval_dataloader, tokenizer, optimizer, lr_sche
 
				         results['avg_eval_loss'] = avg_eval_loss
			
 
				     results["avg_epoch_time"] = avg_epoch_time
			
 
				     results["avg_checkpoint_time"] = avg_checkpoint_time
			
 
				-    
			
 
				+
			
 
				     #saving the training params including fsdp setting for reference.
			
 
				     if train_config.enable_fsdp and not train_config.use_peft:
			
 
				         save_train_params(train_config, fsdp_config, rank)
			
 
				-        
			
 
				+
			
 
				     return results
			
 
				 
			
 
				 def evaluation(model,train_config, eval_dataloader, local_rank, tokenizer):
			
 
				     """
			
 
				     Evaluates the model on the given dataloader
			
 
				-    
			
 
				+
			
 
				     Args:
			
 
				         model: The model to evaluate
			
 
				         eval_dataloader: The dataloader containing the evaluation data
			
 
				         local_rank: The rank of the current node in a distributed setting
			
 
				         tokenizer: The tokenizer used to decode predictions
			
 
				-    
			
 
				+
			
 
				     Returns: eval_ppl, eval_epoch_loss
			
 
				     """
			
 
				     if train_config.enable_fsdp:
			
 
				-        world_size = int(os.environ["WORLD_SIZE"]) 
			
 
				+        world_size = int(os.environ["WORLD_SIZE"])
			
 
				     model.eval()
			
 
				     eval_preds = []
			
 
				     eval_loss = 0.0  # Initialize evaluation loss
			
@@ -244,24 +248,24 @@ def evaluation(model,train_config, eval_dataloader, local_rank, tokenizer):
 
				             eval_preds.extend(
			
 
				                 tokenizer.batch_decode(preds.detach().cpu().numpy(), skip_special_tokens=True)
			
 
				             )
			
 
				-    
			
 
				+
			
 
				     # If there's more than one CUDA device, reduce evaluation loss across all devices
			
 
				     if torch.cuda.device_count() > 1 and train_config.enable_fsdp:
			
 
				         dist.all_reduce(eval_loss, op=dist.ReduceOp.SUM)
			
 
				-    
			
 
				+
			
 
				     # Compute average loss and perplexity
			
 
				     eval_epoch_loss = eval_loss / len(eval_dataloader)
			
 
				     if train_config.enable_fsdp:
			
 
				         eval_epoch_loss = eval_epoch_loss/world_size
			
 
				     eval_ppl = torch.exp(eval_epoch_loss)
			
 
				-    
			
 
				+
			
 
				     # Print evaluation metrics
			
 
				     if train_config.enable_fsdp:
			
 
				         if local_rank==0:
			
 
				             print(f" {eval_ppl=} {eval_epoch_loss=}")
			
 
				     else:
			
 
				         print(f" {eval_ppl=} {eval_epoch_loss=}")
			
 
				-        
			
 
				+
			
 
				     return eval_ppl, eval_epoch_loss
			
 
				 
			
 
				 def freeze_transformer_layers(model, num_layer):
			
@@ -275,8 +279,8 @@ def check_frozen_layers_peft_model(model):
 
				      for i, layer in enumerate(model.base_model.model.model.layers):
			
 
				             for name, param in layer.named_parameters():
			
 
				                 print(f"Layer {i}, parameter {name}: requires_grad = {param.requires_grad}")
			
 
				-                
			
 
				-                
			
 
				+
			
 
				+
			
 
				 def setup():
			
 
				     """Initialize the process group for distributed training"""
			
 
				     dist.init_process_group("nccl")
			
@@ -289,7 +293,7 @@ def setup_environ_flags(rank):
 
				     # os.environ["TORCH_DISTRIBUTED_DEBUG"] = "DETAIL"
			
 
				     # This flag will help with CUDA memory fragmentations that can lead into OOM in some cases.
			
 
				     # Note this is only availble in PyTorch Nighlies (as of July 30 2023)
			
 
				-    # os.environ['PYTORCH_CUDA_ALLOC_CONF']='expandable_segments:True' 
			
 
				+    # os.environ['PYTORCH_CUDA_ALLOC_CONF']='expandable_segments:True'
			
 
				     if rank == 0:
			
 
				         print(f"--> Running with torch dist debug set to detail")
			
 
				 
			
@@ -334,7 +338,7 @@ def print_model_size(model, config, rank: int = 0) -> None:
 
				 
			
 
				 def get_policies(cfg, rank):
			
 
				     """Get the policies for mixed precision and fsdp wrapping"""
			
 
				-    
			
 
				+
			
 
				     verify_bfloat_support = (
			
 
				     torch.version.cuda
			
 
				     and torch.cuda.is_bf16_supported()
			
@@ -370,7 +374,7 @@ def save_train_params(train_config, fsdp_config, rank):
 
				     This will be used by converter script in the inference folder to fetch the HF model name or path.
			
 
				     It also would be hepful as a log for future references.
			
 
				     """
			
 
				-    # Convert the train_config and fsdp_config objects to dictionaries, 
			
 
				+    # Convert the train_config and fsdp_config objects to dictionaries,
			
 
				     # converting all values to strings to ensure they can be serialized into a YAML file
			
 
				     train_config_dict = {k: str(v) for k, v in vars(train_config).items() if not k.startswith('__')}
			
 
				     fsdp_config_dict = {k: str(v) for k, v in vars(fsdp_config).items() if not k.startswith('__')}
			
--- a/tests/test_finetuning.py
+++ b/tests/test_finetuning.py
@@ -96,7 +96,7 @@ def test_finetuning_peft(step_lr, optimizer, get_peft_model, gen_peft_config, ge
 
				 @patch('llama_recipes.finetuning.get_preprocessed_dataset')
			
 
				 @patch('llama_recipes.finetuning.get_peft_model')
			
 
				 @patch('llama_recipes.finetuning.StepLR')
			
 
				-def test_finetuning_weight_decay(step_lr, get_peft_model, get_dataset, tokenizer, get_model, train):
			
 
				+def test_finetuning_weight_decay(step_lr, get_peft_model, get_dataset, tokenizer, get_model, train, mocker):
			
 
				     kwargs = {"weight_decay": 0.01}
			
 
				 
			
 
				     get_dataset.return_value = get_fake_dataset()
			
--- a/tests/test_train_utils.py
+++ b/tests/test_train_utils.py
@@ -1,17 +1,22 @@
 
				 # Copyright (c) Meta Platforms, Inc. and affiliates.
			
 
				 # This software may be used and distributed according to the terms of the Llama 2 Community License Agreement.
			
 
				 
			
 
				+from unittest.mock import patch
			
 
				+
			
 
				 import torch
			
 
				 
			
 
				 from llama_recipes.utils.train_utils import train
			
 
				 
			
 
				-def test_gradient_accumulation(mocker):
			
 
				-    # import sys
			
 
				-    # sys.path.append('/home/ubuntu/llama-recipes/')
			
 
				+@patch("llama_recipes.utils.train_utils.MemoryTrace")
			
 
				+@patch("llama_recipes.utils.train_utils.nullcontext")
			
 
				+@patch("llama_recipes.utils.train_utils.torch.cuda.amp.GradScaler")
			
 
				+@patch("llama_recipes.utils.train_utils.torch.cuda.amp.autocast")
			
 
				+def test_gradient_accumulation(autocast, scaler, nullcontext, mem_trace, mocker):
			
 
				     
			
 
				     model = mocker.MagicMock(name="model")
			
 
				     model().loss.__truediv__().detach.return_value = torch.tensor(1)
			
 
				-    batch = {"input": torch.zeros(1)}
			
 
				+    mock_tensor = mocker.MagicMock(name="tensor")
			
 
				+    batch = {"input": mock_tensor}
			
 
				     train_dataloader = [batch, batch, batch, batch, batch]
			
 
				     eval_dataloader = None
			
 
				     tokenizer = mocker.MagicMock()
			
@@ -37,7 +42,13 @@ def test_gradient_accumulation(mocker):
 
				     assert optimizer.zero_grad.call_count == 5
			
 
				     optimizer.zero_grad.reset_mock()
			
 
				     
			
 
				+    assert nullcontext.call_count == 5
			
 
				+    nullcontext.reset_mock()
			
 
				+    
			
 
				+    assert autocast.call_count == 0
			
 
				+    
			
 
				     gradient_accumulation_steps = 2
			
 
				+    train_config.use_fp16 = True
			
 
				     train(
			
 
				         model,
			
 
				         train_dataloader,
			
@@ -48,4 +59,6 @@ def test_gradient_accumulation(mocker):
 
				         gradient_accumulation_steps,
			
 
				         train_config,
			
 
				     )
			
 
				-    assert optimizer.zero_grad.call_count == 3
			
 
				+    assert optimizer.zero_grad.call_count == 3
			
 
				+    assert nullcontext.call_count == 0
			
 
				+    assert autocast.call_count == 5