1 year ago · 72a9832571
--- a/README.md
+++ b/README.md
@@ -155,7 +155,7 @@ If you are interested in running full parameter fine-tuning on the 70B model, yo
 
				 
			
 
				 ```bash
			
 
				 
			
 
				-torchrun --nnodes 1 --nproc_per_node 8 examples/finetuning.py --enable_fsdp --low_cpu_fsdp --pure_bf16 --model_name /patht_of_model_folder/70B --batch_size_training 1 --micro_batch_size 1 --dist_checkpoint_root_folder model_checkpoints --dist_checkpoint_folder fine-tuned
			
 
				+torchrun --nnodes 1 --nproc_per_node 8 examples/finetuning.py --enable_fsdp --low_cpu_fsdp --pure_bf16 --model_name /patht_of_model_folder/70B --batch_size_training 1 --dist_checkpoint_root_folder model_checkpoints --dist_checkpoint_folder fine-tuned
			
 
				 
			
 
				 ```
			
 
				 
			
--- a/docs/inference.md
+++ b/docs/inference.md
@@ -33,11 +33,11 @@ Currently pad token by default in [HuggingFace Tokenizer is `None`](https://gith
 
				 ```python
			
 
				 tokenizer.add_special_tokens(
			
 
				         {
			
 
				-         
			
 
				+
			
 
				             "pad_token": "<PAD>",
			
 
				         }
			
 
				     )
			
 
				-model.resize_token_embeddings(model.config.vocab_size + 1) 
			
 
				+model.resize_token_embeddings(model.config.vocab_size + 1)
			
 
				 ```
			
 
				 Padding would be required for batch inference. In this this [example](../examples/inference.py), batch size = 1 so essentially padding is not required. However,We added the code pointer as an example in case of batch inference.
			
 
				 
			
@@ -99,7 +99,7 @@ In case you have fine-tuned your model with pure FSDP and saved the checkpoints
 
				 This is helpful if you have fine-tuned you model using FSDP only as follows:
			
 
				 
			
 
				 ```bash
			
 
				-torchrun --nnodes 1 --nproc_per_node 8  llama_finetuning.py --enable_fsdp --model_name /patht_of_model_folder/7B --dist_checkpoint_root_folder model_checkpoints --dist_checkpoint_folder fine-tuned --pure_bf16 
			
 
				+torchrun --nnodes 1 --nproc_per_node 8  examples/finetuning.py --enable_fsdp --model_name /patht_of_model_folder/7B --dist_checkpoint_root_folder model_checkpoints --dist_checkpoint_folder fine-tuned --pure_bf16
			
 
				 ```
			
 
				 Then convert your FSDP checkpoint to HuggingFace checkpoints using:
			
 
				 ```bash
			
@@ -116,6 +116,18 @@ python examples/inference.py --model_name <training_config.output_dir> --prompt_
 
				 
			
 
				 ```
			
 
				 
			
 
				+## Prompt Llama 2
			
 
				+
			
 
				+As outlined by [this blog by Hugging Face](https://huggingface.co/blog/llama2#how-to-prompt-llama-2), you can use the template below to prompt Llama 2 chat models. Review the [blog article](https://huggingface.co/blog/llama2#how-to-prompt-llama-2) for more information.
			
 
				+
			
 
				+```
			
 
				+<s>[INST] <<SYS>>
			
 
				+{{ system_prompt }}
			
 
				+<</SYS>>
			
 
				+
			
 
				+{{ user_message }} [/INST]
			
 
				+
			
 
				+```
			
 
				 
			
 
				 ## Other Inference Options
			
 
				 
			
--- a/docs/multi_gpu.md
+++ b/docs/multi_gpu.md
@@ -62,7 +62,7 @@ If you are interested in running full parameter fine-tuning on the 70B model, yo
 
				 
			
 
				 ```bash
			
 
				 
			
 
				-torchrun --nnodes 1 --nproc_per_node 8 examples/finetuning.py --enable_fsdp --low_cpu_fsdp --pure_bf16 --model_name /patht_of_model_folder/70B --batch_size_training 1 --micro_batch_size 1 --dist_checkpoint_root_folder model_checkpoints --dist_checkpoint_folder fine-tuned
			
 
				+torchrun --nnodes 1 --nproc_per_node 8 examples/finetuning.py --enable_fsdp --low_cpu_fsdp --pure_bf16 --model_name /patht_of_model_folder/70B --batch_size_training 1 --dist_checkpoint_root_folder model_checkpoints --dist_checkpoint_folder fine-tuned
			
 
				 
			
 
				 ```
			
 
				 
			
@@ -120,6 +120,7 @@ model_name: str="PATH/to/LLAMA 2/7B"
 
				 enable_fsdp: bool= False
			
 
				 run_validation: bool=True
			
 
				 batch_size_training: int=4
			
 
				+gradient_accumulation_steps: int=1
			
 
				 num_epochs: int=3
			
 
				 num_workers_dataloader: int=2
			
 
				 lr: float=2e-4
			
@@ -129,7 +130,6 @@ use_fp16: bool=False
 
				 mixed_precision: bool=True
			
 
				 val_batch_size: int=4
			
 
				 dataset = "samsum_dataset" # alpaca_dataset, grammar_dataset
			
 
				-micro_batch_size: int=1
			
 
				 peft_method: str = "lora" # None , llama_adapter, prefix
			
 
				 use_peft: bool=False
			
 
				 output_dir: str = "./ft-output"
			
--- a/docs/single_gpu.md
+++ b/docs/single_gpu.md
@@ -76,6 +76,7 @@ model_name: str="PATH/to/LLAMA 2/7B"
 
				 enable_fsdp: bool= False
			
 
				 run_validation: bool=True
			
 
				 batch_size_training: int=4
			
 
				+gradient_accumulation_steps: int=1
			
 
				 num_epochs: int=3
			
 
				 num_workers_dataloader: int=2
			
 
				 lr: float=2e-4
			
@@ -85,7 +86,6 @@ use_fp16: bool=False
 
				 mixed_precision: bool=True
			
 
				 val_batch_size: int=4
			
 
				 dataset = "samsum_dataset" # alpaca_dataset,grammar_dataset
			
 
				-micro_batch_size: int=1
			
 
				 peft_method: str = "lora" # None , llama_adapter, prefix
			
 
				 use_peft: bool=False
			
 
				 output_dir: str = "./ft-output"
			
--- a/examples/chat_completion/chat_completion.py
+++ b/examples/chat_completion/chat_completion.py
@@ -107,7 +107,7 @@ def main(
 
				             tokens= tokens.unsqueeze(0)
			
 
				             tokens= tokens.to("cuda:0")
			
 
				             outputs = model.generate(
			
 
				-                tokens,
			
 
				+                input_ids=tokens,
			
 
				                 max_new_tokens=max_new_tokens,
			
 
				                 do_sample=do_sample,
			
 
				                 top_p=top_p,
			
--- a/src/llama_recipes/configs/training.py
+++ b/src/llama_recipes/configs/training.py
@@ -11,6 +11,7 @@ class train_config:
 
				     low_cpu_fsdp: bool=False
			
 
				     run_validation: bool=True
			
 
				     batch_size_training: int=4
			
 
				+    gradient_accumulation_steps: int=1
			
 
				     num_epochs: int=3
			
 
				     num_workers_dataloader: int=1
			
 
				     lr: float=1e-4
			
@@ -21,7 +22,6 @@ class train_config:
 
				     mixed_precision: bool=True
			
 
				     val_batch_size: int=1
			
 
				     dataset = "samsum_dataset"
			
 
				-    micro_batch_size: int=4
			
 
				     peft_method: str = "lora" # None , llama_adapter, prefix
			
 
				     use_peft: bool=False
			
 
				     output_dir: str = "PATH/to/save/PEFT/model"
			
--- a/src/llama_recipes/finetuning.py
+++ b/src/llama_recipes/finetuning.py
@@ -64,9 +64,6 @@ def main(**kwargs):
 
				         clear_gpu_cache(local_rank)
			
 
				         setup_environ_flags(rank)
			
 
				 
			
 
				-    # Calculate gradient accumulation steps
			
 
				-    gradient_accumulation_steps = train_config.batch_size_training // train_config.micro_batch_size
			
 
				-
			
 
				     # Load the pre-trained model and setup its configuration
			
 
				     if train_config.enable_fsdp and train_config.low_cpu_fsdp:
			
 
				         """
			
@@ -240,7 +237,7 @@ def main(**kwargs):
 
				         tokenizer,
			
 
				         optimizer,
			
 
				         scheduler,
			
 
				-        gradient_accumulation_steps,
			
 
				+        train_config.gradient_accumulation_steps,
			
 
				         train_config,
			
 
				         fsdp_config if train_config.enable_fsdp else None,
			
 
				         local_rank if train_config.enable_fsdp else None,
			
--- a/src/llama_recipes/utils/train_utils.py
+++ b/src/llama_recipes/utils/train_utils.py
@@ -68,7 +68,9 @@ def train(model, train_dataloader,eval_dataloader, tokenizer, optimizer, lr_sche
 
				         with MemoryTrace() as memtrace:  # track the memory usage
			
 
				             model.train()
			
 
				             total_loss = 0.0
			
 
				-            for step, batch in enumerate(tqdm(train_dataloader,colour="blue", desc=f"Training Epoch{epoch}")):
			
 
				+            total_length = len(train_dataloader)//gradient_accumulation_steps
			
 
				+            pbar = tqdm(colour="blue", desc=f"Training Epoch: {epoch}", total=total_length)
			
 
				+            for step, batch in enumerate(train_dataloader):
			
 
				                 for key in batch.keys():
			
 
				                     if train_config.enable_fsdp:
			
 
				                         batch[key] = batch[key].to(local_rank)
			
@@ -84,17 +86,17 @@ def train(model, train_dataloader,eval_dataloader, tokenizer, optimizer, lr_sche
 
				                         scaler.step(optimizer)
			
 
				                         scaler.update()
			
 
				                         optimizer.zero_grad()
			
 
				+                        pbar.update(step//gradient_accumulation_steps)
			
 
				                 else:
			
 
				                     # regular backpropagation when fp16 is not used
			
 
				                     loss.backward()
			
 
				                     if (step + 1) % gradient_accumulation_steps == 0 or step == len(train_dataloader) - 1:
			
 
				                         optimizer.step()
			
 
				                         optimizer.zero_grad()
			
 
				-                if train_config.enable_fsdp:
			
 
				-                    if rank==0:       
			
 
				-                        print(f"\n step {step} is completed and loss is {loss.detach().float()}")
			
 
				-                else:
			
 
				-                    print(f"\n step {step} is completed and loss is {loss.detach().float()}")
			
 
				+                        pbar.update(step//gradient_accumulation_steps)
			
 
				+                
			
 
				+                pbar.set_description(f"Training Epoch: {epoch}/{train_config.num_epochs}, step {step}/{len(train_dataloader)} completed (loss: {loss.detach().float()})")
			
 
				+                
			
 
				         epoch_end_time = time.perf_counter()-epoch_start_time
			
 
				         epoch_times.append(epoch_end_time)    
			
 
				         # Reducing total_loss across all devices if there's more than one CUDA device