hace 1 año · cf678b9bf0
--- a/src/llama_recipes/configs/fsdp.py
+++ b/src/llama_recipes/configs/fsdp.py
@@ -1,8 +1,8 @@
 
				 # Copyright (c) Meta Platforms, Inc. and affiliates.
			
 
				 # This software may be used and distributed according to the terms of the Llama 2 Community License Agreement.
			
 
				 
			
 
				-from dataclasses import dataclass, field
			
 
				-from typing import ClassVar
			
 
				+from dataclasses import dataclass
			
 
				+
			
 
				 from torch.distributed.fsdp import ShardingStrategy
			
 
				 from torch.distributed.fsdp.fully_sharded_data_parallel import StateDictType
			
 
				 
			
--- a/src/llama_recipes/configs/peft.py
+++ b/src/llama_recipes/configs/peft.py
@@ -1,7 +1,7 @@
 
				 # Copyright (c) Meta Platforms, Inc. and affiliates.
			
 
				 # This software may be used and distributed according to the terms of the Llama 2 Community License Agreement.
			
 
				 
			
 
				-from dataclasses import dataclass, field
			
 
				+from dataclasses import dataclass
			
 
				 from typing import ClassVar, List
			
 
				 
			
 
				 @dataclass
			
--- a/src/llama_recipes/configs/training.py
+++ b/src/llama_recipes/configs/training.py
@@ -1,7 +1,7 @@
 
				 # Copyright (c) Meta Platforms, Inc. and affiliates.
			
 
				 # This software may be used and distributed according to the terms of the Llama 2 Community License Agreement.
			
 
				+
			
 
				 from dataclasses import dataclass
			
 
				-from typing import ClassVar
			
 
				 
			
 
				 
			
 
				 @dataclass
			
--- a/src/llama_recipes/datasets/alpaca_dataset.py
+++ b/src/llama_recipes/datasets/alpaca_dataset.py
@@ -5,12 +5,10 @@
 
				 
			
 
				 import copy
			
 
				 import json
			
 
				-import os
			
 
				-import torch
			
 
				 
			
 
				-from sentencepiece import SentencePieceProcessor
			
 
				+import torch
			
 
				 from torch.utils.data import Dataset
			
 
				-from typing import List
			
 
				+
			
 
				 
			
 
				 PROMPT_DICT = {
			
 
				     "prompt_input": (
			
--- a/src/llama_recipes/datasets/grammar_dataset/grammar_dataset.py
+++ b/src/llama_recipes/datasets/grammar_dataset/grammar_dataset.py
@@ -4,29 +4,13 @@
 
				 # For dataset details visit: https://huggingface.co/datasets/jfleg
			
 
				 # For download and preparation see: recipes/ft_datasets/grammar_dataset/grammar_dataset_process.ipynb
			
 
				 
			
 
				-import argparse
			
 
				-import csv
			
 
				-import glob
			
 
				-import os
			
 
				-import json
			
 
				-import time
			
 
				-import logging
			
 
				-import random
			
 
				-import re
			
 
				-from itertools import chain
			
 
				-from string import punctuation
			
 
				-
			
 
				-
			
 
				-import pandas as pd
			
 
				-import numpy as np
			
 
				-import torch
			
 
				-from torch.utils.data import Dataset
			
 
				 
			
 
				 from datasets import load_dataset
			
 
				 from pathlib import Path
			
 
				 
			
 
				-from ft_datasets.utils import ConcatDataset
			
 
				+from torch.utils.data import Dataset
			
 
				 
			
 
				+from ..utils import ConcatDataset
			
 
				 
			
 
				 
			
 
				 class grammar(Dataset):
			
--- a/src/llama_recipes/datasets/samsum_dataset.py
+++ b/src/llama_recipes/datasets/samsum_dataset.py
@@ -4,6 +4,7 @@
 
				 # For dataset details visit: https://huggingface.co/datasets/samsum
			
 
				 
			
 
				 import datasets
			
 
				+
			
 
				 from .utils import Concatenator
			
 
				 
			
 
				 def get_preprocessed_samsum(dataset_config, tokenizer, split):
			
--- a/src/llama_recipes/datasets/utils.py
+++ b/src/llama_recipes/datasets/utils.py
@@ -3,6 +3,7 @@
 
				 
			
 
				 from tqdm import tqdm
			
 
				 from itertools import chain
			
 
				+
			
 
				 from torch.utils.data import Dataset
			
 
				 
			
 
				 class Concatenator(object):
			
--- a/src/llama_recipes/finetuning.py
+++ b/src/llama_recipes/finetuning.py
@@ -2,13 +2,13 @@
 
				 # This software may be used and distributed according to the terms of the Llama 2 Community License Agreement.
			
 
				 
			
 
				 import os
			
 
				+from pkg_resources import packaging
			
 
				 
			
 
				 import fire
			
 
				 import torch
			
 
				 import torch.distributed as dist
			
 
				 import torch.optim as optim
			
 
				 from peft import get_peft_model, prepare_model_for_int8_training
			
 
				-from pkg_resources import packaging
			
 
				 from torch.distributed.fsdp import (
			
 
				     FullyShardedDataParallel as FSDP,
			
 
				 )
			
@@ -22,19 +22,18 @@ from transformers import (
 
				 )
			
 
				 from transformers.models.llama.modeling_llama import LlamaDecoderLayer
			
 
				 
			
 
				-import policies
			
 
				-from configs import fsdp_config, train_config
			
 
				-from policies import AnyPrecisionAdamW
			
 
				+from .configs import fsdp_config, train_config
			
 
				+from .policies import AnyPrecisionAdamW, apply_fsdp_checkpointing
			
 
				 
			
 
				-from utils import fsdp_auto_wrap_policy
			
 
				-from utils.config_utils import (
			
 
				+from .utils import fsdp_auto_wrap_policy
			
 
				+from .utils.config_utils import (
			
 
				     update_config,
			
 
				     generate_peft_config,
			
 
				     generate_dataset_config,
			
 
				 )
			
 
				-from utils.dataset_utils import get_preprocessed_dataset
			
 
				+from .utils.dataset_utils import get_preprocessed_dataset
			
 
				 
			
 
				-from utils.train_utils import (
			
 
				+from .utils.train_utils import (
			
 
				     train,
			
 
				     freeze_transformer_layers,
			
 
				     setup,
			
@@ -153,7 +152,7 @@ def main(**kwargs):
 
				             if train_config.low_cpu_fsdp and rank != 0 else None,
			
 
				         )
			
 
				         if fsdp_config.fsdp_activation_checkpointing:
			
 
				-            policies.apply_fsdp_checkpointing(model)
			
 
				+            apply_fsdp_checkpointing(model)
			
 
				     elif not train_config.quantization and not train_config.enable_fsdp:
			
 
				         model.to("cuda")
			
 
				 
			
--- a/src/llama_recipes/inference/chat_completion.py
+++ b/src/llama_recipes/inference/chat_completion.py
@@ -2,18 +2,18 @@
 
				 # This software may be used and distributed according to the terms of the Llama 2 Community License Agreement.
			
 
				 
			
 
				 # from accelerate import init_empty_weights, load_checkpoint_and_dispatch
			
 
				+
			
 
				 import fire
			
 
				-import torch
			
 
				 import os
			
 
				 import sys
			
 
				-import warnings
			
 
				 from typing import List
			
 
				 
			
 
				-from peft import PeftModel, PeftConfig
			
 
				-from transformers import LlamaConfig, LlamaTokenizer, LlamaForCausalLM
			
 
				-from safety_utils import get_safety_checker
			
 
				+import torch
			
 
				 from model_utils import load_model, load_peft_model
			
 
				-from chat_utils import read_dialogs_from_file, format_tokens
			
 
				+from transformers import LlamaTokenizer
			
 
				+from safety_utils import get_safety_checker
			
 
				+
			
 
				+from .chat_utils import read_dialogs_from_file, format_tokens
			
 
				 
			
 
				 def main(
			
 
				     model_name,
			
--- a/src/llama_recipes/inference/chat_utils.py
+++ b/src/llama_recipes/inference/chat_utils.py
@@ -1,8 +1,9 @@
 
				 # Copyright (c) Meta Platforms, Inc. and affiliates.
			
 
				 # This software may be used and distributed according to the terms of the Llama 2 Community License Agreement.
			
 
				 
			
 
				-from typing import List, Literal, Optional, Tuple, TypedDict, Union
			
 
				 import json
			
 
				+from typing import List, Literal, TypedDict
			
 
				+
			
 
				 
			
 
				 Role = Literal["user", "assistant"]
			
 
				 
			
--- a/src/llama_recipes/inference/checkpoint_converter_fsdp_hf.py
+++ b/src/llama_recipes/inference/checkpoint_converter_fsdp_hf.py
@@ -4,12 +4,14 @@
 
				 # from accelerate import init_empty_weights, load_checkpoint_and_dispatch
			
 
				 
			
 
				 import fire
			
 
				-import torch
			
 
				 import os
			
 
				 import sys
			
 
				 import yaml
			
 
				+
			
 
				 from transformers import LlamaTokenizer
			
 
				-from model_utils import  load_llama_from_config
			
 
				+
			
 
				+from .model_utils import  load_llama_from_config
			
 
				+
			
 
				 # Get the current file's directory
			
 
				 current_directory = os.path.dirname(os.path.abspath(__file__))
			
 
				 
			
--- a/src/llama_recipes/inference/inference.py
+++ b/src/llama_recipes/inference/inference.py
@@ -4,15 +4,16 @@
 
				 # from accelerate import init_empty_weights, load_checkpoint_and_dispatch
			
 
				 
			
 
				 import fire
			
 
				-import torch
			
 
				 import os
			
 
				 import sys
			
 
				 import time
			
 
				-from typing import List
			
 
				 
			
 
				+import torch
			
 
				 from transformers import LlamaTokenizer
			
 
				-from safety_utils import get_safety_checker
			
 
				-from model_utils import load_model, load_peft_model, load_llama_from_config
			
 
				+
			
 
				+from .safety_utils import get_safety_checker
			
 
				+from .model_utils import load_model, load_peft_model
			
 
				+
			
 
				 
			
 
				 def main(
			
 
				     model_name,
			
--- a/src/llama_recipes/inference/safety_utils.py
+++ b/src/llama_recipes/inference/safety_utils.py
@@ -5,8 +5,6 @@ import os
 
				 import torch
			
 
				 import warnings
			
 
				 
			
 
				-from peft import PeftConfig
			
 
				-from transformers import LlamaConfig, LlamaTokenizer, LlamaForCausalLM
			
 
				 
			
 
				 # Class for performing safety checks using AuditNLG library
			
 
				 class AuditNLGSensitiveTopics(object):
			
--- a/src/llama_recipes/inference/vLLM_inference.py
+++ b/src/llama_recipes/inference/vLLM_inference.py
@@ -1,20 +1,13 @@
 
				 # Copyright (c) Meta Platforms, Inc. and affiliates.
			
 
				 # This software may be used and distributed according to the terms of the Llama 2 Community License Agreement.
			
 
				 
			
 
				-from accelerate import init_empty_weights, load_checkpoint_and_dispatch
			
 
				 import fire
			
 
				+
			
 
				 import torch
			
 
				-import os
			
 
				-import sys
			
 
				-from peft import PeftModel, PeftConfig
			
 
				-from transformers import (
			
 
				-    LlamaConfig,
			
 
				-    LlamaTokenizer,
			
 
				-    LlamaForCausalLM
			
 
				-)
			
 
				 from vllm import LLM
			
 
				 from vllm import LLM, SamplingParams
			
 
				 
			
 
				+
			
 
				 torch.cuda.manual_seed(42)
			
 
				 torch.manual_seed(42)
			
 
				 
			
--- a/src/llama_recipes/policies/activation_checkpointing_functions.py
+++ b/src/llama_recipes/policies/activation_checkpointing_functions.py
@@ -1,18 +1,14 @@
 
				 # Copyright (c) Meta Platforms, Inc. and affiliates.
			
 
				 # This software may be used and distributed according to the terms of the Llama 2 Community License Agreement.
			
 
				 
			
 
				-import torch
			
 
				-import os
			
 
				-import torch.distributed as dist
			
 
				+from functools import partial
			
 
				+
			
 
				 from torch.distributed.algorithms._checkpoint.checkpoint_wrapper import (
			
 
				     checkpoint_wrapper,
			
 
				     CheckpointImpl,
			
 
				     apply_activation_checkpointing,
			
 
				 )
			
 
				-
			
 
				-from transformers.models.t5.modeling_t5 import T5Block
			
 
				 from transformers.models.llama.modeling_llama import LlamaDecoderLayer
			
 
				-from functools import partial
			
 
				 
			
 
				 non_reentrant_wrapper = partial(
			
 
				     checkpoint_wrapper,
			
--- a/src/llama_recipes/policies/mixed_precision.py
+++ b/src/llama_recipes/policies/mixed_precision.py
@@ -4,11 +4,7 @@
 
				 import torch
			
 
				 
			
 
				 from torch.distributed.fsdp import (
			
 
				-    # FullyShardedDataParallel as FSDP,
			
 
				-    # CPUOffload,
			
 
				     MixedPrecision,
			
 
				-    # BackwardPrefetch,
			
 
				-    # ShardingStrategy,
			
 
				 )
			
 
				 
			
 
				 # requires grad scaler in main loop
			
--- a/src/llama_recipes/policies/wrapping.py
+++ b/src/llama_recipes/policies/wrapping.py
@@ -1,28 +1,14 @@
 
				 # Copyright (c) Meta Platforms, Inc. and affiliates.
			
 
				 # This software may be used and distributed according to the terms of the Llama 2 Community License Agreement.
			
 
				 
			
 
				-import torch.distributed as dist
			
 
				-import torch.nn as nn
			
 
				-import torch
			
 
				+import functools
			
 
				 
			
 
				 from transformers.models.llama.modeling_llama import LlamaDecoderLayer
			
 
				-
			
 
				-from torch.distributed.fsdp.fully_sharded_data_parallel import (
			
 
				-    FullyShardedDataParallel as FSDP,
			
 
				-    CPUOffload,
			
 
				-    BackwardPrefetch,
			
 
				-    MixedPrecision,
			
 
				-)
			
 
				 from torch.distributed.fsdp.wrap import (
			
 
				     transformer_auto_wrap_policy,
			
 
				     size_based_auto_wrap_policy,
			
 
				-    enable_wrap,
			
 
				-    wrap,
			
 
				 )
			
 
				 
			
 
				-import functools
			
 
				-from typing import Type
			
 
				-
			
 
				 
			
 
				 def get_size_policy(min_params=1e8):
			
 
				     num_wrap_policy = functools.partial(
			
--- a/src/llama_recipes/utils/config_utils.py
+++ b/src/llama_recipes/utils/config_utils.py
@@ -3,14 +3,14 @@
 
				 
			
 
				 import inspect
			
 
				 from dataclasses import fields
			
 
				+
			
 
				 from peft import (
			
 
				     LoraConfig,
			
 
				     AdaptionPromptConfig,
			
 
				     PrefixTuningConfig,
			
 
				 )
			
 
				 
			
 
				-import configs.datasets as datasets
			
 
				-from configs import lora_config, llama_adapter_config, prefix_config, train_config
			
 
				+from ..configs import datasets, lora_config, llama_adapter_config, prefix_config, train_config
			
 
				 from .dataset_utils import DATASET_PREPROC
			
 
				 
			
 
				 
			
--- a/src/llama_recipes/utils/dataset_utils.py
+++ b/src/llama_recipes/utils/dataset_utils.py
@@ -1,16 +1,15 @@
 
				 # Copyright (c) Meta Platforms, Inc. and affiliates.
			
 
				 # This software may be used and distributed according to the terms of the Llama 2 Community License Agreement.
			
 
				 
			
 
				-import torch
			
 
				-
			
 
				 from functools import partial
			
 
				 
			
 
				-from ft_datasets import (
			
 
				+import torch
			
 
				+
			
 
				+from ..datasets import (
			
 
				     get_grammar_dataset,
			
 
				     get_alpaca_dataset,
			
 
				     get_samsum_dataset,
			
 
				 )
			
 
				-from typing import Optional
			
 
				 
			
 
				 
			
 
				 DATASET_PREPROC = {
			
--- a/src/llama_recipes/utils/fsdp_utils.py
+++ b/src/llama_recipes/utils/fsdp_utils.py
@@ -3,10 +3,7 @@
 
				 
			
 
				 def fsdp_auto_wrap_policy(model, transformer_layer_name):
			
 
				     import functools
			
 
				-    import os
			
 
				 
			
 
				-    from accelerate import FullyShardedDataParallelPlugin
			
 
				-    from transformers.models.t5.modeling_t5 import T5Block
			
 
				     from torch.distributed.fsdp.wrap import _or_policy, lambda_auto_wrap_policy, transformer_auto_wrap_policy
			
 
				 
			
 
				     from peft.tuners import PrefixEncoder, PromptEmbedding, PromptEncoder
			
--- a/src/llama_recipes/utils/memory_utils.py
+++ b/src/llama_recipes/utils/memory_utils.py
@@ -1,12 +1,10 @@
 
				 # Copyright (c) Meta Platforms, Inc. and affiliates.
			
 
				 # This software may be used and distributed according to the terms of the Llama 2 Community License Agreement.
			
 
				+
			
 
				 import gc
			
 
				-import os
			
 
				-import sys
			
 
				+import psutil
			
 
				 import threading
			
 
				 
			
 
				-import numpy as np
			
 
				-import psutil
			
 
				 import torch
			
 
				 
			
 
				 def byte2gb(x):
			
--- a/src/llama_recipes/utils/train_utils.py
+++ b/src/llama_recipes/utils/train_utils.py
@@ -2,40 +2,25 @@
 
				 # This software may be used and distributed according to the terms of the Llama 2 Community License Agreement.
			
 
				 
			
 
				 import os
			
 
				-import sys
			
 
				-from typing import List
			
 
				-import yaml
			
 
				 import time
			
 
				+import yaml
			
 
				+from pathlib import Path
			
 
				+from pkg_resources import packaging
			
 
				+
			
 
				 
			
 
				-import fire
			
 
				 import torch
			
 
				-import transformers
			
 
				-from datasets import load_dataset
			
 
				-from tqdm import tqdm
			
 
				-"""
			
 
				-Unused imports:
			
 
				-import torch.nn as nn
			
 
				-import bitsandbytes as bnb
			
 
				-"""
			
 
				-from torch.nn import functional as F
			
 
				-from peft import (
			
 
				-    LoraConfig,
			
 
				-    get_peft_model,
			
 
				-    get_peft_model_state_dict,
			
 
				-    prepare_model_for_int8_training,
			
 
				-    set_peft_model_state_dict,
			
 
				-)
			
 
				-from transformers import LlamaForCausalLM, LlamaTokenizer
			
 
				-from torch.distributed.fsdp import StateDictType
			
 
				-import torch.distributed as dist
			
 
				-from pkg_resources import packaging
			
 
				-from .memory_utils import MemoryTrace
			
 
				-import model_checkpointing
			
 
				 import torch.cuda.nccl as nccl
			
 
				+import torch.distributed as dist
			
 
				+from torch.distributed.fsdp import StateDictType
			
 
				 from torch.distributed.fsdp.sharded_grad_scaler import ShardedGradScaler
			
 
				-from pathlib import Path
			
 
				-sys.path.append(str(Path(__file__).resolve().parent.parent))
			
 
				-from policies import bfSixteen, fpSixteen,bfSixteen_mixed, get_llama_wrapper
			
 
				+from tqdm import tqdm
			
 
				+from transformers import LlamaTokenizer
			
 
				+
			
 
				+
			
 
				+from .memory_utils import MemoryTrace
			
 
				+from ..model_checkpointing import save_model_checkpoint, save_model_and_optimizer_sharded, save_optimizer_checkpoint
			
 
				+from ..policies import fpSixteen,bfSixteen_mixed, get_llama_wrapper
			
 
				+
			
 
				 
			
 
				 def set_tokenizer_params(tokenizer: LlamaTokenizer):
			
 
				     tokenizer.pad_token_id = 0
			
@@ -162,21 +147,21 @@ def train(model, train_dataloader,eval_dataloader, tokenizer, optimizer, lr_sche
 
				                 else:
			
 
				                     if not train_config.use_peft and fsdp_config.checkpoint_type == StateDictType.FULL_STATE_DICT:
			
 
				                         
			
 
				-                        model_checkpointing.save_model_checkpoint(
			
 
				+                        save_model_checkpoint(
			
 
				                             model, optimizer, rank, train_config, epoch=epoch
			
 
				                         )
			
 
				                     elif not train_config.use_peft and fsdp_config.checkpoint_type == StateDictType.SHARDED_STATE_DICT:
			
 
				                         print(" Saving the FSDP model checkpoints using SHARDED_STATE_DICT")
			
 
				                         print("=====================================================")
			
 
				                         
			
 
				-                        model_checkpointing.save_model_and_optimizer_sharded(model, rank, train_config)
			
 
				+                        save_model_and_optimizer_sharded(model, rank, train_config)
			
 
				                         if train_config.save_optimizer:
			
 
				-                            model_checkpointing.save_model_and_optimizer_sharded(model, rank, train_config, optim=optimizer)
			
 
				+                            save_model_and_optimizer_sharded(model, rank, train_config, optim=optimizer)
			
 
				                             print(" Saving the FSDP model checkpoints and optimizer using SHARDED_STATE_DICT")
			
 
				                             print("=====================================================")
			
 
				 
			
 
				                     if not train_config.use_peft and  train_config.save_optimizer:
			
 
				-                        model_checkpointing.save_optimizer_checkpoint(
			
 
				+                        save_optimizer_checkpoint(
			
 
				                             model, optimizer, rank, train_config, epoch=epoch
			
 
				                         )
			
 
				                         print(" Saving the FSDP model checkpoints and optimizer using FULL_STATE_DICT")