1 سال پیش · 8620ab8ac2
--- a/examples/custom_dataset.py
+++ b/examples/custom_dataset.py
@@ -7,23 +7,22 @@ import copy
 
				 import datasets
			
 
				 import itertools
			
 
				 
			
 
				-from llama_recipes.datasets.utils import Concatenator
			
 
				-
			
 
				 
			
 
				 B_INST, E_INST = "[INST]", "[/INST]"
			
 
				 
			
 
				 def tokenize_dialog(dialog, tokenizer):
			
 
				     prompt_tokens = [tokenizer.encode(f"{tokenizer.bos_token}{B_INST} {(prompt['content']).strip()} {E_INST}", add_special_tokens=False) for prompt in dialog[::2]]
			
 
				     answer_tokens = [tokenizer.encode(f"{answer['content'].strip()} {tokenizer.eos_token}", add_special_tokens=False) for answer in dialog[1::2]]
			
 
				-    answer_tokens = [{k:v[1:] for k,v in items.items()} for items in answer_tokens]
			
 
				     dialog_tokens = list(itertools.chain.from_iterable(zip(prompt_tokens, answer_tokens)))
			
 
				     #Add labels, convert prompt token to -100 in order to ignore in loss function
			
 
				-    dialog_tokens = [dict(c, labels=len(c["input_ids"])*[-100,]if i % 2 == 0 else c["input_ids"]) for i,c in enumerate(dialog_tokens)]
			
 
				+    labels_tokens = [len(c)*[-100,] if i % 2 == 0 else c for i,c in enumerate(dialog_tokens)]
			
 
				+
			
 
				+    combined_tokens = {
			
 
				+        "input_ids": list(itertools.chain(*(t for t in dialog_tokens))),
			
 
				+        "labels": list(itertools.chain(*(t for t in labels_tokens))),
			
 
				+    }
			
 
				 
			
 
				-    combined_tokens = {}
			
 
				-    for k in dialog_tokens[0].keys():
			
 
				-        combined_tokens[k] = list(itertools.chain(*(t[k] for t in dialog_tokens)))
			
 
				-    return combined_tokens
			
 
				+    return dict(combined_tokens, attention_mask=[1]*len(combined_tokens["input_ids"]))
			
 
				 
			
 
				 
			
 
				 def get_custom_dataset(dataset_config, tokenizer, split):
			
--- a/tests/datasets/test_custom_dataset.py
+++ b/tests/datasets/test_custom_dataset.py
@@ -4,14 +4,33 @@
 
				 import pytest
			
 
				 from unittest.mock import patch
			
 
				 
			
 
				+from transformers import LlamaTokenizer
			
 
				+
			
 
				+def check_padded_entry(batch):
			
 
				+    seq_len = sum(batch["attention_mask"][0])
			
 
				+    assert seq_len < len(batch["attention_mask"][0])
			
 
				+
			
 
				+    assert batch["labels"][0][0] == -100
			
 
				+    assert batch["labels"][0][seq_len-1] == 2
			
 
				+    assert batch["labels"][0][-1] == -100
			
 
				+    assert batch["input_ids"][0][0] == 1
			
 
				+    assert batch["input_ids"][0][-1] == 2
			
 
				+
			
 
				 
			
 
				 @patch('llama_recipes.finetuning.train')
			
 
				+@patch('llama_recipes.finetuning.LlamaTokenizer')
			
 
				 @patch('llama_recipes.finetuning.LlamaForCausalLM.from_pretrained')
			
 
				 @patch('llama_recipes.finetuning.optim.AdamW')
			
 
				 @patch('llama_recipes.finetuning.StepLR')
			
 
				-def test_custom_dataset(step_lr, optimizer, get_model, train, mocker):
			
 
				+def test_custom_dataset(step_lr, optimizer, get_model, tokenizer, train, mocker):
			
 
				     from llama_recipes.finetuning import main
			
 
				 
			
 
				+    #Align with Llama 2 tokenizer
			
 
				+    tokenizer.from_pretrained.return_value = LlamaTokenizer.from_pretrained("decapoda-research/llama-7b-hf")
			
 
				+    tokenizer.from_pretrained.return_value.add_special_tokens({'bos_token': '<s>', 'eos_token': '</s>'})
			
 
				+    tokenizer.from_pretrained.return_value.bos_token_id = 1
			
 
				+    tokenizer.from_pretrained.return_value.eos_token_id = 2
			
 
				+
			
 
				     kwargs = {
			
 
				         "dataset": "custom_dataset",
			
 
				         "model_name": "decapoda-research/llama-7b-hf", # We use the tokenizer as a surrogate for llama2 tokenizer here
			
@@ -20,6 +39,7 @@ def test_custom_dataset(step_lr, optimizer, get_model, train, mocker):
 
				         "batch_size_training": 2,
			
 
				         "val_batch_size": 4,
			
 
				         "use_peft": False,
			
 
				+        "batching_strategy": "padding"
			
 
				         }
			
 
				 
			
 
				     main(**kwargs)
			
@@ -35,28 +55,30 @@ def test_custom_dataset(step_lr, optimizer, get_model, train, mocker):
 
				     assert len(eval_dataloader) == 1120 //2
			
 
				 
			
 
				     it = iter(eval_dataloader)
			
 
				-    STRING = tokenizer.decode(next(it)["input_ids"][0], skip_special_tokens=True)
			
 
				+    batch = next(it)
			
 
				+    STRING = tokenizer.decode(batch["input_ids"][0], skip_special_tokens=True)
			
 
				     EXPECTED_STRING = "[INST] Who made Berlin [/INST] dunno"
			
 
				     assert STRING.startswith(EXPECTED_STRING)
			
 
				 
			
 
				-    # assert next(it)["input_ids"].size(0) == 4
			
 
				-    # it = iter(train_dataloader)
			
 
				-    # entry = next(it)
			
 
				-    # STRING = tokenizer.decode(entry["input_ids"][0], skip_special_tokens=True)
			
 
				-    # EXPECTED_STRING = "[INST] Напиши функцию на языке swift, которая сортирует массив целых чисел, а затем выводит его на экран [/INST] Вот функция, "
			
 
				+    assert batch["input_ids"].size(0) == 4
			
 
				+    assert set(("labels", "input_ids", "attention_mask")) == set(batch.keys())
			
 
				 
			
 
				-    # assert STRING.startswith(EXPECTED_STRING)
			
 
				-    # assert entry["labels"][0][:10].tolist() == 10*[-100]
			
 
				+    check_padded_entry(batch)
			
 
				 
			
 
				-    next(it)
			
 
				-    next(it)
			
 
				-    STRING = tokenizer.decode(next(it)["input_ids"][0], skip_special_tokens=True)
			
 
				-    EXPECTED_STRING = "[INST] Implementa el algoritmo `bubble sort` en C. [/INST] xdxdxd"
			
 
				+    it = iter(train_dataloader)
			
 
				+    for _ in range(5):
			
 
				+        next(it)
			
 
				+
			
 
				+    batch = next(it)
			
 
				+    STRING = tokenizer.decode(batch["input_ids"][0], skip_special_tokens=True)
			
 
				+    EXPECTED_STRING = "[INST] How do I initialize a Typescript project using npm and git? [/INST] # Initialize a new NPM project"
			
 
				     assert STRING.startswith(EXPECTED_STRING)
			
 
				 
			
 
				-    assert "labels" in next(iter(train_dataloader)).keys()
			
 
				-    assert "input_ids" in next(iter(train_dataloader)).keys()
			
 
				-    assert "attention_mask" in next(iter(train_dataloader)).keys()
			
 
				+    assert batch["input_ids"].size(0) == 2
			
 
				+    assert set(("labels", "input_ids", "attention_mask")) == set(batch.keys())
			
 
				+
			
 
				+    check_padded_entry(batch)
			
 
				+
			
 
				 
			
 
				 
			
 
				 @patch('llama_recipes.finetuning.train')