1 tahun lalu · 8b0a233c1a
--- a/recipes/finetuning/datasets/custom_dataset.py
+++ b/recipes/finetuning/datasets/custom_dataset.py
@@ -11,11 +11,27 @@ import itertools
 
				 B_INST, E_INST = "[INST]", "[/INST]"
			
 
				 
			
 
				 def tokenize_dialog(dialog, tokenizer):
			
 
				-    prompt_tokens = [tokenizer.encode(f"{tokenizer.bos_token}{B_INST} {(prompt['content']).strip()} {E_INST}", add_special_tokens=False) for prompt in dialog[::2]]
			
 
				-    answer_tokens = [tokenizer.encode(f"{answer['content'].strip()} {tokenizer.eos_token}", add_special_tokens=False) for answer in dialog[1::2]]
			
 
				-    dialog_tokens = list(itertools.chain.from_iterable(zip(prompt_tokens, answer_tokens)))
			
 
				-    #Add labels, convert prompt token to -100 in order to ignore in loss function
			
 
				-    labels_tokens = [len(c)*[-100,] if i % 2 == 0 else c for i,c in enumerate(dialog_tokens)]
			
 
				+    if tokenizer.vocab_size >= 128000:
			
 
				+        dialog_tokens = tokenizer.apply_chat_template(dialog)
			
 
				+        dialog_tokens = dialog_tokens[:-4] # Remove generation prompt <|start_header_id|>assistant<|end_header_id|>\n\n
			
 
				+        eot_indices = [i for i,n in enumerate(dialog_tokens) if n == 128009]
			
 
				+        labels = copy.copy(dialog_tokens)
			
 
				+        last_idx = 0
			
 
				+        for n, idx in enumerate(eot_indices):
			
 
				+            if n % 2 == 1:
			
 
				+                last_idx = idx
			
 
				+            else:
			
 
				+                labels[last_idx:idx+1] = [-100] * (idx-last_idx+1)
			
 
				+
			
 
				+        dialog_tokens = [dialog_tokens]
			
 
				+        labels_tokens = [labels]
			
 
				+    else:
			
 
				+        prompt_tokens = [tokenizer.encode(f"{tokenizer.bos_token}{B_INST} {(prompt['content']).strip()} {E_INST}", add_special_tokens=False) for prompt in dialog[::2]]
			
 
				+        answer_tokens = [tokenizer.encode(f"{answer['content'].strip()} {tokenizer.eos_token}", add_special_tokens=False) for answer in dialog[1::2]]
			
 
				+        dialog_tokens = list(itertools.chain.from_iterable(zip(prompt_tokens, answer_tokens)))
			
 
				+
			
 
				+        #Add labels, convert prompt token to -100 in order to ignore in loss function
			
 
				+        labels_tokens = [len(c)*[-100,] if i % 2 == 0 else c for i,c in enumerate(dialog_tokens)]
			
 
				 
			
 
				     combined_tokens = {
			
 
				         "input_ids": list(itertools.chain(*(t for t in dialog_tokens))),
			
--- a/tests/datasets/test_custom_dataset.py
+++ b/tests/datasets/test_custom_dataset.py
@@ -12,8 +12,8 @@ EXPECTED_RESULTS={
 
				         "example_2": "[INST] Quiero preparar una pizza de pepperoni, puedes darme los pasos para hacerla? [/INST] Claro!",
			
 
				     },
			
 
				     "hsramall/hsramall-7b-hf":{
			
 
				-        "example_1": "[INST] こんにちは! [/INST]こんにちは！",
			
 
				-        "example_2": "[INST] Как появляются деньги в экономике? Я знаю, что центробанк страны обычно регулирует базовую ставку валюты, но",
			
 
				+        "example_1": "<|begin_of_text|><|start_header_id|>user<|end_header_id|>\n\nWho made Berlin<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\ndunno<|eot_id|><|end_of_text|>",
			
 
				+        "example_2": "<|begin_of_text|><|start_header_id|>user<|end_header_id|>\n\nHow to start learning guitar and become a master at it?",
			
 
				     },
			
 
				 }
			
 
				 
			
@@ -21,8 +21,13 @@ def check_padded_entry(batch, tokenizer):
 
				     seq_len = sum(batch["attention_mask"][0])
			
 
				     assert seq_len < len(batch["attention_mask"][0])
			
 
				 
			
 
				+    if tokenizer.vocab_size >= 128000:
			
 
				+        END_OF_TEXT_ID = 128009
			
 
				+    else:
			
 
				+        END_OF_TEXT_ID = tokenizer.eos_token_id
			
 
				+
			
 
				     assert batch["labels"][0][0] == -100
			
 
				-    assert batch["labels"][0][seq_len-1] == tokenizer.eos_token_id
			
 
				+    assert batch["labels"][0][seq_len-1] == END_OF_TEXT_ID
			
 
				     assert batch["labels"][0][-1] == -100
			
 
				     assert batch["input_ids"][0][0] == tokenizer.bos_token_id
			
 
				     assert batch["input_ids"][0][-1] == tokenizer.eos_token_id
			
@@ -39,6 +44,8 @@ def test_custom_dataset(step_lr, optimizer, get_model, tokenizer, train, mocker,
 
				 
			
 
				     setup_tokenizer(tokenizer)
			
 
				 
			
 
				+    skip_special_tokens = llama_version == "meta-llama/Llama-2-7b-hf"
			
 
				+
			
 
				     kwargs = {
			
 
				         "dataset": "custom_dataset",
			
 
				         "model_name": llama_version,
			
@@ -64,7 +71,7 @@ def test_custom_dataset(step_lr, optimizer, get_model, tokenizer, train, mocker,
 
				 
			
 
				     it = iter(eval_dataloader)
			
 
				     batch = next(it)
			
 
				-    STRING = tokenizer.decode(batch["input_ids"][0], skip_special_tokens=True)
			
 
				+    STRING = tokenizer.decode(batch["input_ids"][0], skip_special_tokens=skip_special_tokens)
			
 
				     assert STRING.startswith(EXPECTED_RESULTS[llama_version]["example_1"])
			
 
				 
			
 
				     assert batch["input_ids"].size(0) == 4
			
@@ -76,7 +83,7 @@ def test_custom_dataset(step_lr, optimizer, get_model, tokenizer, train, mocker,
 
				     next(it)
			
 
				 
			
 
				     batch = next(it)
			
 
				-    STRING = tokenizer.decode(batch["input_ids"][0], skip_special_tokens=True)
			
 
				+    STRING = tokenizer.decode(batch["input_ids"][0], skip_special_tokens=skip_special_tokens)
			
 
				     assert STRING.startswith(EXPECTED_RESULTS[llama_version]["example_2"])
			
 
				 
			
 
				     assert batch["input_ids"].size(0) == 2