1 year ago · 322522e9a2
--- a/inference/chat_completion.py
+++ b/inference/chat_completion.py
@@ -107,7 +107,7 @@ def main(
 
				             tokens= tokens.unsqueeze(0)
			
 
				             tokens= tokens.to("cuda:0")
			
 
				             outputs = model.generate(
			
 
				-                tokens,
			
 
				+                input_ids=tokens,
			
 
				                 max_new_tokens=max_new_tokens,
			
 
				                 do_sample=do_sample,
			
 
				                 top_p=top_p,