fix PPO trainer

Former-commit-id: 21982a7d4dd9b7c3a1145b481f02b9990e32dc00
2026-01-10 08:00:36 +08:00 · 2023-08-02 19:10:23 +08:00
parent e4d0b8ee6e
commit 8bd1da7144
1 changed files with 1 additions and 1 deletions
--- a/src/llmtuner/tuner/ppo/trainer.py
+++ b/src/llmtuner/tuner/ppo/trainer.py
@@ -161,7 +161,7 @@ class PPOPeftTrainer(PPOTrainer, PeftTrainer):
            unwrapped_model.pretrained_model.generation_config._from_model_config = False

        queries, responses = [], []
-        query, response = inputs["input_ids"], response[:, inputs["input_ids"].size(-1):].detach().cpu()
+        query, response = inputs["input_ids"].detach().cpu(), response[:, inputs["input_ids"].size(-1):].detach().cpu()
        for i in range(len(query)):
            query_length = (query[i] != self.tokenizer.pad_token_id).nonzero()[0]
            response_length = (response[i] != self.tokenizer.pad_token_id).nonzero()[-1] + 1