[trainer] fix batch processing in PPO trainer (#7576)

2025-11-08 14:24:47 +08:00 · 2025-04-02 21:17:48 +08:00 · 2025-04-02 21:17:48 +08:00 · 11997593be
commit 11997593be
parent 903db09822
1 changed files with 5 additions and 3 deletions
--- a/src/llamafactory/train/ppo/trainer.py
+++ b/src/llamafactory/train/ppo/trainer.py
@ -241,9 +241,11 @@ class CustomPPOTrainer(PPOTrainer, Trainer):
            self.tokenizer.padding_side = "right"  # change padding side
            queries, responses, rewards = [], [], []
            for idx in range(0, self.config.batch_size, self.config.mini_batch_size):
-                mini_batch_queries, mini_batch_responses = self.get_inputs(
+                mini_batch = {
-                    batch[idx : idx + self.config.mini_batch_size]
+                    "input_ids": batch["input_ids"][idx : idx + self.config.mini_batch_size],
-                )
+                    "attention_mask": batch["attention_mask"][idx : idx + self.config.mini_batch_size]
                }
                mini_batch_queries, mini_batch_responses = self.get_inputs(mini_batch)
                mini_batch_rewards = self.get_rewards(mini_batch_queries, mini_batch_responses)
                queries.extend(mini_batch_queries)
                responses.extend(mini_batch_responses)