Update finetuning_args.py

Former-commit-id: 30e3430553f1f7e09cd57ef2c9843b549746c618
2025-11-28 19:24:20 +08:00 · 2023-11-17 00:15:51 -08:00 · 2023-11-17 00:15:51 -08:00 · bcd31cf245
commit bcd31cf245
parent dc0f81aabc
1 changed files with 4 additions and 0 deletions
--- a/src/llmtuner/hparams/finetuning_args.py
+++ b/src/llmtuner/hparams/finetuning_args.py
@ -74,6 +74,10 @@ class RLHFArguments:
        default=None,
        metadata={"help": "Log with either 'wandb' or 'tensorboard' in PPO training."}
    )
+    ppo_epochs: Optional[int] = field(
+        default=4,
+        metadata={"help": "Number of optimisation epochs per batch of samples"},
+    )
    ppo_score_norm: Optional[bool] = field(
        default=False,
        metadata={"help": "Use score normalization in PPO training."}