Added the reference address for TRL PPO details.

2026-03-10 22:06:02 +08:00 · 2024-07-25 09:03:21 +08:00
parent 77cff78863
commit ceba96f9ed
2 changed files with 3 additions and 2 deletions
--- a/README_zh.md
+++ b/README_zh.md
@@ -47,7 +47,7 @@ https://github.com/user-attachments/assets/e6ce34b0-52d5-4f3e-a830-592106c4c272
 ## 项目特色

 - **多种模型**：LLaMA、LLaVA、Mistral、Mixtral-MoE、Qwen、Yi、Gemma、Baichuan、ChatGLM、Phi 等等。
- **集成方法**：（增量）预训练、（多模态）指令监督微调、奖励模型训练、PPO 训练、DPO 训练、KTO 训练、ORPO 训练等等。
+- **集成方法**：（增量）预训练、（多模态）指令监督微调、奖励模型训练、PPO（有关TRL PPO的详细信息，请参阅[此博客](https://newfacade.github.io/notes-on-reinforcement-learning/17-ppo-trl.html)）、DPO 训练、KTO 训练、ORPO 训练等等。
 - **多种精度**：16 比特全参数微调、冻结微调、LoRA 微调和基于 AQLM/AWQ/GPTQ/LLM.int8/HQQ/EETQ 的 2/3/4/5/6/8 比特 QLoRA 微调。
 - **先进算法**：GaLore、BAdam、DoRA、LongLoRA、LLaMA Pro、Mixture-of-Depths、LoRA+、LoftQ、PiSSA 和 Agent 微调。
 - **实用技巧**：FlashAttention-2、Unsloth、RoPE scaling、NEFTune 和 rsLoRA。