hiyouga 9df316931b update examples
Former-commit-id: 31ffbde24dd2e30c3d06331ac4b47d966fc2a191
2024-04-02 20:41:49 +08:00
..
2024-03-26 17:53:04 +08:00
2024-03-21 00:36:06 +08:00
2024-04-02 20:41:49 +08:00
2024-04-02 20:07:43 +08:00
2024-04-02 20:07:43 +08:00
2024-04-02 20:07:43 +08:00
2024-04-02 20:41:49 +08:00
2024-04-02 20:41:49 +08:00
2024-02-28 23:19:25 +08:00
2024-04-02 20:41:49 +08:00

We provide diverse examples about fine-tuning LLMs.

examples/
├── lora_single_gpu/
│   ├── pt.sh: Pre-training
│   ├── sft.sh: Supervised fine-tuning
│   ├── reward.sh: Reward modeling
│   ├── ppo.sh: PPO training
│   ├── dpo.sh: DPO training
│   ├── orpo.sh: ORPO training
│   ├── prepare.sh: Save tokenized dataset
│   └── predict.sh: Batch prediction
├── qlora_single_gpu/
│   ├── bitsandbytes.sh
│   ├── gptq.sh
│   ├── awq.sh
│   └── aqlm.sh
├── lora_multi_gpu/
│   ├── single_node.sh
│   └── multi_node.sh
├── full_multi_gpu/
│   ├── single_node.sh
│   └── multi_node.sh
├── merge_lora/
│   ├── merge.sh: Merge LoRA weights
│   └── quantize.sh: Quantize with AutoGPTQ
├── inference/
│   ├── cli_demo.sh
│   ├── api_demo.sh
│   ├── web_demo.sh
│   └── evaluate.sh
└── extras/
    ├── galore/
    │   └── sft.sh
    ├── loraplus/
    │   └── sft.sh
    ├── llama_pro/
    │   ├── expand.sh
    │   └── sft.sh
    └── fsdp_qlora/
        └── sft.sh