LLaMA-Factory

examples/
├── lora_single_gpu/
│   ├── pt.sh: Pre-training
│   ├── sft.sh: Supervised fine-tuning
│   ├── reward.sh: Reward modeling
│   ├── ppo.sh: PPO training
│   ├── dpo.sh: DPO training
│   ├── orpo.sh: ORPO training
│   ├── prepare.sh: Save tokenized dataset
│   └── predict.sh: Batch prediction
├── qlora_single_gpu/
│   ├── bitsandbytes.sh
│   ├── gptq.sh
│   ├── awq.sh
│   └── aqlm.sh
├── lora_multi_gpu/
│   ├── single_node.sh
│   └── multi_node.sh
├── full_multi_gpu/
│   ├── single_node.sh
│   └── multi_node.sh
├── merge_lora/
│   ├── merge.sh: Merge LoRA weights
│   └── quantize.sh: Quantize with AutoGPTQ
├── inference/
│   ├── cli_demo.sh
│   ├── api_demo.sh
│   ├── web_demo.sh
│   └── evaluate.sh
└── extras/
    ├── galore/
    │   └── sft.sh
    ├── loraplus/
    │   └── sft.sh
    ├── llama_pro/
    │   ├── expand.sh
    │   └── sft.sh
    └── fsdp_qlora/
        └── sft.sh