Merge pull request #3794 from jue-jue-zi/main

feat: pass the `max_lora_rank` parameter to vLLM backend Former-commit-id: d7ff49f245cd34668cbe43366e5f1890876da5e7
2025-11-08 14:24:47 +08:00 · 2024-05-17 16:17:30 +08:00 · 2024-05-17 16:17:30 +08:00 · 2d1583faba
commit 2d1583faba
parent 9af3dce3c8 e4a2accf4a
2 changed files with 5 additions and 0 deletions
--- a/src/llamafactory/chat/vllm_engine.py
+++ b/src/llamafactory/chat/vllm_engine.py
@ -59,6 +59,7 @@ class VllmEngine(BaseEngine):
            "disable_log_requests": True,
            "enforce_eager": model_args.vllm_enforce_eager,
            "enable_lora": model_args.adapter_name_or_path is not None,
+            "max_lora_rank": model_args.vllm_max_lora_rank,
        }

        if model_args.visual_inputs:
--- a/src/llamafactory/hparams/model_args.py
+++ b/src/llamafactory/hparams/model_args.py
@ -117,6 +117,10 @@ class ModelArguments:
        default=False,
        metadata={"help": "Whether or not to disable CUDA graph in the vLLM engine."},
    )
+    vllm_max_lora_rank: int = field(
+        default=8,
+        metadata={"help": "Maximum rank of all LoRAs in the vLLM engine."},
+    )
    offload_folder: str = field(
        default="offload",
        metadata={"help": "Path to offload model weights."},