[infer] vllm video/audio inference (#7566)

2026-03-01 01:06:00 +08:00 · 2025-04-02 02:27:04 +08:00
parent 2bfcad2394
commit 5e22597ff1
10 changed files with 329 additions and 285 deletions
--- a/src/llamafactory/api/protocol.py
+++ b/src/llamafactory/api/protocol.py
@@ -70,14 +70,17 @@ class FunctionCall(BaseModel):
    function: Function


-class ImageURL(BaseModel):
+class URL(BaseModel):
    url: str
+    detail: Literal["auto", "low", "high"] = "auto"


 class MultimodalInputItem(BaseModel):
-    type: Literal["text", "image_url"]
+    type: Literal["text", "image_url", "video_url", "audio_url"]
    text: Optional[str] = None
-    image_url: Optional[ImageURL] = None
+    image_url: Optional[URL] = None
+    video_url: Optional[URL] = None
+    audio_url: Optional[URL] = None


 class ChatMessage(BaseModel):