merge data part to the text stream

2025-12-15 11:20:35 +08:00 · 2024-04-25 19:19:59 +08:00
parent 838eb87a96
commit c6dd89918f
15 changed files with 828 additions and 293 deletions
--- a/src/llmtuner/train/sftmm/collator.py
+++ b/src/llmtuner/train/sftmm/collator.py
@@ -19,7 +19,9 @@ class DataCollatorForVis2Seq:
            texts.append(text)
            images.append(example["images"][0])

-        batch = self.processor(text=texts, images=images, return_tensors="pt", padding=True)
+        batch = self.processor(
+            text=texts, images=images, return_tensors="pt", padding=True
+        )

        labels = batch["input_ids"].clone()
        if self.processor.tokenizer.pad_token_id is not None:
@@ -27,3 +29,14 @@ class DataCollatorForVis2Seq:
        batch["labels"] = labels

        return batch
+
+
+@dataclass
+class DataCollatorForMLLM:
+    processor: AutoProcessor
+
+    def __call__(self, examples):
+        print(examples[0].keys())
+        print(examples[0]["input_ids"])
+        batch = {}
+        return batch