diff --git a/src/llamafactory/data/collator.py b/src/llamafactory/data/collator.py
index c14f17e0..ba6a3da7 100644
--- a/src/llamafactory/data/collator.py
+++ b/src/llamafactory/data/collator.py
@@ -155,7 +155,7 @@ class MultiModalDataCollatorForSeq2Seq(DataCollatorForSeq2Seq):
         if "image_bound" in features:  # for minicpmv inputs
             bsz, seq_length = features["input_ids"].shape
             features["position_ids"] = torch.arange(seq_length).long().repeat(bsz, 1)
-            return {"data": features, "labels": features["labels"]}
+            return {"data": features, "input_ids": features["input_ids"], "labels": features["labels"]}
 
         return features