fix(qwen3_vl): use image_patch_size=16 for video frame resizing

kcz358 · kcz358 · commit 1b4caadfd0f3 · 2026-04-13T02:38:07.000-07:00
qwen_vl_utils.fetch_video() defaults to image_patch_size=14 (Qwen2 VL), causing video frames to be resized with factor=28 instead of the correct factor=32 for Qwen3 VL (patch_size=16). Fixes the dataset-side issue reported in #132.
diff --git a/src/lmms_engine/datasets/iterable/qwen3_vl_iterable_dataset.py b/src/lmms_engine/datasets/iterable/qwen3_vl_iterable_dataset.py
@@ -91,13 +91,17 @@ def load_video_qwen_vl_utils(
         if self.config.video_sampling_strategy == "frame_num":
             n_frames = self.config.frame_num
             video_dict["nframes"] = n_frames
-            video_inputs, sample_fps = fetch_video(video_dict, return_video_sample_fps=True, return_video_metadata=True)
+            video_inputs, sample_fps = fetch_video(
+                video_dict, image_patch_size=16, return_video_sample_fps=True, return_video_metadata=True
+            )
             frames, video_metadata = video_inputs
             frames = frames.numpy()
             return frames, video_metadata, sample_fps
         elif self.config.video_sampling_strategy == "fps":
             video_dict["fps"] = fps
-            video_inputs, sample_fps = fetch_video(video_dict, return_video_sample_fps=True, return_video_metadata=True)
+            video_inputs, sample_fps = fetch_video(
+                video_dict, image_patch_size=16, return_video_sample_fps=True, return_video_metadata=True
+            )
             frames, video_metadata = video_inputs
             frames = frames.numpy()
             return frames, video_metadata, sample_fps
diff --git a/src/lmms_engine/datasets/naive/qwen3_vl_dataset.py b/src/lmms_engine/datasets/naive/qwen3_vl_dataset.py
@@ -101,13 +101,17 @@ def load_video_qwen_vl_utils(
         if self.config.video_sampling_strategy == "frame_num":
             n_frames = self.config.frame_num
             video_dict["nframes"] = n_frames
-            video_inputs, sample_fps = fetch_video(video_dict, return_video_sample_fps=True, return_video_metadata=True)
+            video_inputs, sample_fps = fetch_video(
+                video_dict, image_patch_size=16, return_video_sample_fps=True, return_video_metadata=True
+            )
             frames, video_metadata = video_inputs
             frames = frames.numpy()
             return frames, video_metadata, sample_fps
         elif self.config.video_sampling_strategy == "fps":
             video_dict["fps"] = fps
-            video_inputs, sample_fps = fetch_video(video_dict, return_video_sample_fps=True, return_video_metadata=True)
+            video_inputs, sample_fps = fetch_video(
+                video_dict, image_patch_size=16, return_video_sample_fps=True, return_video_metadata=True
+            )
             frames, video_metadata = video_inputs
             frames = frames.numpy()
             return frames, video_metadata, sample_fps