Update MiniMax MXFP4 benchmark to M2.5 with vLLM v0.17.1

functionstackx · claude · functionstackx · commit 86cc700ea557 · 2026-03-19T21:57:12.000-04:00
- Model: amd/MiniMax-M2.1-MXFP4 → amd/MiniMax-M2.5-MXFP4
- Image: vllm/vllm-openai-rocm v0.16.0 → v0.17.1
- Rename config key and script from m2.1 to m2.5
- Update perf-changelog entry

Co-Authored-By: Claude Opus 4.6 (1M context) &lt;noreply@anthropic.com&gt;
diff --git a/.github/configs/amd-master.yaml b/.github/configs/amd-master.yaml
@@ -384,10 +384,10 @@ minimaxm2.5-fp8-mi355x-vllm:
     - { tp: 2, conc-start: 4, conc-end: 64 }
     - { tp: 4, conc-start: 4, conc-end: 64 }
 
-minimaxm2.1-fp4-mi355x-vllm:
-  image: vllm/vllm-openai-rocm:v0.16.0
-  model: amd/MiniMax-M2.1-MXFP4
-  model-prefix: minimaxm2.1
+minimaxm2.5-fp4-mi355x-vllm:
+  image: vllm/vllm-openai-rocm:v0.17.1
+  model: amd/MiniMax-M2.5-MXFP4
+  model-prefix: minimaxm2.5
   runner: mi355x
   precision: fp4
   framework: vllm
diff --git a/benchmarks/single_node/minimaxm2.5_fp4_mi355x.sh b/benchmarks/single_node/minimaxm2.5_fp4_mi355x.sh
@@ -42,7 +42,6 @@ vllm serve $MODEL --port $PORT \
 --gpu-memory-utilization 0.95 \
 --max-model-len $MAX_MODEL_LEN \
 --block-size=32 \
---disable-log-requests \
 --trust-remote-code > $SERVER_LOG 2>&1 &
 
 SERVER_PID=$!
diff --git a/perf-changelog.yaml b/perf-changelog.yaml
@@ -856,7 +856,7 @@
     - "TP=8, concurrency 4-64 for 1k1k, 1k8k, and 8k1k sequence lengths"
     - "following https://docs.vllm.ai/projects/recipes/en/latest/moonshotai/Kimi-K2.5.html"
   pr-link: https://github.com/SemiAnalysisAI/InferenceX/pull/839
-
+  
 - config-keys:
     - dsr1-fp8-mi355x-sglang-disagg
     - dsr1-fp8-mi355x-sglang-disagg-mtp
@@ -888,7 +888,7 @@
     - "Enable SGLANG_ENABLE_FLASHINFER_GEMM=true, NCCL_NVLS_ENABLE=1"
   pr-link: https://github.com/SemiAnalysisAI/InferenceX/pull/804
 
-- config-keys:
+- config-keys: 
     - qwen3.5-fp8-h200-sglang
   description:
     - "Add Qwen 3.5 FP8 H200 SGLang configuration"
@@ -918,7 +918,7 @@
     - "Redo qwen eval"
   pr-link: https://github.com/SemiAnalysisAI/InferenceX/pull/892
   evals-only: true
-
+  
 - config-keys:
     - gptoss-fp4-mi300x-vllm
     - gptoss-fp4-mi325x-vllm
@@ -931,7 +931,7 @@
     - "Switch to --attention-backend ROCM_AITER_UNIFIED_ATTN and add fuse_rope_kvcache compilation pass"
     - "Remove deprecated VLLM_ROCM_USE_AITER_UNIFIED_ATTENTION/VLLM_ROCM_USE_AITER_MHA env vars and compilation-config cudagraph_mode"
   pr-link: https://github.com/SemiAnalysisAI/InferenceX/pull/867
-
+  
 - config-keys:
     - kimik2.5-fp4-b200-vllm
   description:
@@ -970,7 +970,7 @@
     - "Replace old per-file recipes with resolved variants from consolidated 8k1k.yaml"
     - "14 variants: STP/MTP x low-latency/max-throughput with updated concurrencies and scale points"
   pr-link: https://github.com/SemiAnalysisAI/InferenceX/pull/907
-
+  
 - config-keys:
     - glm5-fp8-h200-sglang
   description:
@@ -981,12 +981,11 @@
   pr-link: https://github.com/SemiAnalysisAI/InferenceX/pull/914
 
 - config-keys:
-    - minimaxm2.1-fp4-mi355x-vllm
+    - minimaxm2.5-fp4-mi355x-vllm
   description:
-    - "Add MiniMax M2.1 MXFP4 vLLM benchmark for MI355X"
-    - "Model: amd/MiniMax-M2.1-MXFP4 with --trust-remote-code and --block-size=32"
-    - "Image: vllm/vllm-openai-rocm:v0.16.0"
+    - "Add MiniMax M2.5 MXFP4 vLLM benchmark for MI355X"
+    - "Model: amd/MiniMax-M2.5-MXFP4 with --trust-remote-code and --block-size=32"
+    - "Image: vllm/vllm-openai-rocm:v0.17.1"
     - "Environment: VLLM_ROCM_USE_AITER=1"
-    - "TP=2 only (TP=4 disabled due to vLLM bug https://github.com/vllm-project/vllm/issues/35637)"
-    - "Concurrency 4-64 for 1k1k, 1k8k, and 8k1k sequence lengths"
+    - "TP=2 and TP=4, concurrency 4-64 for 1k1k, 1k8k, and 8k1k sequence lengths"
   pr-link: https://github.com/SemiAnalysisAI/InferenceX/pull/827