ROCm · zejunchen-zejun · Mar 24, 2026 · Mar 25, 2026 · Mar 25, 2026 · Mar 25, 2026
diff --git a/.github/benchmark/oot_benchmark_models.json b/.github/benchmark/oot_benchmark_models.json
@@ -1,33 +1,33 @@
 [
   {
-    "display": "DeepSeek-R1 FP8",
+    "display": "DeepSeek-R1 FP8 TP8",
     "source_path": "deepseek-ai/DeepSeek-R1-0528",
     "path": "/models/DeepSeek-R1-0528",
     "prefix": "deepseek-r1-fp8",
     "extra_args": "--trust-remote-code --tensor-parallel-size 8 --max-num-batched-tokens 16384 --max-model-len 16384",
     "bench_args": "",
     "runner": "atom-mi355-8gpu.predownload",
-    "env_vars": "AITER_QUICK_REDUCE_QUANTIZATION=INT4\nATOM_ENABLE_QK_NORM_ROPE_CACHE_QUANT_FUSION=1"
+    "env_vars": "AITER_QUICK_REDUCE_QUANTIZATION=INT4"
   },
   {
-    "display": "DeepSeek-R1 MXFP4",
+    "display": "DeepSeek-R1 MXFP4 TP8",
     "source_path": "amd/DeepSeek-R1-0528-MXFP4",
     "path": "/models/DeepSeek-R1-0528-MXFP4",
     "prefix": "deepseek-r1-mxfp4",
     "extra_args": "--trust-remote-code --tensor-parallel-size 8 --max-num-batched-tokens 16384 --max-model-len 16384",
     "bench_args": "",
     "runner": "atom-mi355-8gpu.predownload",
-    "env_vars": "AITER_QUICK_REDUCE_QUANTIZATION=INT4\nATOM_ENABLE_QK_NORM_ROPE_CACHE_QUANT_FUSION=1"
+    "env_vars": "AITER_QUICK_REDUCE_QUANTIZATION=INT4"
   },
   {
-    "display": "gpt-oss-120b",
+    "display": "gpt-oss-120b TP1",
     "source_path": "amd/gpt-oss-120b-w-mxfp4-a-fp8",
     "path": "/models/gpt-oss-120b",
     "prefix": "gpt-oss-120b",
     "extra_args": "--trust-remote-code --tensor-parallel-size 1 --max-num-batched-tokens 16384 --max-model-len 16384",
     "bench_args": "",
-    "runner": "linux-atom-mi355-1",
-    "env_vars": "AITER_QUICK_REDUCE_QUANTIZATION=INT4\nATOM_ENABLE_QK_NORM_ROPE_CACHE_QUANT_FUSION=1"
+    "runner": "atom-mi355-8gpu.predownload",
+    "env_vars": "ATOM_ENABLE_QK_NORM_ROPE_CACHE_QUANT_FUSION=1"
   },
   {
     "display": "Kimi-K2-Thinking-MXFP4 TP4",
@@ -38,7 +38,7 @@
     "extra_args": "--trust-remote-code --tensor-parallel-size 4 --max-num-batched-tokens 16384 --max-model-len 16384",
     "bench_args": "",
     "runner": "atom-mi355-8gpu.predownload",
-    "env_vars": "AITER_QUICK_REDUCE_QUANTIZATION=INT4\nATOM_ENABLE_QK_NORM_ROPE_CACHE_QUANT_FUSION=1"
+    "env_vars": "AITER_QUICK_REDUCE_QUANTIZATION=INT4"
   },
   {
     "display": "Kimi-K2-Thinking-MXFP4 TP8",
@@ -49,6 +49,16 @@
     "extra_args": "--trust-remote-code --tensor-parallel-size 8 --max-num-batched-tokens 16384 --max-model-len 16384",
     "bench_args": "",
     "runner": "atom-mi355-8gpu.predownload",
-    "env_vars": "AITER_QUICK_REDUCE_QUANTIZATION=INT4\nATOM_ENABLE_QK_NORM_ROPE_CACHE_QUANT_FUSION=1"
+    "env_vars": "AITER_QUICK_REDUCE_QUANTIZATION=INT4"
+  },
+  {
+    "display": "Qwen3.5-397B-A17B-FP8 TP8",
+    "source_path": "Qwen/Qwen3.5-397B-A17B-FP8",
+    "path": "/models/Qwen3.5-397B-A17B-FP8",
+    "prefix": "qwen3-5-397b-a17b-fp8",
+    "extra_args": "--trust-remote-code --tensor-parallel-size 8 --max-num-batched-tokens 16384 --max-model-len 16384",
+    "bench_args": "",
+    "runner": "atom-mi355-8gpu.predownload",
+    "env_vars": "AITER_QUICK_REDUCE_QUANTIZATION=INT4\nATOM_DISABLE_VLLM_PLUGIN_ATTENTION=1\nATOM_USE_CUSTOM_ALL_GATHER=0"
   }
 ]
diff --git a/.github/scripts/oot_benchmark_to_dashboard.py b/.github/scripts/oot_benchmark_to_dashboard.py
@@ -50,6 +50,15 @@ def append_metric(
     entries.append(entry)
 
 
+def is_dashboard_publish_allowed(payload: dict) -> bool:
+    publish_flag = payload.get("dashboard_publish_allowed")
+    if publish_flag is None:
+        return True
+    if isinstance(publish_flag, bool):
+        return publish_flag
+    return str(publish_flag).strip().lower() not in {"0", "false", "no"}
+
+
 def build_entries(result_dir: Path, run_url: str | None) -> list[dict]:
     entries: list[dict] = []
 
@@ -62,6 +71,9 @@ def build_entries(result_dir: Path, run_url: str | None) -> list[dict]:
         except (OSError, UnicodeDecodeError, json.JSONDecodeError):
             continue
 
+        if not is_dashboard_publish_allowed(payload):
+            continue
+
         if "output_throughput" not in payload:
             continue