eval-protocol
diff --git a/‎eval_protocol/benchmarks/data/aime.jsonl‎
Lines changed: 0 additions & 1 deletion b/‎eval_protocol/benchmarks/data/aime.jsonl‎
Lines changed: 0 additions & 1 deletion
diff --git a/‎eval_protocol/benchmarks/test_aime25.py‎
Lines changed: 5 additions & 9 deletions b/‎eval_protocol/benchmarks/test_aime25.py‎
Lines changed: 5 additions & 9 deletions
@@ -79,27 +79,23 @@ def aime2025_dataset_adapter(rows: List[Dict[str, Any]]) -> List[EvaluationRow]:
 
 @evaluation_test(
     input_dataset=[
-        # _get_aime_dataset_path(),
         "https://huggingface.co/datasets/opencompass/AIME2025/raw/main/aime2025-I.jsonl",
         "https://huggingface.co/datasets/opencompass/AIME2025/raw/main/aime2025-II.jsonl",
     ],
     dataset_adapter=aime2025_dataset_adapter,
     completion_params=[
         {
             "max_tokens": 131000,
-            # "extra_body": {"reasoning_effort": "low"},
-            "model": "fireworks_ai/accounts/pyroworks/deployedModels/glm-4p6-qpwrimne",
-            # "model": "fireworks_ai/accounts/fireworks/models/gpt-oss-120b",
-            "stream": True,
-            # "timeout": 2400,
+            "extra_body": {"reasoning_effort": "low"},
+            "model": "fireworks_ai/accounts/fireworks/models/gpt-oss-120b",
         }
     ],
     rollout_processor=SingleTurnRolloutProcessor(),
     aggregation_method="mean",
     passed_threshold=0.8,
-    num_runs=1,
-    max_dataset_rows=30,
-    max_concurrent_rollouts=1,
+    num_runs=8,
+    max_dataset_rows=2,
+    max_concurrent_rollouts=4,
     mode="pointwise",
 )
 def test_aime25_pointwise(row: EvaluationRow) -> EvaluationRow: