how about 2 and 4

xzrderek · xzrderek · commit d5f3b81bb54a · 2025-09-12T14:58:40.000-07:00
diff --git a/eval_protocol/benchmarks/test_aime25.py b/eval_protocol/benchmarks/test_aime25.py
@@ -93,6 +93,11 @@ def aime2025_dataset_adapter(rows: List[Dict[str, Any]]) -> List[EvaluationRow]:
             "extra_body": {"reasoning_effort": "low"},
             "model": "fireworks_ai/accounts/fireworks/models/gpt-oss-20b",
         },
+        {
+            "max_tokens": 131000,
+            "extra_body": {"reasoning_effort": "medium"},
+            "model": "fireworks_ai/accounts/fireworks/models/gpt-oss-20b",
+        },
     ],
     rollout_processor=SingleTurnRolloutProcessor(),
     aggregation_method="mean",
diff --git a/eval_protocol/quickstart/llm_judge.py b/eval_protocol/quickstart/llm_judge.py
@@ -49,11 +49,11 @@
             "extra_body": {"reasoning_effort": "low"},
             "model": "fireworks_ai/accounts/fireworks/models/gpt-oss-20b",
         },
-        {
-            "max_tokens": 131000,
-            "extra_body": {"reasoning_effort": "low"},
-            "model": "fireworks_ai/accounts/fireworks/models/gpt-oss-120b",
-        },
+        # {
+        #     "max_tokens": 131000,
+        #     "extra_body": {"reasoning_effort": "low"},
+        #     "model": "fireworks_ai/accounts/fireworks/models/gpt-oss-120b",
+        # },
     ],
     rollout_processor=SingleTurnRolloutProcessor(),
     # preprocess_fn=split_multi_turn_rows,