gpt

xzrderek · xzrderek · commit 620611f58b8d · 2025-09-12T14:27:19.000-07:00
diff --git a/eval_protocol/benchmarks/test_aime25.py b/eval_protocol/benchmarks/test_aime25.py
@@ -78,6 +78,7 @@ def aime2025_dataset_adapter(rows: List[Dict[str, Any]]) -> List[EvaluationRow]:
     ],
     dataset_adapter=aime2025_dataset_adapter,
     completion_params=[
+        {"model": "gpt-4.1"},
         {
             "max_tokens": 131000,
             "extra_body": {"reasoning_effort": "low"},

Original file line number	Diff line number	Diff line change
`@@ -78,6 +78,7 @@ def aime2025_dataset_adapter(rows: List[Dict[str, Any]]) -> List[EvaluationRow]:`
`78`	`78`	`],`
`79`	`79`	`dataset_adapter=aime2025_dataset_adapter,`
`80`	`80`	`completion_params=[`
	`81`	`+ {"model": "gpt-4.1"},`
`81`	`82`	`{`
`82`	`83`	`"max_tokens": 131000,`
`83`	`84`	`"extra_body": {"reasoning_effort": "low"},`