update more tests

xzrderek · xzrderek · commit 4b80012461ec · 2025-11-18T13:34:57.000-08:00
diff --git a/tests/pytest/test_pydantic_agent.py b/tests/pytest/test_pydantic_agent.py
@@ -2,7 +2,7 @@
 from pydantic_ai.models.openai import OpenAIChatModel
 import pytest
 
-from eval_protocol.models import EvaluationRow, Message, Status
+from eval_protocol.models import EvaluationRow, Message, Status, EvaluateResult
 from eval_protocol.pytest import evaluation_test
 
 from eval_protocol.pytest.default_pydantic_ai_rollout_processor import PydanticAgentRolloutProcessor
@@ -28,4 +28,5 @@ async def test_pydantic_agent(row: EvaluationRow) -> EvaluationRow:
     Super simple hello world test for Pydantic AI.
     """
     assert row.rollout_status.code == Status.Code.FINISHED
+    row.evaluation_result = EvaluateResult(score=0.0, reason="Dummy evaluation result")
     return row
diff --git a/tests/pytest/test_pydantic_multi_agent.py b/tests/pytest/test_pydantic_multi_agent.py
@@ -10,7 +10,7 @@
 from pydantic_ai.models.openai import OpenAIChatModel
 import pytest
 
-from eval_protocol.models import EvaluationRow, Message
+from eval_protocol.models import EvaluationRow, Message, EvaluateResult
 from eval_protocol.pytest import evaluation_test
 from pydantic_ai import Agent
 
@@ -82,4 +82,5 @@ async def test_pydantic_multi_agent(row: EvaluationRow) -> EvaluationRow:
     """
     Super simple hello world test for Pydantic AI.
     """
+    row.evaluation_result = EvaluateResult(score=0.0, reason="Dummy evaluation result")
     return row
diff --git a/tests/pytest/test_pytest_default_agent_rollout_processor.py b/tests/pytest/test_pytest_default_agent_rollout_processor.py
@@ -1,7 +1,7 @@
 from datetime import datetime
 from typing import List
 
-from eval_protocol.models import EvaluationRow, Message
+from eval_protocol.models import EvaluationRow, Message, EvaluateResult
 from eval_protocol.pytest import AgentRolloutProcessor, evaluation_test
 
 
@@ -24,4 +24,6 @@
 )
 def test_pytest_default_agent_rollout_processor(rows: List[EvaluationRow]) -> List[EvaluationRow]:
     """Run math evaluation on sample dataset using pytest interface."""
+    for row in rows:
+        row.evaluation_result = EvaluateResult(score=0.0, reason="Dummy evaluation result")
     return rows
diff --git a/tests/pytest/test_pytest_ensure_logging.py b/tests/pytest/test_pytest_ensure_logging.py
@@ -26,7 +26,7 @@ async def test_ensure_logging(monkeypatch):
     with patch(
         "eval_protocol.dataset_logger.sqlite_dataset_logger_adapter.SqliteEvaluationRowStore", return_value=mock_store
     ):
-        from eval_protocol.models import EvaluationRow
+        from eval_protocol.models import EvaluationRow, EvaluateResult
         from eval_protocol.pytest.default_no_op_rollout_processor import NoOpRolloutProcessor
         from eval_protocol.pytest.evaluation_test import evaluation_test
         from tests.pytest.test_markdown_highlighting import markdown_dataset_to_evaluation_row
@@ -44,6 +44,9 @@ async def test_ensure_logging(monkeypatch):
             # Don't pass logger parameter - let it use the default_logger (which we've replaced)
         )
         def eval_fn(row: EvaluationRow) -> EvaluationRow:
+            # This test is only about logging behavior; attach a dummy evaluation_result
+            # so that evaluation_test's invariant about evaluation_result is satisfied.
+            row.evaluation_result = EvaluateResult(score=0.0, reason="Dummy evaluation result")
             return row
 
         await eval_fn(
diff --git a/tests/pytest/test_pytest_input_rows_parametrized_completion_params.py b/tests/pytest/test_pytest_input_rows_parametrized_completion_params.py
@@ -1,4 +1,4 @@
-from eval_protocol.models import EvaluationRow, Message
+from eval_protocol.models import EvaluationRow, Message, EvaluateResult
 from eval_protocol.pytest import evaluation_test
 
 
@@ -18,4 +18,5 @@ def test_pytest_input_rows_parametrized_completion_params(row: EvaluationRow, **
         else:
             assert "gpt-4" in seen_models
     seen_models.add(model)
+    row.evaluation_result = EvaluateResult(score=0.0, reason="Dummy evaluation result")
     return row
diff --git a/tests/pytest/test_pytest_mcp_config.py b/tests/pytest/test_pytest_mcp_config.py
@@ -87,6 +87,9 @@ def read(self, row_id: str | None = None) -> list[EvaluationRow]:
         logger=logger,
     )
     def eval_fn(row: EvaluationRow) -> EvaluationRow:
+        # Attach a dummy evaluation_result so the invariant is satisfied;
+        # this test only cares about tools being added to the row.
+        row.evaluation_result = EvaluateResult(score=0.0, reason="Dummy evaluation result")
         return row
 
     await eval_fn(input_messages=input_messages, completion_params=completion_params_list[0])  # pyright: ignore[reportCallIssue]
diff --git a/tests/pytest/test_pytest_propagate_error.py b/tests/pytest/test_pytest_propagate_error.py
@@ -1,5 +1,5 @@
 from typing_extensions import override
-from eval_protocol.models import EvaluationRow, Message
+from eval_protocol.models import EvaluationRow, Message, EvaluateResult
 from eval_protocol.pytest.default_agent_rollout_processor import AgentRolloutProcessor
 from eval_protocol.dataset_logger.dataset_logger import DatasetLogger
 
@@ -56,6 +56,9 @@ async def test_pytest_propagate_error():
         logger=logger,
     )
     def eval_fn(row: EvaluationRow) -> EvaluationRow:
+        # Attach a dummy evaluation_result so the invariant is satisfied;
+        # this test only cares that eval_metadata.status reflects rollout errors.
+        row.evaluation_result = EvaluateResult(score=0.0, reason="Dummy evaluation result")
         return row
 
     # Manually invoke all parameter combinations within a single test

Original file line number	Diff line number	Diff line change
`@@ -87,6 +87,9 @@ def read(self, row_id: str \| None = None) -> list[EvaluationRow]:`
`87`	`87`	`logger=logger,`
`88`	`88`	`)`
`89`	`89`	`def eval_fn(row: EvaluationRow) -> EvaluationRow:`
	`90`	`+ # Attach a dummy evaluation_result so the invariant is satisfied;`
	`91`	`+ # this test only cares about tools being added to the row.`
	`92`	`+ row.evaluation_result = EvaluateResult(score=0.0, reason="Dummy evaluation result")`
`90`	`93`	`return row`
`91`	`94`
`92`	`95`	`await eval_fn(input_messages=input_messages, completion_params=completion_params_list[0]) # pyright: ignore[reportCallIssue]`