fix test

xzrderek · xzrderek · commit 2b5887f55b3e · 2025-10-13T16:29:23.000-07:00
diff --git a/tests/pytest/test_execution_metadata.py b/tests/pytest/test_execution_metadata.py
@@ -2,7 +2,7 @@
 from openai.types import CompletionUsage
 
 from eval_protocol.models import EvaluationRow, ExecutionMetadata, InputMetadata, CostMetrics, Message
-from eval_protocol.pytest.utils import add_cost_metrics
+from eval_protocol.pytest.evaluation_test_utils import add_cost_metrics
 
 
 class TestExecutionMetadata:
diff --git a/tests/pytest/test_utils.py b/tests/pytest/test_utils.py
@@ -2,7 +2,7 @@
 from unittest.mock import AsyncMock, MagicMock, patch
 import pytest
 
-from eval_protocol.pytest.utils import rollout_processor_with_retry
+from eval_protocol.pytest.evaluation_test_utils import rollout_processor_with_retry
 from eval_protocol.pytest.types import RolloutProcessorConfig
 from eval_protocol.models import EvaluationRow, Status, InputMetadata, ExecutionMetadata
 from eval_protocol.dataset_logger.dataset_logger import DatasetLogger
@@ -112,12 +112,14 @@ async def flaky_task():
             if call_count == 1:
                 raise ConnectionError("Connection failed")
             else:
+                from datetime import datetime
+
                 row = EvaluationRow(
                     messages=[],
-                    input_metadata={},
+                    input_metadata=InputMetadata(completion_params={}),
                     rollout_status=Status.rollout_finished(),
-                    execution_metadata={},
-                    created_at="2024-01-01T00:00:00Z",
+                    execution_metadata=ExecutionMetadata(),
+                    created_at=datetime.fromisoformat("2024-01-01T00:00:00"),
                 )
                 return row
 
diff --git a/tests/test_evaluation_postprocess.py b/tests/test_evaluation_postprocess.py
@@ -212,7 +212,7 @@ class TestBootstrapEquivalence:
     def test_bootstrap_equivalence_pandas_vs_pure_python(self):
         import random
         import pandas as pd
-        from eval_protocol.pytest.utils import calculate_bootstrap_scores as py_bootstrap
+        from eval_protocol.pytest.evaluation_test_utils import calculate_bootstrap_scores as py_bootstrap
 
         # Deterministic synthetic scores
         rng = random.Random(123)