updates

shreymodi1 · shreymodi1 · commit b57ad2c355ab · 2025-11-18T22:27:13.000-08:00
diff --git a/eval_protocol/pytest/integrations/openenv_trl_vllm.py b/eval_protocol/pytest/integrations/openenv_trl_vllm.py
@@ -131,11 +131,15 @@ def rollout_func(prompts: List[str], trainer) -> Dict[str, List]:
             flush=True,
         )
 
+        # Import default logger for local tracing
+        from eval_protocol.dataset_logger import default_logger
+
         config = RolloutProcessorConfig(
             completion_params=base_params,
             mcp_config_path="",
             semaphore=asyncio.Semaphore(max_concurrency),
             steps=max_steps,
+            logger=default_logger,
         )
 
         # 3) Execute rollouts with VLLMPolicy
diff --git a/tests/pytest/test_openenv_echo_hub.py b/tests/pytest/test_openenv_echo_hub.py
@@ -2,11 +2,11 @@
 import os
 import re
 
+
 from eval_protocol.models import EvaluationRow, Message, EvaluateResult
 from eval_protocol.pytest import evaluation_test
 from eval_protocol.pytest.openenv_rollout_processor import OpenEnvRolloutProcessor
 import pytest
-import os
 
 # Skip these integration-heavy tests on CI runners by default
 pytestmark = pytest.mark.skipif(os.getenv("CI") == "true", reason="Skip OpenEnv integration tests on CI")
@@ -45,14 +45,21 @@ def action_parser(response_text: str):
 
 try:
     from envs.echo_env import EchoEnv  # type: ignore
+
     _HAS_ECHO = True
 except Exception:
     _HAS_ECHO = False
 
 
+# Inline test data
+ECHO_INLINE_DATA: List[Dict[str, Any]] = [
+    {"id": "echo-1", "prompt": "hello"},
+    {"id": "echo-2", "prompt": "test message"},
+]
+
+
 @evaluation_test(  # type: ignore[misc]
-    input_dataset=["tests/pytest/data/echo_dataset.jsonl"],
-    dataset_adapter=echo_dataset_to_rows,
+    input_rows=[echo_dataset_to_rows(ECHO_INLINE_DATA)],
     completion_params=[
         {
             "temperature": 0.0,
@@ -93,8 +100,13 @@ def test_openenv_echo_hub(row: EvaluationRow) -> EvaluationRow:
         # Preferred path: system sentinel "__ep_step_rewards__"
         step_rewards: List[float] = []
         for msg in row.messages or []:
-            if msg.role == "system" and isinstance(msg.content, str) and msg.content.startswith("__ep_step_rewards__:"):
+            if (
+                msg.role == "system"
+                and isinstance(msg.content, str)
+                and msg.content.startswith("__ep_step_rewards__:")
+            ):
                 import json as _json
+
                 payload = msg.content.split(":", 1)[1]
                 step_rewards = _json.loads(payload) or []
                 break
@@ -105,5 +117,3 @@ def test_openenv_echo_hub(row: EvaluationRow) -> EvaluationRow:
     score = max(0.0, min(1.0, total_reward))
     row.evaluation_result = EvaluateResult(score=score, reason=f"Echo total reward={total_reward:.2f}")
     return row
-
-

Original file line number	Diff line number	Diff line change
`@@ -131,11 +131,15 @@ def rollout_func(prompts: List[str], trainer) -> Dict[str, List]:`
`131`	`131`	`flush=True,`
`132`	`132`	`)`
`133`	`133`
	`134`	`+ # Import default logger for local tracing`
	`135`	`+ from eval_protocol.dataset_logger import default_logger`
	`136`	`+`
`134`	`137`	`config = RolloutProcessorConfig(`
`135`	`138`	`completion_params=base_params,`
`136`	`139`	`mcp_config_path="",`
`137`	`140`	`semaphore=asyncio.Semaphore(max_concurrency),`
`138`	`141`	`steps=max_steps,`
	`142`	`+ logger=default_logger,`
`139`	`143`	`)`
`140`	`144`
`141`	`145`	`# 3) Execute rollouts with VLLMPolicy`