remote server changes

Shrey Modi · Shrey Modi · commit e447ad679538 · 2025-10-19T23:32:45.000-07:00
diff --git a/examples/swebench/server.py b/examples/swebench/server.py
@@ -14,7 +14,7 @@
 # Attach Elasticsearch handler to root logger (Eval Protocol UI)
 handler = ElasticsearchDirectHttpHandler()
 logging.getLogger().addHandler(handler)
-rollout_states = {}
+# rollout_states = {}
 
 
 @app.post("/init")
@@ -27,11 +27,11 @@ def init(req: InitRequest):
     logger = logging.getLogger(f"{__name__}.{req.metadata.rollout_id}")
     logger.addFilter(RolloutIdFilter(req.metadata.rollout_id))
 
-    rollout_states[req.metadata.rollout_id] = {
-        "terminated": False,
-        "status": "running",
-        "instance_id": req.metadata.row_id,
-    }
+    # rollout_states[req.metadata.rollout_id] = {
+    #     "terminated": False,
+    #     "status": "running",
+    #     "instance_id": req.metadata.row_id,
+    # }
 
     def _worker():
         try:
@@ -157,6 +157,7 @@ def _worker():
 
             instance_id = None
             resolved = None
+            exit_reason = None
 
             if preds_path.exists():
                 try:
@@ -166,7 +167,7 @@ def _worker():
                     pass
 
             if instance_id:
-                model_id = req.completion_params.get("model") if req.completion_params else None
+                model_id = req.model
                 if model_id:
                     safe_model = model_id.replace("/", "__").replace(":", "-")
                     report_path = (
@@ -189,13 +190,15 @@ def _worker():
                                 for status_name, ids in by_status.items():
                                     if instance_id in (ids or []):
                                         resolved = False
+                                        exit_reason = status_name
                                         break
                             except Exception:
                                 pass
 
             results_data = {
                 "instance_id": instance_id,
                 "resolved": resolved,
+                "exit_reason": exit_reason,
                 "row_id": str(single_index),
             }
 
@@ -204,16 +207,40 @@ def _worker():
             results_data = {"error": str(e), "row_id": str(single_index)}
             logger.error(f"Rollout error: {e}", extra={"status": Status.rollout_error(str(e))})
         finally:
-            # Log results and mark finished
-            logger.info("Evaluation results", extra={"results": results_data, "status": Status.rollout_finished()})
+            # Create and log EvaluateResult in standardized format
+            from eval_protocol.models import EvaluateResult, MetricResult
+
+            if resolved is not None:
+                reason = f"instance={instance_id}, resolved={resolved}"
+                if exit_reason:
+                    reason += f", exit_reason={exit_reason}"
+
+                eval_result = EvaluateResult(
+                    score=1.0 if resolved else 0.0,
+                    reason=reason,
+                    is_score_valid=True,
+                    metrics={
+                        "resolved": MetricResult(
+                            score=1.0 if resolved else 0.0,
+                            is_score_valid=True,
+                            reason=f"resolved={resolved}",
+                            value=int(resolved),
+                        )
+                    },
+                )
+                logger.info(
+                    f"EVAL_RESULT:{eval_result.model_dump_json()}", extra={"status": Status.rollout_finished()}
+                )
+            else:
+                logger.info("EVAL_RESULT:null", extra={"status": Status.rollout_finished()})
 
     threading.Thread(target=_worker, daemon=True).start()
     return {"status": "accepted"}
 
 
-@app.get("/status")
-def status(rollout_id: str):
-    return rollout_states.get(rollout_id, {"terminated": False})
+# @app.get("/status")
+# def status(rollout_id: str):
+#     return rollout_states.get(rollout_id, {"terminated": False})
 
 
 def main():
diff --git a/examples/swebench/tests/test_swebench.py b/examples/swebench/tests/test_swebench.py
@@ -32,7 +32,7 @@ def rows() -> List[EvaluationRow]:
         generators=[rows],
     ),
     rollout_processor=RemoteRolloutProcessor(
-        remote_base_url="http://127.0.0.1:3000",
+        remote_base_url="http://35.209.134.123:3000",
         model_base_url="https://tracing.fireworks.ai",
         timeout_seconds=1800,
         output_data_loader=default_fireworks_output_data_loader,
@@ -42,49 +42,123 @@ def rows() -> List[EvaluationRow]:
     completion_params=[{"model": "fireworks_ai/accounts/fireworks/models/gpt-oss-120b"}],
     max_concurrent_rollouts=3,
 )
-async def test_swebench_remote(row: EvaluationRow) -> EvaluationRow:
-    """Evaluate SWE-bench instance by reading results from Elasticsearch."""
-    import logging
+# async def test_swebench_remote(row: EvaluationRow) -> EvaluationRow:
+#     """Evaluate SWE-bench instance by reading results from Elasticsearch."""
+#     import logging
+#     logger = logging.getLogger(__name__)
+
+#     rollout_id = row.execution_metadata.rollout_id
+#     logger.info(f"[DEBUG] Processing rollout_id: {rollout_id}")
+
+#     if not rollout_id:
+#         logger.warning("[DEBUG] No rollout_id, returning early")
+#         return row
+
+#     try:
+#         from eval_protocol.log_utils.elasticsearch_client import ElasticsearchClient
+
+#         es_config = create_elasticsearch_config_from_env()
+#         es_client = ElasticsearchClient(es_config)
+#         logger.info(f"[DEBUG] ES client created for index: {es_config.index_name}")
+
+#         # Search for EVAL_RESULT log by message prefix
+#         query = {"match": {"rollout_id": rollout_id}}
+#         search_results = es_client.search(query=query, size=50)  # Get more to find EVAL_RESULT
+#         logger.info(f"[DEBUG] Total logs: {search_results['hits']['total']['value']}")
+
+#         # Filter for EVAL_RESULT in Python
+#         if search_results and search_results["hits"]["total"]["value"] > 0:
+#             for hit in search_results["hits"]["hits"]:
+#                 message = hit["_source"].get("message", "")
+
+#                 if message.startswith("EVAL_RESULT:"):
+#                     logger.info(f"[DEBUG] Found EVAL_RESULT message!")
+#                     result_json = message.replace("EVAL_RESULT:", "")
+#                     row.evaluation_result = EvaluateResult.model_validate_json(result_json)
+#                     logger.info(f"[DEBUG] Attached evaluation_result: score={row.evaluation_result.score}")
+#                     break
+#             else:
+#                 logger.warning("[DEBUG] EVAL_RESULT message not found in logs")
+#         else:
+#             logger.warning("[DEBUG] No logs found for rollout")
+
+#         logger.info(f"[DEBUG] Searching ES for EVAL_RESULT")
+#         import asyncio
+#         search_results = None
+#         for attempt in range(5):
+#             search_results = es_client.search(query=query, size=1)
+#             if search_results and search_results["hits"]["total"]["value"] > 0:
+#                 logger.info(f"[DEBUG] Found result on attempt {attempt + 1}")
+#                 break
+#             logger.info(f"[DEBUG] Attempt {attempt + 1}: No hits, retrying in 1s...")
+#             await asyncio.sleep(1)
+
+#         logger.info(f"[DEBUG] Final: ES returned {search_results['hits']['total']['value'] if search_results else 0} hits")
+#         debug_query = {"match": {"rollout_id": rollout_id}}
+#         debug_results = es_client.search(query=debug_query, size=26)
+#         logger.info(f"[DEBUG] Total logs for {rollout_id}: {debug_results['hits']['total']['value']}")
 
-    logger = logging.getLogger(__name__)
+#         if debug_results["hits"]["total"]["value"] > 0:
+#             for hit in debug_results["hits"]["hits"]:
+#                 msg = hit["_source"].get("message", "")[:80]
+#                 logger.info(f"[DEBUG] Sample message: {msg}")
+#         else:
+#             logger.warning("[DEBUG] No logs at all for this rollout_id!")
+#         if search_results and search_results["hits"]["total"]["value"] > 0:
+#             hit = search_results["hits"]["hits"][0]["_source"]
+#             message = hit.get("message", "")
+#             logger.info(f"[DEBUG] Found message: {message[:100]}...")
 
+#             if message.startswith("EVAL_RESULT:"):
+#                 result_json = message.replace("EVAL_RESULT:", "")
+#                 logger.info(f"[DEBUG] Parsing EvaluateResult JSON")
+
+#                 if result_json != "null":
+#                     # Deserialize directly to EvaluateResult
+#                     row.evaluation_result = EvaluateResult.model_validate_json(result_json)
+#                     logger.info(f"[DEBUG] Attached evaluation_result: score={row.evaluation_result.score}, reason={row.evaluation_result.reason}")
+#                 else:
+#                     logger.warning("[DEBUG] Result was null (no resolved status available)")
+#             else:
+#                 logger.warning(f"[DEBUG] Message doesn't start with EVAL_RESULT: {message[:50]}")
+#         else:
+#             logger.warning("[DEBUG] No EVAL_RESULT found in Elasticsearch")
+
+#     except Exception as e:
+#         logger.error(f"[DEBUG] Exception in test: {e}", exc_info=True)
+
+#     logger.info(f"[DEBUG] Returning row, has evaluation_result: {row.evaluation_result is not None}")
+#     return row
+
+
+async def test_swebench_remote(row: EvaluationRow) -> EvaluationRow:
+    """Evaluate SWE-bench instance by reading results from Elasticsearch."""
     rollout_id = row.execution_metadata.rollout_id
     if not rollout_id:
         return row
 
-    # Query Elasticsearch for results logged by server
     try:
         from eval_protocol.log_utils.elasticsearch_client import ElasticsearchClient
 
         es_config = create_elasticsearch_config_from_env()
         es_client = ElasticsearchClient(es_config)
 
-        # Search for results log from this rollout
-        query = {"bool": {"must": [{"term": {"rollout_id.keyword": rollout_id}}, {"exists": {"field": "results"}}]}}
-
-        search_results = es_client.es.search(index=es_config.index_name, query=query, size=1)
-
-        if search_results["hits"]["total"]["value"] > 0:
-            hit = search_results["hits"]["hits"][0]["_source"]
-            results_data = hit.get("results", {})
-            resolved = results_data.get("resolved")
-            instance_id = results_data.get("instance_id")
-
-            if resolved is not None:
-                row.evaluation_result = EvaluateResult(
-                    score=1.0 if resolved else 0.0,
-                    reason=f"instance={instance_id}, resolved={resolved}",
-                    is_score_valid=True,
-                    metrics={
-                        "resolved": MetricResult(
-                            score=1.0 if resolved else 0.0,
-                            is_score_valid=True,
-                            reason=f"resolved={resolved}",
-                            value=int(resolved),
-                        )
-                    },
-                )
+        # Get all logs for this rollout and find EVAL_RESULT message
+        query = {"match": {"rollout_id": rollout_id}}
+        search_results = es_client.search(query=query, size=50)
+
+        if search_results and search_results["hits"]["total"]["value"] > 0:
+            for hit in search_results["hits"]["hits"]:
+                message = hit["_source"].get("message", "")
+
+                if message.startswith("EVAL_RESULT:"):
+                    result_json = message.replace("EVAL_RESULT:", "")
+                    row.evaluation_result = EvaluateResult.model_validate_json(result_json)
+                    break
+
     except Exception as e:
-        logger.warning(f"Could not read results from Elasticsearch: {e}")
+        import logging
+
+        logging.getLogger(__name__).warning(f"Could not read results from Elasticsearch: {e}")
 
     return row
diff --git a/pyproject.toml b/pyproject.toml
@@ -97,11 +97,6 @@ box2d = [
     "gymnasium[box2d]>=0.29.0",
     "Pillow",
 ]
-swebench = [
-    "mini-swe-agent>=1.14.0",
-    "datasets>=2.0.0",
-    "litellm>=1.75.0",  # Note: Overrides core litellm<1.75.0 for swebench compatibility
-]
 langfuse = [
     "langfuse>=2.0.0",
 ]

Original file line number	Diff line number	Diff line change
`@@ -97,11 +97,6 @@ box2d = [`
`97`	`97`	`"gymnasium[box2d]>=0.29.0",`
`98`	`98`	`"Pillow",`
`99`	`99`	`]`
`100`		`-swebench = [`
`101`		`- "mini-swe-agent>=1.14.0",`
`102`		`- "datasets>=2.0.0",`
`103`		`- "litellm>=1.75.0", # Note: Overrides core litellm<1.75.0 for swebench compatibility`
`104`		`-]`
`105`	`100`	`langfuse = [`
`106`	`101`	`"langfuse>=2.0.0",`
`107`	`102`	`]`