fix(dspy): handle EvaluationResult type from DSPy 3.x evaluate()

StackMemory Bot (CLI) · StackMemory Bot (CLI) · commit 9822d222f951 · 2026-03-31T21:00:58.000-04:00
diff --git a/scripts/dspy/eval.py b/scripts/dspy/eval.py
@@ -63,15 +63,17 @@ def run_eval(db_path: Path, model: str, optimized_path: Path | None):
     # Baseline
     baseline = dspy.ChainOfThought(FrameRetrieval)
     evaluate = dspy.Evaluate(devset=eval_set, metric=retrieval_metric, num_threads=2)
-    baseline_score = evaluate(baseline)
+    baseline_result = evaluate(baseline)
+    baseline_score = float(getattr(baseline_result, 'score', baseline_result) or 0)
     print(f"Baseline score: {baseline_score:.3f}")
 
     # Optimized (if available)
     if optimized_path and optimized_path.exists():
         state = json.loads(optimized_path.read_text())
         optimized = dspy.ChainOfThought(FrameRetrieval)
         optimized.load_state(state["retrieval"]["state"])
-        optimized_score = evaluate(optimized)
+        optimized_result = evaluate(optimized)
+        optimized_score = float(getattr(optimized_result, 'score', optimized_result) or 0)
         print(f"Optimized score: {optimized_score:.3f}")
         delta = optimized_score - baseline_score
         print(f"Delta: {delta:+.3f}")
diff --git a/scripts/dspy/optimize.py b/scripts/dspy/optimize.py
@@ -154,8 +154,10 @@ def optimize_retrieval(db_path: Path, model: str, output_path: Path):
     # Evaluate
     print("\n--- Evaluation ---")
     evaluate = dspy.Evaluate(devset=devset, metric=retrieval_metric, num_threads=2)
-    baseline_score = evaluate(retrieval_module)
-    optimized_score = evaluate(optimized_retrieval)
+    baseline_result = evaluate(retrieval_module)
+    optimized_result = evaluate(optimized_retrieval)
+    baseline_score = float(getattr(baseline_result, 'score', baseline_result) or 0)
+    optimized_score = float(getattr(optimized_result, 'score', optimized_result) or 0)
     print(f"Baseline:  {baseline_score:.3f}")
     print(f"Optimized: {optimized_score:.3f}")
     print(f"Delta:     {optimized_score - baseline_score:+.3f}")
@@ -177,8 +179,10 @@ def optimize_retrieval(db_path: Path, model: str, output_path: Path):
     complexity_eval = dspy.Evaluate(
         devset=complexity_examples[6:], metric=complexity_metric, num_threads=2
     )
-    complexity_baseline = complexity_eval(complexity_module)
-    complexity_optimized = complexity_eval(optimized_complexity)
+    complexity_baseline_result = complexity_eval(complexity_module)
+    complexity_optimized_result = complexity_eval(optimized_complexity)
+    complexity_baseline = float(getattr(complexity_baseline_result, 'score', complexity_baseline_result) or 0)
+    complexity_optimized = float(getattr(complexity_optimized_result, 'score', complexity_optimized_result) or 0)
     print(f"Baseline:  {complexity_baseline:.3f}")
     print(f"Optimized: {complexity_optimized:.3f}")