Fix: Correct healthcare MCP server in xlam2_70b eval script

inhyuk15 · inhyuk15 · commit dec9a845fa4c · 2025-07-24T14:02:11.000+09:00
use healthcare server instead of airbnb server
diff --git a/benchmarks/healthcare/eval_script_xlam2_70b.sh b/benchmarks/healthcare/eval_script_xlam2_70b.sh
@@ -6,8 +6,7 @@ MODEL="xlam_2_70b"
 MAX_TURNS=30
 REPORT_MODEL="gpt-4.1-2025-04-14"
 JUDGE_MODEL="gpt-4o"
-SERVER="@openbnb/mcp-server-airbnb"
-SERVER_ARGS="--ignore-robots-txt"
+SERVER="mcp_servers/${DOMAIN}/server.py"
 MODEL_CONFIG="benchmarks/${DOMAIN}/eval_models/${MODEL}.json"
 TASKS_FILE="data/${DOMAIN}/evaluation_tasks_verified.jsonl"
 OUTPUT="benchmarks/${DOMAIN}/results/${MODEL}_task_evaluation.json"
@@ -22,7 +21,6 @@ REPORT_DIR="benchmarks/${DOMAIN}/report"
 
 mcp-eval evaluate \
     --server $SERVER \
-    --server-args="$SERVER_ARGS" \
     --model-config $MODEL_CONFIG \
     --tasks-file $TASKS_FILE \
     --output $OUTPUT \