ui: trim BIRD caption + add hover tooltips для технических терминов (EN/RU)

JuliaEdom · claude · JuliaEdom · commit db9db1ff073b · 2026-05-18T12:53:27.000+03:00
User report: «визуально форма очень неаккуратная — шрифты наезжают». Caption разрослась до ~1100 символов / 16 строк после v16-audit text → у самплов не было места.

Trim: убран dense pipeline-список (codestral + Sonnet challenging + cross-provider voting + grounded-critique directed retry + Sonnet 4.6 bridge + M-Schema + CHASE-SQL DAC + ...) — оставлены только 4 ключевые компоненты. Visible text 1120→463 chars / 16→8 строк.

Hover tooltips (`&lt;span class='nl-term' title='...'&gt;` через `unsafe_allow_html=True`) — для технических терминов:
- codestral → Mistral codestral-latest specialised SQL model
- Sonnet 4.6 bridge → Anthropic Claude 4.5 Sonnet via Perplexity Pro browser bridge
- grounded-critique retry → Per-failure re-prompt with executable-shape feedback
- helallao multi-model voting → reverse-engineered HTTPS bridge to Perplexity backend
- Arcwise-Plat corrected gold → Jin et al. CIDR/VLDB 2026 corrected annotations

CSS: новый класс `.nl-term { border-bottom: 1px dotted; cursor: help }` — dotted underline + hover state. EN и RU caption обновлены параллельно с одинаковой структурой; RU оставляет английские термины (`codestral`, `Sonnet`, `helallao`, `Arcwise-Plat`, `noise-floor`, `BIRD`) с переводом-объяснением в hover'е.

Gates: pytest 271, ruff + mypy --strict clean. HF Space redeployed RUNNING; Playwright E2E подтвердил рендер EN caption на 1440×900 — самплы больше не пересекаются с captioновым блоком.

Co-Authored-By: Claude Opus 4.7 (1M context) &lt;noreply@anthropic.com&gt;
diff --git a/app/streamlit_app.py b/app/streamlit_app.py
@@ -62,7 +62,16 @@
         "metric_caption": "30 dev + 30 held-out, balanced split, all ten query categories at 100% on the free-tier codestral pipeline.",
         "research_kicker": "BIRD Mini-Dev research benchmark",
         "research_value": "85.0% / 200",
-        "research_caption": "Hybrid pipeline: codestral + Sonnet on challenging tier + cross-provider voting + grounded-critique directed retry + Sonnet 4.6 bridge + M-Schema compact serialization + CHASE-SQL divide-and-conquer + Perplexity Pro multi-model voting (Grok 4.1 + GPT-5.2 + Claude 4.5 Sonnet) + reasoning-mode variants (grok-4.1-reasoning + gpt-5.2-thinking + kimi-k2-thinking) + DAC×reasoning combo on residue. After day-5 evening audit of the gold-runner SQLAlchemy `:identifier` bind-bug (BIRD qids 959/989/990) — net −1 from claimed 85.5%. +37.2pp over the GPT-4 zero-shot reference (47.8%), $0 external cost. On Arcwise-Plat corrected gold (Jin et al., CIDR 2026): 67.34% — honest noise-floor after BIRD annotation fixes; +6 cases where our pred catches BIRD's wrong gold.",
+        "research_caption": (
+            "Hybrid pipeline: "
+            "<span class='nl-term' title='Mistral codestral-latest — SQL-specialised generation model, free tier'>codestral</span> + "
+            "<span class='nl-term' title='Anthropic Claude 4.5 Sonnet via Perplexity Pro browser bridge — used on the hard tier'>Sonnet 4.6 bridge</span> + "
+            "<span class='nl-term' title='Per-failure re-prompt with executable-shape feedback — only on frozen failures, no T=0 noise'>grounded-critique retry</span> + "
+            "<span class='nl-term' title='helallao reverse-engineered HTTPS bridge to Perplexity backend — Grok 4.1, GPT-5.2, Claude 4.5 Sonnet, kimi-k2-thinking, reasoning + Pro modes'>helallao multi-model voting</span>. "
+            "+37.2pp over the GPT-4 zero-shot reference (47.8%), $0 external cost. "
+            "On <span class='nl-term' title='Jin et al., CIDR/VLDB 2026, arXiv:2601.08778 — corrected BIRD gold annotations'>Arcwise-Plat corrected gold</span>: 67.34% — honest noise-floor; +6 cases where our prediction catches BIRD's own wrong gold. "
+            "After the day-5 audit (SQLAlchemy `:identifier` bind-bug fix in `_execute_gold` — affected BIRD qids 959 / 989 / 990) the claimed 85.5% was honestly restated to 85.0%."
+        ),
         "settings_header": "Settings",
         "db_label": "Database",
         "db_dialect": "Dialect",
@@ -132,7 +141,16 @@
         "metric_caption": "30 dev + 30 held-out, сбалансированный сплит, все десять категорий запросов на 100% через бесплатный codestral.",
         "research_kicker": "Исследовательский бенчмарк BIRD Mini-Dev",
         "research_value": "85.0% / 200",
-        "research_caption": "Гибрид: codestral + Sonnet на challenging-тире + кросс-провайдер voting + grounded-critique directed retry + Sonnet 4.6 bridge + компактная M-Schema + CHASE-SQL divide-and-conquer + Perplexity Pro multi-model voting (Grok 4.1 + GPT-5.2 + Claude 4.5 Sonnet) + reasoning-режим (grok-4.1-reasoning + gpt-5.2-thinking + kimi-k2-thinking) + DAC×reasoning комбо на residue. После day-5 evening аудита SQLAlchemy `:identifier` bind-bug в gold-runner (BIRD qids 959/989/990) — net −1 от заявленных 85.5%. +37.2 п.п. над zero-shot GPT-4 (47.8%), внешние расходы — ноль. На исправленном gold Arcwise-Plat (Jin et al., CIDR 2026) — 67.34%, честный noise-floor после правки аннотаций BIRD; +6 случаев, где наш pred правильнее эталона BIRD.",
+        "research_caption": (
+            "Гибридный пайплайн: "
+            "<span class='nl-term' title='Mistral codestral-latest — модель, специализированная под генерацию SQL, бесплатный тариф'>codestral</span> + "
+            "<span class='nl-term' title='Anthropic Claude 4.5 Sonnet через браузерный мост Perplexity Pro — на сложных кейсах'>мост к Sonnet 4.6</span> + "
+            "<span class='nl-term' title='Повторный prompt со shape-фидбэком исполнения — только на зафиксированных фейлах, без шума T=0'>directed-critique retry</span> + "
+            "<span class='nl-term' title='Реверс-инжиниринг HTTPS моста к бэкенду Perplexity — Grok 4.1, GPT-5.2, Claude 4.5 Sonnet, kimi-k2-thinking; режимы reasoning + Pro'>multi-model voting через helallao</span>. "
+            "+37,2 п.п. над zero-shot GPT-4 (47,8%), внешние расходы — ноль. "
+            "На <span class='nl-term' title='Jin et al., CIDR/VLDB 2026, arXiv:2601.08778 — исправленные аннотации gold BIRD'>исправленном gold Arcwise-Plat</span>: 67,34% — честный noise-floor; +6 случаев, где наш ответ правильнее эталона BIRD. "
+            "После day-5 evening аудита (фикс SQLAlchemy `:identifier` bind-bug в `_execute_gold` — затронуты BIRD qids 959 / 989 / 990) заявленные 85,5% честно пересчитаны в 85,0%."
+        ),
         "settings_header": "Настройки",
         "db_label": "База данных",
         "db_dialect": "Диалект",
@@ -458,6 +476,16 @@ def _source_link_for(db_id: str) -> tuple[str, str] | None:
   line-height: 1.55;
   max-width: 62ch;
 }
+.nl-term {
+  border-bottom: 1px dotted var(--ink-mute);
+  cursor: help;
+  text-decoration: none;
+  color: inherit;
+}
+.nl-term:hover {
+  border-bottom-color: var(--ink);
+  color: var(--ink);
+}
 
 /* Section rule */
 .nl-section-label {