feat(webapp): add prompt-cache metrics to Models and AI metrics

ericallam · ericallam · commit e372c8bfa0d6 · 2026-06-16T00:00:28.000+01:00
Your models gets a cache-savings column and per-model cached-tokens and
cache-hit-rate views; the AI metrics dashboard gets a caching section
(hit rate, cached tokens, estimated savings, hit rate by model). Also makes
the Your models charts all time-series for consistency.
diff --git a/.server-changes/models-page-usage-tabs.md b/.server-changes/models-page-usage-tabs.md
@@ -3,4 +3,4 @@ area: webapp
 type: feature
 ---
 
-The Models page now has a Your models tab showing your project's model usage (cost, calls, latency, and trend sparklines over a selectable time range) alongside the full model library, which is ordered by provider relevance and release date.
+The Models page now has a Your models tab showing your project's model usage (cost, calls, latency, prompt-cache savings, and trend sparklines over a selectable time range) alongside the full model library, ordered by provider relevance and release date. The AI metrics dashboard also gains a caching section with cache hit rate, cached tokens, and estimated savings.
diff --git a/apps/webapp/app/presenters/v3/BuiltInDashboards.server.ts b/apps/webapp/app/presenters/v3/BuiltInDashboards.server.ts
@@ -252,8 +252,13 @@ const llmDashboard: BuiltInDashboard = {
       { i: "llm-cost-user", x: 6, y: 92, w: 6, h: 13 },
       // Efficiency section
       { i: "llm-title-efficiency", x: 0, y: 105, w: 12, h: 2, minH: 2, maxH: 2 },
-      { i: "llm-cost-operation", x: 0, y: 107, w: 6, h: 13 },
-      { i: "llm-cache-util", x: 6, y: 107, w: 6, h: 13 },
+      { i: "llm-cost-operation", x: 0, y: 107, w: 12, h: 13 },
+      // Caching section
+      { i: "llm-title-caching", x: 0, y: 120, w: 12, h: 2, minH: 2, maxH: 2 },
+      { i: "llm-cache-hit", x: 0, y: 122, w: 6, h: 13 },
+      { i: "llm-cache-tokens", x: 6, y: 122, w: 6, h: 13 },
+      { i: "llm-cache-savings", x: 0, y: 135, w: 6, h: 13 },
+      { i: "llm-cache-by-model", x: 6, y: 135, w: 6, h: 13 },
     ],
     widgets: {
       "llm-cost": {
@@ -487,10 +492,11 @@ const llmDashboard: BuiltInDashboard = {
           aggregation: "sum",
         },
       },
-      "llm-cache-util": {
-        title: "Cache utilization",
+      "llm-title-caching": { title: "Caching", query: "", display: { type: "title" } },
+      "llm-cache-hit": {
+        title: "Cache hit rate over time",
         query:
-          "SELECT\r\n  timeBucket(),\r\n  round(countIf(cached_read_tokens > 0) * 100.0 / count(), 1) AS cache_hit_pct,\r\n  round(avg(cached_read_tokens), 0) AS avg_cached_tokens\r\nFROM\r\n  llm_metrics\r\nGROUP BY\r\n  timeBucket\r\nORDER BY\r\n  timeBucket",
+          "SELECT timeBucket(), round(sum(cached_read_tokens) * 100.0 / (sum(input_tokens) + sum(cached_read_tokens)), 1) AS cache_hit_pct FROM llm_metrics GROUP BY timeBucket ORDER BY timeBucket",
         display: {
           type: "chart",
           chartType: "line",
@@ -503,6 +509,44 @@ const llmDashboard: BuiltInDashboard = {
           aggregation: "avg",
         },
       },
+      "llm-cache-tokens": {
+        title: "Cached tokens over time",
+        query:
+          "SELECT timeBucket(), sum(cached_read_tokens) AS cache_reads, sum(cache_creation_tokens) AS cache_writes FROM llm_metrics GROUP BY timeBucket ORDER BY timeBucket",
+        display: {
+          type: "chart",
+          chartType: "bar",
+          xAxisColumn: "timebucket",
+          yAxisColumns: ["cache_reads", "cache_writes"],
+          groupByColumn: null,
+          stacked: true,
+          sortByColumn: null,
+          sortDirection: "asc",
+          aggregation: "sum",
+        },
+      },
+      "llm-cache-savings": {
+        title: "Cache savings over time",
+        query:
+          "SELECT timeBucket(), round(sum(cached_read_tokens) * (sum(input_cost) / (sum(input_tokens) + 1)) - sum(cached_read_cost), 4) AS cache_savings FROM llm_metrics WHERE cached_read_tokens > 0 GROUP BY timeBucket ORDER BY timeBucket",
+        display: {
+          type: "chart",
+          chartType: "bar",
+          xAxisColumn: "timebucket",
+          yAxisColumns: ["cache_savings"],
+          groupByColumn: null,
+          stacked: false,
+          sortByColumn: null,
+          sortDirection: "asc",
+          aggregation: "sum",
+        },
+      },
+      "llm-cache-by-model": {
+        title: "Cache hit rate by model",
+        query:
+          "SELECT response_model, round(sum(cached_read_tokens) * 100.0 / (sum(input_tokens) + sum(cached_read_tokens)), 1) AS cache_hit_pct, sum(cached_read_tokens) AS cached_tokens FROM llm_metrics GROUP BY response_model ORDER BY cached_tokens DESC LIMIT 20",
+        display: { type: "table", prettyFormatting: true, sorting: [] },
+      },
     },
   },
 };
diff --git a/apps/webapp/app/presenters/v3/ModelRegistryPresenter.server.ts b/apps/webapp/app/presenters/v3/ModelRegistryPresenter.server.ts
@@ -229,6 +229,12 @@ export type ProjectModelUsageItem = {
   totalTokens: number;
   avgTtfc: number;
   avgTps: number;
+  /** Input tokens (used as the denominator for the cache read rate). */
+  inputTokens: number;
+  /** Input tokens served from the provider's prompt cache. */
+  cachedReadTokens: number;
+  /** Actual (discounted) cost of those cached read tokens. */
+  cachedReadCost: number;
 };
 
 // --- ClickHouse schemas for user metrics ---
@@ -256,6 +262,9 @@ const ProjectModelUsageRow = z.object({
   total_tokens: z.coerce.number(),
   avg_ttfc: z.coerce.number(),
   avg_tps: z.coerce.number(),
+  input_tokens: z.coerce.number(),
+  cached_read_tokens: z.coerce.number(),
+  cached_read_cost: z.coerce.number(),
 });
 
 const ModelSparklineRow = z.object({
@@ -661,7 +670,10 @@ export class ModelRegistryPresenter extends BasePresenter {
           sum(total_cost) AS total_cost,
           sum(total_tokens) AS total_tokens,
           round(avg(ms_to_first_chunk), 1) AS avg_ttfc,
-          round(avg(tokens_per_second), 1) AS avg_tps
+          round(avg(tokens_per_second), 1) AS avg_tps,
+          sum(input_tokens) AS input_tokens,
+          sum(usage_details['input_cached_tokens']) AS cached_read_tokens,
+          sum(cost_details['input_cached_tokens']) AS cached_read_cost
         FROM trigger_dev.llm_metrics_v1
         WHERE project_id = {projectId: String}
           AND environment_id = {environmentId: String}
@@ -698,6 +710,9 @@ export class ModelRegistryPresenter extends BasePresenter {
       totalTokens: r.total_tokens,
       avgTtfc: r.avg_ttfc,
       avgTps: r.avg_tps,
+      inputTokens: r.input_tokens,
+      cachedReadTokens: r.cached_read_tokens,
+      cachedReadCost: r.cached_read_cost,
     }));
   }
 
diff --git a/apps/webapp/app/routes/_app.orgs.$organizationSlug.projects.$projectParam.env.$envParam.models._index/route.tsx b/apps/webapp/app/routes/_app.orgs.$organizationSlug.projects.$projectParam.env.$envParam.models._index/route.tsx
@@ -1125,6 +1125,17 @@ function DetailYourUsageTab({
           {...widgetProps}
         />
       </div>
+      <div className="h-[120px]">
+        <MetricWidget
+          widgetKey={`${modelName}-user-cached-tokens`}
+          title="Cached tokens"
+          query={`SELECT sum(cached_read_tokens) AS cached_tokens FROM llm_metrics WHERE response_model = '${escapeTSQL(
+            modelName
+          )}'`}
+          config={bignumberConfig("cached_tokens", { aggregation: "sum", abbreviate: true })}
+          {...widgetProps}
+        />
+      </div>
 
       <div className="h-[400px]">
         <MetricWidget
@@ -1156,6 +1167,22 @@ function DetailYourUsageTab({
           {...widgetProps}
         />
       </div>
+      <div className="h-[400px]">
+        <MetricWidget
+          widgetKey={`${modelName}-user-cache-hit`}
+          title="Cache hit rate over time"
+          query={`SELECT timeBucket(), round(sum(cached_read_tokens) * 100.0 / (sum(input_tokens) + sum(cached_read_tokens)), 1) AS cache_hit_pct FROM llm_metrics WHERE response_model = '${escapeTSQL(
+            modelName
+          )}' GROUP BY timeBucket ORDER BY timeBucket`}
+          config={chartConfig({
+            chartType: "line",
+            xAxisColumn: "timebucket",
+            yAxisColumns: ["cache_hit_pct"],
+            aggregation: "avg",
+          })}
+          {...widgetProps}
+        />
+      </div>
       <div className="h-[400px]">
         <MetricWidget
           widgetKey={`${modelName}-user-tasks`}
@@ -1246,10 +1273,10 @@ function YourModelsTab({
         </div>
         <div className="h-[312px]">
           <MetricWidget
-            widgetKey="your-models-calls-by-model"
-            title="Calls by model"
-            query={`SELECT response_model, count() AS calls FROM llm_metrics GROUP BY response_model ORDER BY calls DESC LIMIT 10`}
-            config={chartConfig({ chartType: "bar", xAxisColumn: "response_model", yAxisColumns: ["calls"] })}
+            widgetKey="your-models-calls-over-time"
+            title="Calls over time"
+            query={`SELECT timeBucket(), count() AS calls FROM llm_metrics GROUP BY timeBucket ORDER BY timeBucket`}
+            config={chartConfig({ chartType: "bar", xAxisColumn: "timebucket", yAxisColumns: ["calls"] })}
             {...widgetProps}
           />
         </div>
@@ -1270,22 +1297,25 @@ function YourModelsTab({
           <Table className="table-fixed">
             <TableHeader>
               <TableRow>
-                <TableHeaderCell className="w-[20%]">Model</TableHeaderCell>
-                <TableHeaderCell className="w-[13%]">Provider</TableHeaderCell>
-                <TableHeaderCell className="w-[9%]" alignment="right">
+                <TableHeaderCell className="w-[18%]">Model</TableHeaderCell>
+                <TableHeaderCell className="w-[12%]">Provider</TableHeaderCell>
+                <TableHeaderCell className="w-[8%]" alignment="right">
                   Calls
                 </TableHeaderCell>
-                <TableHeaderCell className="w-[9%]" alignment="right">
+                <TableHeaderCell className="w-[8%]" alignment="right">
                   Cost
                 </TableHeaderCell>
                 <TableHeaderCell className="w-[10%]" alignment="right">
+                  Cache savings
+                </TableHeaderCell>
+                <TableHeaderCell className="w-[9%]" alignment="right">
                   Avg TTFC
                 </TableHeaderCell>
-                <TableHeaderCell className="w-[12%]" alignment="right">
+                <TableHeaderCell className="w-[11%]" alignment="right">
                   Avg tokens/sec
                 </TableHeaderCell>
-                <TableHeaderCell className="w-[13.5%]">Calls trend</TableHeaderCell>
-                <TableHeaderCell className="w-[13.5%]">Tokens trend</TableHeaderCell>
+                <TableHeaderCell className="w-[12%]">Calls trend</TableHeaderCell>
+                <TableHeaderCell className="w-[12%]">Tokens trend</TableHeaderCell>
               </TableRow>
             </TableHeader>
             <TableBody>
@@ -1294,6 +1324,13 @@ function YourModelsTab({
                 const provider = catalogItem?.provider ?? u.genAiSystem;
                 const displayId = catalogItem?.displayId ?? `${provider}:${u.responseModel}`;
                 const select = catalogItem ? () => onSelectModel(catalogItem) : undefined;
+                // Savings = cached reads valued at the normal input rate minus what
+                // they actually cost. Needs the model's input price from the catalog.
+                const inputPrice = catalogItem?.inputPrice ?? null;
+                const cacheSavings =
+                  inputPrice != null && u.cachedReadTokens > 0
+                    ? Math.max(0, u.cachedReadTokens * inputPrice - u.cachedReadCost)
+                    : null;
                 return (
                   <TableRow
                     key={u.responseModel}
@@ -1314,6 +1351,13 @@ function YourModelsTab({
                     <TableCell onClick={select} alignment="right" className="tabular-nums">
                       {formatModelCost(u.totalCost)}
                     </TableCell>
+                    <TableCell
+                      onClick={select}
+                      alignment="right"
+                      className="tabular-nums text-emerald-400/80"
+                    >
+                      {cacheSavings != null ? formatModelCost(cacheSavings) : "—"}
+                    </TableCell>
                     <TableCell onClick={select} alignment="right" className="tabular-nums">
                       {u.avgTtfc > 0 ? `${u.avgTtfc.toFixed(0)}ms` : "—"}
                     </TableCell>