From 905f7529390a8f2a393a0f4b1c4135eecb01a9c4 Mon Sep 17 00:00:00 2001 From: houfaxin Date: Wed, 11 Mar 2026 10:42:31 +0800 Subject: [PATCH 1/2] Add many new Grafana TiDB dashboard metrics Update grafana-tidb-dashboard.md to add a large set of new metrics and sections, including TiDB Runtime, Dist Execute Framework, TopSQL, Resource Manager, Follower Read, Import Into, Global Sort, Network Transmission, Memory Arbitrator, Resource Control and more. Also introduce numerous new metric entries across Server, Transaction, Executor, Distsql, KV, PD Client, Schema Load, DDL, Statistics & Plan Management, Owner, GC, Batch Client and TTL sections. Minor renames and clarifications were applied (e.g. Event OPM -> Events OPM, Expensive Executor OPS -> Expensive Executors OPS, DDL Waiting Jobs Count -> Waiting Job Count), and some TTL/scan/delete items were split for clarity. This change expands monitoring visibility and reorganizes related metrics for the TiDB Grafana dashboard. --- grafana-tidb-dashboard.md | 249 ++++++++++++++++++++++++++++++++++++-- 1 file changed, 241 insertions(+), 8 deletions(-) diff --git a/grafana-tidb-dashboard.md b/grafana-tidb-dashboard.md index 2506f1dbc16b..21448c27e97e 100644 --- a/grafana-tidb-dashboard.md +++ b/grafana-tidb-dashboard.md @@ -26,6 +26,7 @@ aliases: ['/docs-cn/dev/grafana-tidb-dashboard/','/docs-cn/dev/reference/key-mon - QPS:按 `SELECT`、`INSERT`、`UPDATE` 类型统计所有 TiDB 实例上每秒执行的 SQL 语句数量。 - CPS By Instance:按照命令和执行结果成功或失败来统计每个 TiDB 实例上的命令。 - Failed Query OPM:每个 TiDB 实例上,对每分钟执行 SQL 语句发生的错误按照错误类型进行统计(例如语法错误、主键冲突等)。包含了错误所属的模块和错误码。 +- Affected Rows By Type:按 SQL 类型统计每秒受影响行数。 - Slow query:慢查询的处理时间(整个慢查询耗时、Coprocessor 耗时、Coprocessor 调度等待时间),慢查询分为 internal 和 general SQL 语句。 - Connection Idle Duration:空闲连接的持续时间。 - 999/99/95/80 Duration:不同类型的 SQL 语句执行耗时(不同百分位)。 @@ -35,6 +36,7 @@ aliases: ['/docs-cn/dev/grafana-tidb-dashboard/','/docs-cn/dev/reference/key-mon - Duration 80/95/99/999 By Instance:每个 TiDB 实例执行 SQL 语句的耗时(不同百分位)。 - Failed Query OPM Detail:每个 TiDB 实例上,对每分钟执行 SQL 语句发生的错误按照错误类型进行统计(例如语法错误、主键冲突等)。 - Internal SQL OPS:整个 TiDB 集群内部 SQL 语句执行的 QPS。内部 SQL 语句是指 TiDB 内部自动执行的 SQL 语句,一般由用户 SQL 语句来触发或者内部定时任务触发。 +- Queries In Multi-Statement:一次 Multi-Statement 请求中包含的 SQL 数量(平均值或总量)。 ### Server @@ -42,17 +44,48 @@ aliases: ['/docs-cn/dev/grafana-tidb-dashboard/','/docs-cn/dev/reference/key-mon - Memory Usage:每个 TiDB 实例的内存使用,分为进程占用内存和 Golang 在堆上申请的内存。 - CPU Usage:每个 TiDB 实例的 CPU 使用。 - Connection Count:每个 TiDB 的连接数。 +- TiDB Server Status:TiDB 实例存活状态统计(up/down)。 - Open FD Count:每个 TiDB 实例的打开的文件描述符数量。 - Disconnection Count:每个 TiDB 实例断开连接的数量。 -- Event OPM:每个 TiDB 实例关键事件,例如 start,close,graceful-shutdown,kill,hang 等。 +- Events OPM:每个 TiDB 实例关键事件,例如 start,close,graceful-shutdown,kill,hang 等。 - Goroutine Count:每个 TiDB 实例的 Goroutine 数量。 - Prepare Statement Count:每个 TiDB 实例现存的 `Prepare` 语句数以及总数。 +- Runtime GC Rate And GOMEMLIMIT:Golang GC 周期速率与 `GOMEMLIMIT` 配置值。 - Keep Alive OPM:每个 TiDB 实例每分钟刷新监控的次数,通常不需要关注。 - Panic And Critical Error:TiDB 中出现的 Panic、Critical Error 数量。 - Time Jump Back OPS:每个 TiDB 实例上每秒操作系统时间回跳的次数。 - Get Token Duration:每个连接获取 Token 的耗时。 - Skip Binlog Count:TiDB 写入 Binlog 失败的数量。从 v8.4.0 开始,TiDB Binlog 已移除,该指标不再有计数。 - Client Data Traffic:TiDB 和客户端的数据流量。 +- RCCheckTS WriteConflict Num:RC CheckTS 导致的写冲突次数(按类型统计)。 +- Handshake Error OPS:客户端握手失败的每秒次数。 +- Internal Sessions:TiDB 内部会话数量。 +- Active Users:活跃用户数量。 +- Connections Per TLS Cipher:按 TLS Cipher 统计的连接速率。 +- Connections Per TLS Version:按 TLS 版本统计的连接速率。 + +### TiDB Runtime + +- Memory Usage:TiDB 进程内存使用情况。 +- CPU Usage:TiDB 进程 CPU 使用情况。 +- Estimated Live Objects:估算的存活对象数量。 +- GC STW Duration: Last 256 GC Cycles:最近 256 次 GC 的 STW 时长分布。 +- Allocator Throughput:内存分配吞吐量。 +- Goroutine Count:Goroutine 数量。 +- KV RPC Latency:与 TiKV 交互的 RPC 延迟。 +- TSO RPC Latency:获取 TSO 的 RPC 延迟。 +- Requests Batch Size:批量请求大小。 +- Pending Requests:待处理请求数量。 +- Request Enqueue Duration:请求入队等待时长。 +- Batch Enqueue Duration:批量请求入队等待时长。 +- Goroutine Scheduler Latency:Goroutine 调度延迟。 +- GC STW Latency(>=go1.22.0):Go 1.22+ 的 GC STW 延迟指标。 +- Estimated Portion Of CPU Time:估算的 CPU 时间占比。 +- Golang GC:Golang GC 相关统计。 +- Sync Mutex Wait:互斥锁等待时间。 +- GOGC & GOMEMLIMIT:`GOGC` 与 `GOMEMLIMIT` 配置及其影响。 +- Heap Alloc:堆内存分配量。 +- Heap Free:堆内存空闲量。 ### Transaction @@ -77,18 +110,41 @@ aliases: ['/docs-cn/dev/grafana-tidb-dashboard/','/docs-cn/dev/reference/key-mon - TTL Lifetime Reach Counter:事务的 TTL 寿命上限。TTL 上限默认值 1 小时,它的含义是从悲观事务第一次加锁,或者乐观事务的第一个 prewrite 开始,超过了 1 小时。可以通过修改 TiDB 配置文件中 `max-txn-ttl` 来改变 TTL 寿命上限 - Load Safepoint OPS:加载 Safepoint 的次数。Safepoint 作用是在事务读数据时,保证不读到 Safepoint 之前的数据,保证数据安全。因为,Safepoint 之前的数据有可能被 GC 清理掉 - Pessimistic Statement Retry OPS:悲观语句重试次数。当语句尝试加锁时,可能遇到写入冲突,此时,语句会重新获取新的 snapshot 并再次加锁 -- Transaction Types Per Seconds:每秒采用两阶段提交 (2PC)、异步提交 (Async Commit) 和一阶段提交 (1PC) 机制的事务数量,提供成功和失败两种数量 +- Transaction Types Per Second:每秒采用两阶段提交 (2PC)、异步提交 (Async Commit) 和一阶段提交 (1PC) 机制的事务数量,提供成功和失败两种数量 +- Transaction Commit P99 Backoff:事务提交阶段的 P99 Backoff 等待时长。 +- SafeTS Update Conuter:SafeTS 更新次数(按结果与 store 维度)。 +- Max SafeTS Gap:SafeTS 与当前时间的最大时间差(安全时间滞后)。 +- Assertion:Prewrite 断言(assertion)触发次数(按类型统计)。 +- Transaction Execution States Duration:事务各执行状态的耗时分布。 +- Transaction With Lock Execution States Duration:带锁事务各执行状态的耗时分布。 +- Transaction Enter State:事务进入各状态的次数。 +- Transaction Leave State:事务离开各状态的次数。 +- Transaction State Count Change:事务状态数量变化。 +- Fair Locking Usage:公平加锁机制使用情况(按类型统计)。 +- Fair Locking Keys:公平加锁涉及的 Key 数量(按类型统计)。 +- Pipelined Flush Keys:Pipelined Flush 批量刷新的 Key 数量分布。 +- Pipelined Flush Size:Pipelined Flush 批量刷新的数据量分布。 +- Pipelined Flush Duration:Pipelined Flush 批量刷新的耗时分布。 +- Statement Shared Lock Keys:单条语句加共享锁的 Key 数量。 ### Executor - Parse Duration:SQL 语句解析耗时统计。 - Compile Duration:将解析后的 SQL AST 编译成执行计划的耗时。 - Execution Duration:执行 SQL 语句执行计划耗时。 -- Expensive Executor OPS:每秒消耗系统资源比较多的算子。包括 Merge Join、Hash Join、Index Look Up Join、Hash Agg、Stream Agg、Sort、TopN 等。 +- Expensive Executors OPS:每秒消耗系统资源比较多的算子。包括 Merge Join、Hash Join、Index Look Up Join、Hash Agg、Stream Agg、Sort、TopN 等。 - Queries Using Plan Cache OPS:每秒使用 Plan Cache 的查询数量。 - Plan Cache Miss OPS:每秒出现 Plan Cache Miss 的数量。 - Plan Cache Memory Usage:每个 TiDB 实例上所有 Plan Cache 缓存的执行计划占用的总内存。 - Plan Cache Plan Num:每个 TiDB 实例上所有 Plan Cache 缓存的执行计划总数。 +- Read From Table Cache OPS:每秒命中 Table Cache 的读请求数量。 +- Plan Cache Process Duration:Plan Cache 相关处理的耗时分布。 +- Mpp Coordinator Counter:MPP Coordinator 执行次数统计。 +- Mpp Coordinator Latency:MPP Coordinator 执行延迟。 +- IndexLookUp OPS:Index Look Up 的每秒执行次数。 +- IndexLookUp Duration:Index Look Up 执行耗时。 +- IndexLookUp Rows:Index Look Up 返回的行数统计。 +- IndexLookUp Row Num With PushDown Enabled:开启下推时 Index Look Up 返回的行数统计。 ### Distsql @@ -98,6 +154,8 @@ aliases: ['/docs-cn/dev/grafana-tidb-dashboard/','/docs-cn/dev/reference/key-mon - Scan Keys Num:每个 Query 扫描的 Key 的数量 - Scan Keys Partial Num:每一个 Partial Result 扫描的 Key 的数量 - Partial Num:每个 SQL 语句 Partial Results 的数量 +- Coprocessor Cache:Coprocessor 缓存的命中与使用情况。 +- Coprocessor Seconds 999:Coprocessor 执行耗时的 99.9 分位。 ### KV Errors @@ -106,6 +164,7 @@ aliases: ['/docs-cn/dev/grafana-tidb-dashboard/','/docs-cn/dev/reference/key-mon - KV Backoff OPS:TiKV 返回错误信息的数量 - Lock Resolve OPS:TiDB 清理锁操作的数量。当 TiDB 的读写请求遇到锁时,会尝试进行锁清理 - Other Errors OPS:其他类型的错误数量,包括清锁和更新 SafePoint +- Replica Selector Failure Per Second:副本选择失败的每秒次数。 ### KV Request @@ -114,6 +173,12 @@ aliases: ['/docs-cn/dev/grafana-tidb-dashboard/','/docs-cn/dev/reference/key-mon - KV Request OPS:KV Request 根据 TiKV 显示执行次数 - KV Request Duration 99 by store:根据 TiKV 显示 KV Request 执行时间 - KV Request Duration 99 by type:根据类型显示 KV Request 的执行时间 +- KV Request Forwarding OPS:KV Request 转发次数。 +- KV Request Forwarding OPS By Type:按请求类型统计的 KV Request 转发次数。 +- Successful KV Request Wait Duration:成功 KV Request 的等待时长。 +- Region Cache OK OPS:Region Cache 命中次数。 +- Load Region Duration:加载 Region 的耗时分布。 +- RPC Layer Latency:RPC 网络层延迟。 - Stale Read Hit/Miss Ops - **hit**:每秒成功执行 Stale Read 的请求数量 - **miss**:每秒尝试执行 Stale Read 但失败的请求数量 @@ -130,6 +195,9 @@ aliases: ['/docs-cn/dev/grafana-tidb-dashboard/','/docs-cn/dev/reference/key-mon - **leader-cross-zone**:Leader Read 在远程可用区处理读请求产生的流量 - **follower-local**:Follower Read 在本地可用区处理读请求产生的流量 - **follower-cross-zone**:Follower Read 在远程可用区处理读请求产生的流量 +- Client-side Slow Score:客户端侧慢速评分(按 store)。 +- TiKV-side Slow Score:TiKV 侧慢速评分(按 store)。 +- Store Liveness Check Faults:Store 活性检查失败次数。 ### PD Client @@ -140,6 +208,14 @@ aliases: ['/docs-cn/dev/grafana-tidb-dashboard/','/docs-cn/dev/reference/key-mon - PD TSO Wait Duration:TiDB 等待从 PD 返回 TSO 的时间 - PD TSO RPC Duration:TiDB 从向 PD 发送获取 TSO 的 gRPC 请求到接收到 TSO gRPC 请求响应的耗时 - Async TSO Duration:TiDB 从准备获取 TSO 到实际开始等待 TSO 返回的时间 +- Estimate TSO RTT Latency:估算的 TSO 往返时延。 +- Request Forwarded Status:请求被转发的状态统计。 +- PD HTTP Request Duration:TiDB 发往 PD 的 HTTP 请求耗时。 +- PD HTTP Request OPS:TiDB 发往 PD 的 HTTP 请求次数。 +- PD HTTP Request Fail OPS:TiDB 发往 PD 的 HTTP 请求失败次数。 +- Stale Region From PD:从 PD 获取的 stale region 次数。 +- Circuit Breaker Event:请求熔断事件统计。 +- TiDB Wait TSO Future Duration:TiDB 等待 TSO 进入未来时间的耗时。 ### Schema Load @@ -147,21 +223,49 @@ aliases: ['/docs-cn/dev/grafana-tidb-dashboard/','/docs-cn/dev/reference/key-mon - Load Schema OPS:TiDB 从 TiKV 每秒获取 Schema 的数量 - Schema Lease Error OPM:Schema Lease 出错统计,包括 change 和 outdate 两种,change 代表 schema 发生了变化,outdate 代表无法更新 schema,属于较严重错误,出现 outdate 错误时会报警 - Load Privilege OPS:TiDB 从 TiKV 每秒获取权限信息的数量 +- Load Schema Action Duration:按加载动作统计的 Schema 加载耗时。 +- Load Data From Cached Table Duration:从 Table Cache 加载数据的耗时。 +- Schema Cache OPS:Schema Cache 的读写次数(按 action/type)。 +- Lease Duration:Schema lease 剩余时长。 +- Infoschema V2 Cache Operation:Infoschema V2 缓存操作次数与命中率。 +- Infoschema V2 Cache Size:Infoschema V2 缓存使用量与上限。 +- Infoschema V2 Cache Table Count:Infoschema V2 缓存表数量。 +- TableByName API Duration:Infoschema `TableByName` API 调用耗时。 ### DDL - DDL Duration 95:DDL 语句处理时间的 95% 分位 - Batch Add Index Duration 100:创建索引时每个 Batch 所花费的最大时间 -- DDL Waiting Jobs Count:等待的 DDL 任务数量 +- Waiting Job Count:等待的 DDL 任务数量 - DDL META OPM:DDL 每分钟获取 META 的次数 - DDL Worker Duration 99:每个 DDL worker 执行时间的 99% 分位 +- OPS:按类型统计 DDL 处理次数/速率。 +- Execute Duration:DDL 作业执行耗时分布。 +- Job Worker Operations Duration:DDL worker 操作耗时分布(按类型、动作与结果)。 +- Sync Schema Version Operations Duration:同步 Schema Version 的操作耗时分布。 +- System Table Operations Duration:系统表相关操作耗时分布。 +- Running Job Count By Worker Pool:按 worker 池统计运行中的 DDL 作业数量。 - Deploy Syncer Duration:Schema Version Syncer 初始化,重启,清空等操作耗时 - Owner Handle Syncer Duration:DDL Owner 在执行更新,获取以及检查 Schema Version 的耗时 - Update Self Version Duration:Schema Version Syncer 更新版本信息耗时 - DDL OPM:DDL 语句的每秒执行次数 -- DDL backfill progress in percentage:backfill DDL 任务的进度展示 +- Backfill Progress In Percentage:backfill DDL 任务的进度展示 +- Backfill Data Rate:回填数据速率。 +- Add Index Scan Rate:Add Index 扫描速率分布。 +- Retryable Error:可重试错误次数。 +- Add Index Backfill Import Speed:Add Index 回填导入速率。 -### Statistics +### Dist Execute Framework + +- Task Status:分布式执行框架任务状态统计。 +- Completed/Total Subtask Count:已完成/总子任务数量。 +- Pending Subtask Count:等待中的子任务数量。 +- SubTask Running Duration:子任务运行时长分布。 +- Subtask Pending Duration:子任务等待时长分布。 +- Uncompleted Subtask Distribution On TiDB Nodes:未完成子任务在 TiDB 节点上的分布。 +- Slots Usage:分布式执行框架 slot 使用情况。 + +### Statistics & Plan Management - Auto Analyze Duration 95:自动 ANALYZE 耗时 - Auto Analyze QPS:自动 ANALYZE 数量 @@ -171,6 +275,20 @@ aliases: ['/docs-cn/dev/grafana-tidb-dashboard/','/docs-cn/dev/reference/key-mon - Store Query Feedback QPS:存储合并查询的 Feedback 信息的每秒操作数量,该操作在 TiDB 内存中进行 - Significant Feedback:重要的 Feedback 更新统计信息的数量 - Update Stats OPS:利用 Feedback 更新统计信息的数量 +- Auto/Manual Analyze Duration:自动/手动 ANALYZE 的耗时分布。 +- Auto/Manual Analyze Queries Per Minute:自动/手动 ANALYZE 每分钟的执行次数。 +- Stats Healthy Distribution:统计信息健康度分布。 +- Sync Load QPS:统计信息同步加载的 QPS。 +- Sync Load Latency P9999:统计信息同步加载的 P9999 延迟。 +- Stats Cache Cost:统计信息缓存容量与使用情况。 +- Stats Cache OPS:统计信息缓存操作次数。 +- Plan Replayer Task OPM:Plan Replayer 任务每分钟执行次数。 +- Historical Stats OPM:历史统计信息任务每分钟执行次数。 +- Stats Loading Duration:统计信息加载耗时。 +- Stats Meta/Usage Updating Duration:统计信息元数据与使用情况更新耗时。 +- Binding Cache Memory Usage:Plan Binding 缓存内存占用。 +- Binding Cache Hit / Miss OPS:Plan Binding 缓存命中/未命中次数。 +- Number Of Bindings In Cache:Plan Binding 缓存中的绑定数量。 ### Owner @@ -181,6 +299,7 @@ aliases: ['/docs-cn/dev/grafana-tidb-dashboard/','/docs-cn/dev/reference/key-mon - AutoID QPS:AutoID 相关操作的数量统计,包括全局 ID 分配、单个 Table AutoID 分配、单个 Table AutoID Rebase 三种操作 - AutoID Duration:AutoID 相关操作的耗时 +- AutoID Client Conn Reset Counter:AutoID 客户端连接重置次数。 - Region Cache Error OPS:TiDB 缓存的 region 信息每秒遇到的错误次数 - Meta Operations Duration 99:元数据操作延迟 @@ -188,6 +307,7 @@ aliases: ['/docs-cn/dev/grafana-tidb-dashboard/','/docs-cn/dev/reference/key-mon - Worker Action OPM:GC 相关操作的数量,包括 run\_job,resolve\_lock,delete\_range 等操作 - Duration 99:GC 相关操作的耗时 +- GC Duration By Stage:GC 各阶段耗时分布。 - Config:GC 的数据保存时长 (life time) 和 GC 运行间隔 (run interval) 配置 - GC Failure OPM:GC 相关操作失败的数量 - Delete Range Failure OPM:Delete range 失败的次数 @@ -195,6 +315,10 @@ aliases: ['/docs-cn/dev/grafana-tidb-dashboard/','/docs-cn/dev/reference/key-mon - Action Result OPM:GC 相关操作结果数量 - Delete Range Task Status:Delete range 的任务状态,包含完成和失败状态 - Push Task Duration 95:将 GC 子任务推送给 GC worker 的耗时 +- Resolve Locks Range Tasks Status:Resolve Locks range 任务状态。 +- Resolve Locks Range Tasks Push Task Duration 95:推送 Resolve Locks range 任务的耗时。 +- Ongoing User Transaction Duration:进行中的用户事务持续时间。 +- Ongoing Internal Transaction Duration:进行中的内部事务持续时间。 ### Batch Client @@ -202,6 +326,17 @@ aliases: ['/docs-cn/dev/grafana-tidb-dashboard/','/docs-cn/dev/reference/key-mon - Wait Duration 95: 批量消息处理的等待时间。 - Batch Client Unavailable Duration 95:批处理客户端的不可用时长。 - No Available Connection Counter:批处理客户端不可用的连接数。 +- Wait Connection Establish Duration:批处理客户端建立连接的等待时间。 +- Batch Receive Average Duration:批处理接收数据的平均耗时。 + +### TopSQL + +- Ignore Event Per Minute:TopSQL 忽略事件的每分钟数量。 +- 99 Report Duration:TopSQL 上报耗时的 99 分位。 +- Report Data Count Per Minute:TopSQL 每分钟上报的数据量。 +- Total Report Count:TopSQL 上报总次数(含不同结果类型)。 +- CPU Profiling OPS:CPU Profiling 相关操作的每秒次数。 +- TiKV Stat Task OPS:TiKV 资源统计任务的每秒次数。 ### TTL @@ -213,7 +348,105 @@ aliases: ['/docs-cn/dev/grafana-tidb-dashboard/','/docs-cn/dev/reference/key-mon - TTL Processed Rows Per Second:TTL 任务每秒处理的过期数据的行数。 - TTL Insert Rows Per Hour: 每小时总共向 TTL 表插入的行数。 - TTL Delete Rows Per Hour: 每小时总共删除的过期行数。 -- TTL Scan/Delete Query Duration:TTL 的扫描/删除语句的执行时间。 -- TTL Scan/Delete Worker Time By Phase:TTL 内部工作线程的不同阶段所占用的时间。 +- TTL Scan Query Duration:TTL 扫描语句的执行时间。 +- TTL Delete Query Duration:TTL 删除语句的执行时间。 +- Scan Worker Time By Phase:TTL 扫描 worker 各阶段耗时。 +- Delete Worker Time By Phase:TTL 删除 worker 各阶段耗时。 - TTL Job Count By Status:当前正在执行的 TTL 任务的数量。 - TTL Task Count By Status:当前正在执行的 TTL 子任务的数量。 +- Table Count By TTL Schedule Delay:按 TTL 调度延迟统计的表数量。 +- TTL Insert/Delete Rows By Day:按天统计 TTL 插入/删除行数。 +- TTL Event Count Per Minute:TTL 事件每分钟数量(含调度与运行时事件)。 + +### Resource Manager + +- GOGC:TiDB 资源管理相关的 `GOGC` 配置值。 +- EMA CPU Usage:资源管理器估算的 CPU 使用率(EMA)。 + +### Follower Read + +- Closest Replica Hit Count Per Second:最近副本命中次数(每秒)。 +- Coprocessor Response Size Per Instance And TiKV:按 TiDB 实例与 TiKV 维度统计的 Coprocessor 响应大小。 +- Coprocessor Response Size:Coprocessor 响应大小分布。 + +### Import Into + +- Total Encode/Deliver/Import-kv Speed:Import 任务编码/投递/导入的总速率。 +- Encoded/Delivered/Imported Data Size:Import 任务已编码/已投递/已导入的数据量。 +- Delivered KV Count:已投递的 KV 数量。 +- Data Read/Encode/Deliver Average Duration:数据读取/编码/投递的平均耗时。 +- Import/Normal Mode:Import/Normal 模式状态(与相关阈值配置关联)。 + +### Global Sort + +- Write To Cloud Storage Duration:写入云存储的耗时分布。 +- Write To Cloud Storage Rate:写入云存储的速率分布。 +- Read From Cloud Storage Duration:从云存储读取的耗时分布。 +- Read From Cloud Storage Rate:从云存储读取的速率分布。 +- Ingest Worker Count:Ingest worker 数量。 +- Active Parallel Upload Worker Count:并行上传 worker 数量。 + +### Network Transmission + +- Query Network Trasmission Bytes:查询相关的网络传输字节数(按类型)。 + +### Memory Arbitrator + +- Work Mode:内存仲裁器工作模式。 +- Arbitration Exec:内存仲裁任务执行次数(按类型)。 +- Events:内存仲裁事件统计(按类型与实例)。 +- Mem Quota Stats:内存配额统计。 +- Mem Quota Arbitration Duration:内存配额仲裁耗时分布。 +- Mem Pool Stats:内存池使用统计。 +- Runtime Mem Pressure:运行时内存压力指标。 +- Waiting Tasks Stats:等待仲裁任务统计。 + +### Resource Control + +- RU Config:资源单元(RU)配置。 +- RU:资源单元(RU)消耗。 +- RU Max(Max Cost During 20s Period):20 秒窗口内 RU 最大消耗。 +- RU Per Query:单次查询的 RU 消耗。 +- RRU:读资源单元(RRU)消耗。 +- RRU Per Query:单次查询的 RRU 消耗。 +- WRU:写资源单元(WRU)消耗。 +- WRU Per Query:单次查询的 WRU 消耗。 +- KV Request Count:KV 请求数量。 +- KV Request Count Per Query:单次查询的 KV 请求数量。 +- Bytes Read:读取字节数。 +- Bytes Read Per Query:单次查询读取字节数。 +- Bytes Written:写入字节数。 +- Bytes Written Per Query:单次查询写入字节数。 +- KV CPU Time:KV 层 CPU 时间消耗。 +- SQL CPU Time:SQL 层 CPU 时间消耗。 +- Cross AZ Traffic Bytes(Read):跨可用区读流量。 +- Cross AZ Traffic Bytes(Write):跨可用区写流量。 +- Active Resource Groups:活跃资源组数量。 +- Total KV Request Count:KV 请求总数。 +- Failed KV Request Count:KV 请求失败数量。 +- Successful KV Request Wait Duration:成功 KV 请求等待耗时。 +- Successful KV Request Count:成功 KV 请求数量。 +- Token Request Handle Duration:令牌请求处理耗时。 +- Token Request Count:令牌请求数量。 +- Query Max Duration:Runaway 查询最大耗时。 +- Runaway Event:Runaway 事件统计。 +- Runaway Flusher Flush OPS:Runaway Flusher 刷新次数。 +- Runaway Flusher Add OPS:Runaway Flusher 追加次数。 +- Runaway Flusher Batch Size:Runaway Flusher 批大小。 +- Runaway Flusher Duration:Runaway Flusher 执行耗时。 +- Runaway Flusher Interval:Runaway Flusher 执行间隔。 +- Runaway Syncer OPS:Runaway Syncer 同步次数。 +- Runaway Syncer Duration:Runaway Syncer 同步耗时。 +- Runaway Syncer Interval:Runaway Syncer 同步间隔。 +- Runaway Syncer Checkpoint:Runaway Syncer 检查点。 +- CPU Time By Priority:按优先级统计 CPU 时间消耗。 +- CPU Quota Limit By Priority:按优先级统计 CPU 配额上限。 +- Tasks Wait QPS By Priority:按优先级统计任务等待 QPS。 +- Priority Task Wait Duration:按优先级统计任务等待耗时。 +- Background Task RU:后台任务 RU 消耗。 +- Background Task Resource Utilization:后台任务资源利用率。 +- Background Task IO Limit:后台任务 IO 限制。 +- Background Task CPU Consumption:后台任务 CPU 消耗。 +- Background Task CPU Limit:后台任务 CPU 限制。 +- Background Task IO Consumption:后台任务 IO 消耗。 +- Background Task Total Wait Duration:后台任务总等待耗时。 From cb886f3cc945bb222fa52eb15b0be2a24f5e2333 Mon Sep 17 00:00:00 2001 From: houfaxin Date: Wed, 11 Mar 2026 11:35:21 +0800 Subject: [PATCH 2/2] Update grafana-tidb-dashboard.md --- grafana-tidb-dashboard.md | 19 +++++++++++++++++++ 1 file changed, 19 insertions(+) diff --git a/grafana-tidb-dashboard.md b/grafana-tidb-dashboard.md index 21448c27e97e..bcce5ca10c8b 100644 --- a/grafana-tidb-dashboard.md +++ b/grafana-tidb-dashboard.md @@ -30,10 +30,18 @@ aliases: ['/docs-cn/dev/grafana-tidb-dashboard/','/docs-cn/dev/reference/key-mon - Slow query:慢查询的处理时间(整个慢查询耗时、Coprocessor 耗时、Coprocessor 调度等待时间),慢查询分为 internal 和 general SQL 语句。 - Connection Idle Duration:空闲连接的持续时间。 - 999/99/95/80 Duration:不同类型的 SQL 语句执行耗时(不同百分位)。 +- 80 Duration:SQL 语句执行耗时的 80% 分位。 +- 95 Duration:SQL 语句执行耗时的 95% 分位。 +- 99 Duration:SQL 语句执行耗时的 99% 分位。 +- 999 Duration:SQL 语句执行耗时的 99.9% 分位。 ### Query Detail - Duration 80/95/99/999 By Instance:每个 TiDB 实例执行 SQL 语句的耗时(不同百分位)。 +- Duration 80 By Instance:按实例统计的 80% 分位执行耗时。 +- Duration 95 By Instance:按实例统计的 95% 分位执行耗时。 +- Duration 99 By Instance:按实例统计的 99% 分位执行耗时。 +- Duration 999 By Instance:按实例统计的 99.9% 分位执行耗时。 - Failed Query OPM Detail:每个 TiDB 实例上,对每分钟执行 SQL 语句发生的错误按照错误类型进行统计(例如语法错误、主键冲突等)。 - Internal SQL OPS:整个 TiDB 集群内部 SQL 语句执行的 QPS。内部 SQL 语句是指 TiDB 内部自动执行的 SQL 语句,一般由用户 SQL 语句来触发或者内部定时任务触发。 - Queries In Multi-Statement:一次 Multi-Statement 请求中包含的 SQL 数量(平均值或总量)。 @@ -53,6 +61,7 @@ aliases: ['/docs-cn/dev/grafana-tidb-dashboard/','/docs-cn/dev/reference/key-mon - Runtime GC Rate And GOMEMLIMIT:Golang GC 周期速率与 `GOMEMLIMIT` 配置值。 - Keep Alive OPM:每个 TiDB 实例每分钟刷新监控的次数,通常不需要关注。 - Panic And Critical Error:TiDB 中出现的 Panic、Critical Error 数量。 +- Panic And Critial Error:TiDB 中出现的 Panic、Critical Error 数量(与面板命名保持一致)。 - Time Jump Back OPS:每个 TiDB 实例上每秒操作系统时间回跳的次数。 - Get Token Duration:每个连接获取 Token 的耗时。 - Skip Binlog Count:TiDB 写入 Binlog 失败的数量。从 v8.4.0 开始,TiDB Binlog 已移除,该指标不再有计数。 @@ -182,19 +191,23 @@ aliases: ['/docs-cn/dev/grafana-tidb-dashboard/','/docs-cn/dev/reference/key-mon - Stale Read Hit/Miss Ops - **hit**:每秒成功执行 Stale Read 的请求数量 - **miss**:每秒尝试执行 Stale Read 但失败的请求数量 +- Stale Read Hit/Miss OPS:Stale Read 命中/未命中的每秒请求数量。 - Stale Read Req Ops - **cross-zone**:每秒尝试在远程可用区执行 Stale Read 的请求数量 - **local**:每秒尝试在本地可用区执行 Stale Read 的请求数量 +- Stale Read Req OPS:Stale Read 请求的每秒数量。 - Stale Read Req Traffic - **cross-zone-in**:尝试在远程可用区执行 Stale Read 的请求的响应的传入流量 - **cross-zone-out**:尝试在远程可用区执行 Stale Read 的请求的响应的传出流量 - **local-in**:尝试在本地可用区执行 Stale Read 的请求的响应的传入流量 - **local-out**:尝试在本地可用区执行 Stale Read 的请求的响应的传出流量 +- Stale Read Req Traffic:Stale Read 请求的流量统计。 - Read Req Traffic - **leader-local**:Leader Read 在本地可用区处理读请求产生的流量 - **leader-cross-zone**:Leader Read 在远程可用区处理读请求产生的流量 - **follower-local**:Follower Read 在本地可用区处理读请求产生的流量 - **follower-cross-zone**:Follower Read 在远程可用区处理读请求产生的流量 +- Read Req Traffic:读请求流量统计。 - Client-side Slow Score:客户端侧慢速评分(按 store)。 - TiKV-side Slow Score:TiKV 侧慢速评分(按 store)。 - Store Liveness Check Faults:Store 活性检查失败次数。 @@ -341,13 +354,19 @@ aliases: ['/docs-cn/dev/grafana-tidb-dashboard/','/docs-cn/dev/reference/key-mon ### TTL - TiDB CPU Usage: 每个 TiDB 实例的 CPU 使用。 +- TiDB CPU Usage:每个 TiDB 实例的 CPU 使用。 - TiKV IO MBps: 每个 TiKV 实例的 I/O 吞吐量。 +- TiKV IO MBps:每个 TiKV 实例的 I/O 吞吐量。 - TiKV CPU: 每个 TiKV 实例的 CPU 使用。 +- TiKV CPU:每个 TiKV 实例的 CPU 使用。 - TTL QPS By Type:TTL 任务产生的不同类型语句的 QPS 信息。 - TTL Insert Rows Per Second: 每秒钟向 TTL 表插入的数据行数。 +- TTL Insert Rows Per Second:每秒钟向 TTL 表插入的数据行数。 - TTL Processed Rows Per Second:TTL 任务每秒处理的过期数据的行数。 - TTL Insert Rows Per Hour: 每小时总共向 TTL 表插入的行数。 +- TTL Insert Rows Per Hour:每小时总共向 TTL 表插入的行数。 - TTL Delete Rows Per Hour: 每小时总共删除的过期行数。 +- TTL Delete Rows Per Hour:每小时总共删除的过期行数。 - TTL Scan Query Duration:TTL 扫描语句的执行时间。 - TTL Delete Query Duration:TTL 删除语句的执行时间。 - Scan Worker Time By Phase:TTL 扫描 worker 各阶段耗时。