iLB 是一个生产级的、用于 AI 逻辑评估的程序化无界基准测试工具。
- 无界难度 (Unbounded Difficulty): 没有最高分限制。通过程序化生成,任务难度可以无限增加。
- 语言漂移指标 (Language Drift Metrics): 逻辑在不同语言中是否保持一致?AI 在中文语境下的推理能力是否与英文相同?
- 同构一致性 (Isomorphic Consistency): 引入 真值指数 (Truth Index, Ti) 概念,衡量同一逻辑内核在不同表述下的稳定性。
pip install -e .ilbfrom ilb import api
# 生成一个逻辑任务
task = api.generate_task(engine="RecursiveMath", difficulty=5)
print(task.prompt)
# 获取同构集群 (用于测试一致性)
cluster = api.generate_cluster(task.kernel_id, languages=["EN", "ZH"])iLB 由以下核心模块组成:
- Core: 定义逻辑内核 (
LogicKernel) 和任务 (Task) 的数据结构。 - Engines: 不同的逻辑生成引擎 (如
RecursiveMath,CausalLogic)。 - Ice: 渲染与本地化层 (负责将逻辑内核转换为自然语言)。
- Runner: 负责执行基准测试和结果收集。
- UI: 基于 Textual 的 TUI 界面。