Bench_Final — 基准总览报告

面向 ML 理论的 Lean 4 基准套件。三类任务:讲义/教材证明、论文证明、错误证明检测。本报告给出题型分布、主题覆盖,以及错误证明子基准 v5 的评测结果。

195

总题量

任务类型

数学领域

子主题

评测配置(错误证明)

1. ICLR 错误证明 — 数据挖掘来源

整套基准的起点:先借 peer review 信号从五万余篇论文中挖出「作者亲口承认的错误证明」,定稿 ICLR 子集后,才有后续完整基准与第 2–4 节的分布和评测。

54,851

ICLR 论文(2016–26)

9,363

实质理论论文

255

作者承认过错误

入库定稿题目

管线:正则预筛理论信号(54,851 → 19,218)→ 主题分类判实质理论(→ 9,363)→ 双审审稿人质疑正确性 + 作者认账(→ 255)→ rebuttal 线程复原可入库缺陷(→ 131)→ Codex 逐条 triage 剔除显然 typo 得 96 道 hard flaw → 再剔除一目了然的错误与 noise、严格复核,定稿 49 道入库。

成品覆盖优化理论(19)、强化学习(11)、生成/采样与概率集中(各 6)等主题;逾八成缺陷直接波及论文主结果。这 49 题与 AI-gen 生成的 31 题共同构成第 4 节评测的 80 题错误证明子基准。

查看完整数据报告 · 筛选漏斗 / 错误类型 / 高置信样例 →

2. 题型分布

按任务形式(question type)切分,共 195 题。

3. 主题分布

195 题的数学主题覆盖,内环 = Domain,外环 = Subtopic(讲义/教材 75 + 论文 40 + 错误证明 80 合并)。

三个子基准逐题合并的真实主题分布(共 195 独立题)。颜色对应固定 domain;外环子领域用同色系深浅区分。错误证明子基准仅带粗粒度主题,故其条目以 (WP) 后缀的子领域并入相应 domain。

4. 错误证明检测 — v5 评测结果

80 题(ICLR 49 / AI-gen 31)· Plan C(lean 更强 / 最难)· 只统计「完全正确」= 错误步且原因都匹配(数据取自 benchmark_v5_report.html)。

题量

61% / 39%

ICLR / AI 配比

53%

NL 均值

58%

lean 均值 (+5)

4.1 完全正确率(8 配置)

配置	全部	ICLR	AI-gen

高亮行 = 最强配置(opus-4.8 · lean,62%)。lean = 允许模型用 Lean 形式化辅助判定;nl = 纯自然语言。

4.2 Lean(lean) vs NL —— 按错误类型

error_type	n	NL 均值	lean 均值	lean−NL

每格 = 该类型题上 4 个 NL / 4 个 lean 配置的平均完全正确率。绿 = lean 更强,红 = NL 更强。

🟢 Lean 更强的错误模式

invalid_bound_or_inequality(n=24): lean +13 pts
missing_assumption(n=14): lean +9 pts
circular_or_unproven(n=8): lean +9 pts

🔴 NL 更强 / Lean 无优势

computation_or_constant(n=13): +0(形式化算术开销大)
logical_gap_or_missing_case(n=8): −3
others(n=13): −4

Lean 的优势集中在可形式化反驳的错误(不等式/界、缺失假设、循环论证);在数值计算类上无优势甚至更弱(易把误读写成能编译的反例)。

4.3 Claude vs Codex(后端对比)

切分	Claude opus-4.8 + sonnet-4.6	Codex gpt-5.4-mini + gpt-5.5	差

每格 = 该后端两模型 × 相应模式的平均完全正确率。Claude 在 AI-gen 上领先明显(+20),ICLR 上两者相当。

数据来源:题型分布(Bench_Final 三类任务)· 主题分布 Reports/July_4/benchmark_merged_distribution.html · 错误证明 Reports/July_4/benchmark_v5_report.html(生成器 Wrong_proof_final/reports/gen_v5_report.py)· ICLR 挖掘 ICLR_wrong_proof/theory_classify/wrong_proof_report.html。生成日期 2026-07-04。