面向 ML 理论的 Lean 4 基准套件。三类任务:讲义/教材证明、论文证明、错误证明检测。本报告给出题型分布、主题覆盖,以及错误证明子基准 v5 的评测结果。
整套基准的起点:先借 peer review 信号从五万余篇论文中挖出「作者亲口承认的错误证明」,定稿 ICLR 子集后,才有后续完整基准与第 2–4 节的分布和评测。
管线:正则预筛理论信号(54,851 → 19,218)→ 主题分类判实质理论(→ 9,363)→ 双审审稿人质疑正确性 + 作者认账(→ 255)→ rebuttal 线程复原可入库缺陷(→ 131)→ Codex 逐条 triage 剔除显然 typo 得 96 道 hard flaw → 再剔除一目了然的错误与 noise、严格复核,定稿 49 道入库。
成品覆盖优化理论(19)、强化学习(11)、生成/采样与概率集中(各 6)等主题;逾八成缺陷直接波及论文主结果。 这 49 题与 AI-gen 生成的 31 题共同构成第 4 节评测的 80 题错误证明子基准。
查看完整数据报告 · 筛选漏斗 / 错误类型 / 高置信样例 →按任务形式(question type)切分,共 195 题。
195 题的数学主题覆盖,内环 = Domain,外环 = Subtopic(讲义/教材 75 + 论文 40 + 错误证明 80 合并)。
三个子基准逐题合并的真实主题分布(共 195 独立题)。颜色对应固定 domain;外环子领域用同色系深浅区分。错误证明子基准仅带粗粒度主题,故其条目以 (WP) 后缀的子领域并入相应 domain。
80 题(ICLR 49 / AI-gen 31)· Plan C(lean 更强 / 最难)· 只统计「完全正确」= 错误步 且 原因都匹配(数据取自 benchmark_v5_report.html)。
| 配置 | 全部 | ICLR | AI-gen |
|---|
高亮行 = 最强配置(opus-4.8 · lean,62%)。lean = 允许模型用 Lean 形式化辅助判定;nl = 纯自然语言。
| error_type | n | NL 均值 | lean 均值 | lean−NL |
|---|
每格 = 该类型题上 4 个 NL / 4 个 lean 配置的平均完全正确率。绿 = lean 更强,红 = NL 更强。
Lean 的优势集中在可形式化反驳的错误(不等式/界、缺失假设、循环论证);在数值计算类上无优势甚至更弱(易把误读写成能编译的反例)。
| 切分 | Claude opus-4.8 + sonnet-4.6 | Codex gpt-5.4-mini + gpt-5.5 | 差 |
|---|
每格 = 该后端两模型 × 相应模式的平均完全正确率。Claude 在 AI-gen 上领先明显(+20),ICLR 上两者相当。
数据来源:题型分布(Bench_Final 三类任务)· 主题分布 Reports/July_4/benchmark_merged_distribution.html · 错误证明 Reports/July_4/benchmark_v5_report.html(生成器 Wrong_proof_final/reports/gen_v5_report.py)· ICLR 挖掘 ICLR_wrong_proof/theory_classify/wrong_proof_report.html。生成日期 2026-07-04。