OpenAI o3数学成绩作弊？60多名数学大牛被蒙！

AI导读

2025年初，科技界曝出OpenAI o3模型涉嫌在FrontierMath基准测试中作弊的丑闻。这份由60多位顶尖数学家（含菲尔兹奖得主陶哲轩）共同开发的数学测试集，其保密题目被证实提前泄露给资助方OpenAI。尽管Epoch AI坚称存在未公开的保留测试集，但承包商爆料显示参与数学家均不知情OpenAI的特权访问权，测试题保密协议与科研伦理遭受严重质疑。此次事件不仅动摇了o3模型25.2%准确率的突破性成绩可信度，更暴露AI领域基准测试体系存在的制度性漏洞，引发对行业透明度的广泛反思。

2025年1月，一场关于OpenAI o3模型数学成绩的争议在科技圈引发轩然大波。这场争议的核心在于OpenAI被指在FrontierMath基准测试中获得了不当优势。

FrontierMath是由Epoch AI联合全球60余位顶尖数学家共同开发的数学基准测试，参与者包括菲尔兹奖得主陶哲轩在内的多位权威数学家。这套测试集包含数百个极具挑战性的原创数学问题，涵盖数论、实分析、代数几何、范畴论等现代数学主要分支。

2023年12月20日，OpenAI发布o3模型时，在FrontierMath测试中取得了25.2%的准确率，远超其他模型不足2%的成绩。这一成绩曾令业界为之震惊，被视为AI数学能力的重大突破。

然而，事情的转折点出现在Epoch AI的一位承包商”Meemi”在LessWrong论坛的爆料。据披露，OpenAI不仅是FrontierMath的资助方，还获得了测试题库的特权访问权。更令人震惊的是，参与命题的60多位数学家对此完全不知情，直到o3发布才得知这一事实。

Epoch AI副主任兼联合创始人Tamay Besiroglu随后承认了这一情况。他表示OpenAI确实可以访问大部分FrontierMath的问题和解决方案，但强调存在一个OpenAI未见过的保留测试集，用于独立验证模型能力。Besiroglu还提到与OpenAI达成了口头协议，承诺这些材料不会用于模型训练。

斯坦福博士、MIT罗德奖学金得主Carina Hong证实，至少有六名专家能够证明他们事先并不知情。多位数学家表示，如果他们提前得知OpenAI拥有独家访问权，可能会重新考虑是否参与这个项目。

值得注意的是，FrontierMath原本对题目和答案采取了严格的保密措施。参与命题的数学家们都被要求签订保密协议，甚至被禁止使用Overleaf、Colab或电子邮件传输相关信息。然而，这些严格保密的题目却被提前交到了OpenAI手中。

截至目前，尽管争议持续发酵，OpenAI尚未就此事做出任何官方回应。这一事件不仅引发了对o3模型真实能力的质疑，也暴露了AI基准测试中的透明度和公平性问题。