
2025年1月,一场关于OpenAI o3模型数学成绩的争议在科技圈引发轩然大波。这场争议的核心在于OpenAI被指在FrontierMath基准测试中获得了不当优势。
FrontierMath是由Epoch AI联合全球60余位顶尖数学家共同开发的数学基准测试,参与者包括菲尔兹奖得主陶哲轩在内的多位权威数学家。这套测试集包含数百个极具挑战性的原创数学问题,涵盖数论、实分析、代数几何、范畴论等现代数学主要分支。
2023年12月20日,OpenAI发布o3模型时,在FrontierMath测试中取得了25.2%的准确率,远超其他模型不足2%的成绩。这一成绩曾令业界为之震惊,被视为AI数学能力的重大突破。
然而,事情的转折点出现在Epoch AI的一位承包商”Meemi”在LessWrong论坛的爆料。据披露,OpenAI不仅是FrontierMath的资助方,还获得了测试题库的特权访问权。更令人震惊的是,参与命题的60多位数学家对此完全不知情,直到o3发布才得知这一事实。
Epoch AI副主任兼联合创始人Tamay Besiroglu随后承认了这一情况。他表示OpenAI确实可以访问大部分FrontierMath的问题和解决方案,但强调存在一个OpenAI未见过的保留测试集,用于独立验证模型能力。Besiroglu还提到与OpenAI达成了口头协议,承诺这些材料不会用于模型训练。
斯坦福博士、MIT罗德奖学金得主Carina Hong证实,至少有六名专家能够证明他们事先并不知情。多位数学家表示,如果他们提前得知OpenAI拥有独家访问权,可能会重新考虑是否参与这个项目。
值得注意的是,FrontierMath原本对题目和答案采取了严格的保密措施。参与命题的数学家们都被要求签订保密协议,甚至被禁止使用Overleaf、Colab或电子邮件传输相关信息。然而,这些严格保密的题目却被提前交到了OpenAI手中。
截至目前,尽管争议持续发酵,OpenAI尚未就此事做出任何官方回应。这一事件不仅引发了对o3模型真实能力的质疑,也暴露了AI基准测试中的透明度和公平性问题。
请登录之后再进行评论