• 注册
  • 查看作者
  • OpenAI o3数学成绩作弊?60多名数学大牛被蒙!

    智创聚合API

    OpenAI o3数学成绩作弊?60多名数学大牛被蒙!

    2025年1月,一场关于OpenAI o3模型数学成绩的争议在科技圈引发轩然大波。这场争议的核心在于OpenAI被指在FrontierMath基准测试中获得了不当优势。

    FrontierMath是由Epoch AI联合全球60余位顶尖数学家共同开发的数学基准测试,参与者包括菲尔兹奖得主陶哲轩在内的多位权威数学家。这套测试集包含数百个极具挑战性的原创数学问题,涵盖数论、实分析、代数几何、范畴论等现代数学主要分支。

    2023年12月20日,OpenAI发布o3模型时,在FrontierMath测试中取得了25.2%的准确率,远超其他模型不足2%的成绩。这一成绩曾令业界为之震惊,被视为AI数学能力的重大突破。

    然而,事情的转折点出现在Epoch AI的一位承包商”Meemi”在LessWrong论坛的爆料。据披露,OpenAI不仅是FrontierMath的资助方,还获得了测试题库的特权访问权。更令人震惊的是,参与命题的60多位数学家对此完全不知情,直到o3发布才得知这一事实。

    Epoch AI副主任兼联合创始人Tamay Besiroglu随后承认了这一情况。他表示OpenAI确实可以访问大部分FrontierMath的问题和解决方案,但强调存在一个OpenAI未见过的保留测试集,用于独立验证模型能力。Besiroglu还提到与OpenAI达成了口头协议,承诺这些材料不会用于模型训练。

    斯坦福博士、MIT罗德奖学金得主Carina Hong证实,至少有六名专家能够证明他们事先并不知情。多位数学家表示,如果他们提前得知OpenAI拥有独家访问权,可能会重新考虑是否参与这个项目。

    值得注意的是,FrontierMath原本对题目和答案采取了严格的保密措施。参与命题的数学家们都被要求签订保密协议,甚至被禁止使用Overleaf、Colab或电子邮件传输相关信息。然而,这些严格保密的题目却被提前交到了OpenAI手中。

    截至目前,尽管争议持续发酵,OpenAI尚未就此事做出任何官方回应。这一事件不仅引发了对o3模型真实能力的质疑,也暴露了AI基准测试中的透明度和公平性问题。

  • 0
  • 0
  • 0
  • 38
  • 请登录之后再进行评论

    登录

    推荐圈子

  • 圈子版务
    圈子版务
    关注我们,获取最新平台动态。
  • 智创聚合API
    智创聚合API
    国内最大的聚合API平台,支持OpenAI、阿里、智谱、360、讯飞、百度等国内外大语言模型。https://s.lconai.com/
  • Midjourney中国社区
    Midjourney中国社区
    Midjourney是一款由Midjourney有限公司开发的数字艺术工具软件,具有生成虚拟世界的强大能力,可根据用户输入的文字或语音在虚拟世界中生成对应场景,使用户能够探索和创造自己的数字艺术作品。
  • Midjourney接口服务
    Midjourney接口服务
    目前接口已经支持码多多AI系统、小狐狸AI系统,如需其它接口请联系微信客服:lonconst
  • 智狐AI-MAX系统
    智狐AI-MAX系统
    智狐AI-MAX系统,企业级AI知识库,可以进行AI对话、AI应用,拥有强大的第三方对接能力。适用企业智能客服、企业智能文档、专家顾问助理等多种企业级商业场景,具有较大的商业使用价值。 如需购买请联系客服微信:lonconst
  • 智狐AI系统售前交流
    智狐AI系统售前交流
    创新型AI对话与绘画系统(非官方) 如需购买请联系微信客服:lonconst
  • 任务
  • 单栏布局 侧栏位置: