“草莓模型”o1：OpenAI的思考型AI在博士级难题中超越人类

AI导读

OpenAI最新推出的"草莓模型"o1系列通过强化学习内化思维链技术，在复杂推理领域实现重大突破。该模型采用类人脑的深度思考机制，思考时间与推理质量正相关，在AIME数学竞赛、Codeforces编程挑战及GPQA钻石级博士科学问题中分别取得83%、89%和78%的准确率，部分领域超越人类专家。o1系列包含三个版本，其中o1-mini已开放商用，具备更高性价比。该突破不仅推动AI技术边界，也为OpenAI应对高额运营成本、探索商业新模式提供战略支撑，其成功背后凝聚着多元化顶尖科学家团队的协作成果。

OpenAI 最近发布了一款名为 o1 的新型大模型，它在处理复杂推理问题上展现出了卓越的能力。o1 模型，也被称为“草莓模型”，在回答之前能够进行深入的“思考”，其思考的时间越长，推理的质量也就越高。

o1 模型的核心优势在于其独特的训练方式。它采用了基于强化学习的内化思维链学习，这意味着模型通过思维链式的问题拆解，能够不断验证和纠错。这种方法模仿了人类解决问题时的思考过程，使得模型在编程、数学、物理和化学等博士级问题上的表现显著提升。

在具体的应用测试中，o1 模型展现了其强大的能力。例如，在 2024 年的 AIME（美国数学邀请赛）中，o1 解决了 83% 的问题，而在竞争性编程问题 Codeforces 上，o1 的得分是 89%，在博士级别的科学问题 GPQA Diamond 上，o1 的表现甚至超越了人类博士，达到了 78% 的准确率。

o1 模型系列包括 o1、o1-preview 和 o1-mini 三个版本。其中，o1-preview 和 o1-mini 已经向付费用户和 API 用户开放使用。o1-mini 相较于其他版本，速度更快且性价比更高。

o1 模型的出现，不仅在技术上是一个巨大的突破，也在商业上为 OpenAI 带来了新的可能性。尽管 OpenAI 的营收在增长，但高昂的推理和训练成本使得其现金流面临压力。o1 模型的发布，可以看作是 OpenAI 在融资和商业模式探索中的重要一步。

此外，o1 模型的开发团队呈现出高学历、高包容性、多元化的特点，其中包括了来自不同国家和背景的顶尖科学家。这些科学家的共同努力，使得 o1 模型在技术上达到了一个新的高度。