DeepSeek新模型霸榜，代码能力与OpenAI o1相当且开源！

AI导读

DeepSeek于2024年1月发布新一代开源推理模型DeepSeek-R1，其代码能力与OpenAI顶级闭源模型o1持平。该模型基于强化学习框架，具备"自我反思"的推理特性，在LiveCodeBench、AIME2024等多项基准测试中表现优异，其中Codeforces编程评级超越96%人类选手。采用创新Scaling Laws原则，推理时间与性能正相关，支持实时自我纠错。模型以MIT协议开源并推出颠覆性定价策略，API成本仅为OpenAI的3%，同时积极参与行业协作，推动评测体系完善。此举标志着开源AI在代码领域已实现与闭源顶尖模型的实质性对标。

2024年1月20日，DeepSeek发布了新一代推理模型DeepSeek-R1，这款模型不仅在代码能力上与OpenAI o1相当，更重要的是选择了完全开源的发展路线。

DeepSeek-R1是对此前DeepSeek-R1-Lite-Preview的全面升级，采用了更大规模的基础模型。在LiveCodeBench代码基准测试中，DeepSeek-R1-Preview就已跻身前三，其表现与OpenAI o1的中档推理设置相当。这个成绩的含金量不容小觑，因为LiveCodeBench是由UC伯克利、MIT和康奈尔大学团队共同开发的测试平台，专注于对大模型代码能力的全面评估。

从技术角度来看，DeepSeek-R1采用了强化学习训练方法，具备了独特的推理特性。该模型遵循新的Scaling Laws原则——推理时间越长，表现越强。在实际应用中，模型展现出类似”自我反思”的能力，能够在生成推理步骤时进行自我纠正，这一特性在网友的测试中得到了验证。

在性能测试方面，DeepSeek-R1展现出全面的实力。在AIME2024测试中取得了79.8%的成绩，略高于OpenAI-o1-1217。在MATH-500测试中更是获得了97.3%的优异成绩，与OpenAI-o1-1217旗鼓相当。在编程领域，R1在Codeforces平台上获得了2029的Elo评级，超越了96.3%的人类参赛者。

DeepSeek对模型的定价策略也极具竞争力。其API服务价格为每百万输入tokens 1元（缓存命中）或4元（缓存未命中），每百万输出tokens仅需16元，这个价格仅为OpenAI o1的3%左右。同时，DeepSeek-R1采用MIT许可协议开源，允许用户自由使用、修改、分发，甚至可以利用模型输出进行其他模型的训练。

DeepSeek团队还展现出了良好的专业素养和合作精神。在与LiveCodeBench团队的合作过程中，他们不仅展示了模型的实力，还协助发现并解决了评分系统中的一些bug，推动了评估体系的完善。

总结来说，DeepSeek-R1的发布标志着开源AI在代码能力上已经达到了与闭源顶级模型相当的水平。该模型不仅在各项基准测试中表现出色，还采用开源策略和极具竞争力的定价，为AI领域带来了新的发展动力。