
2024年1月20日,DeepSeek发布了新一代推理模型DeepSeek-R1,这款模型不仅在代码能力上与OpenAI o1相当,更重要的是选择了完全开源的发展路线。
DeepSeek-R1是对此前DeepSeek-R1-Lite-Preview的全面升级,采用了更大规模的基础模型。在LiveCodeBench代码基准测试中,DeepSeek-R1-Preview就已跻身前三,其表现与OpenAI o1的中档推理设置相当。这个成绩的含金量不容小觑,因为LiveCodeBench是由UC伯克利、MIT和康奈尔大学团队共同开发的测试平台,专注于对大模型代码能力的全面评估。
从技术角度来看,DeepSeek-R1采用了强化学习训练方法,具备了独特的推理特性。该模型遵循新的Scaling Laws原则——推理时间越长,表现越强。在实际应用中,模型展现出类似”自我反思”的能力,能够在生成推理步骤时进行自我纠正,这一特性在网友的测试中得到了验证。
在性能测试方面,DeepSeek-R1展现出全面的实力。在AIME2024测试中取得了79.8%的成绩,略高于OpenAI-o1-1217。在MATH-500测试中更是获得了97.3%的优异成绩,与OpenAI-o1-1217旗鼓相当。在编程领域,R1在Codeforces平台上获得了2029的Elo评级,超越了96.3%的人类参赛者。
DeepSeek对模型的定价策略也极具竞争力。其API服务价格为每百万输入tokens 1元(缓存命中)或4元(缓存未命中),每百万输出tokens仅需16元,这个价格仅为OpenAI o1的3%左右。同时,DeepSeek-R1采用MIT许可协议开源,允许用户自由使用、修改、分发,甚至可以利用模型输出进行其他模型的训练。
DeepSeek团队还展现出了良好的专业素养和合作精神。在与LiveCodeBench团队的合作过程中,他们不仅展示了模型的实力,还协助发现并解决了评分系统中的一些bug,推动了评估体系的完善。
总结来说,DeepSeek-R1的发布标志着开源AI在代码能力上已经达到了与闭源顶级模型相当的水平。该模型不仅在各项基准测试中表现出色,还采用开源策略和极具竞争力的定价,为AI领域带来了新的发展动力。
请登录之后再进行评论