Anthropic发布Claude-3-5-sonnet-20241022，开启计算机操作新时代-龙坤智创社区

大版主

AI导读

Anthropic公司于2024年10月22日发布Claude-3-5-sonnet-20241022模型，首次为AI系统植入计算机操作能力。该模型通过API实现了人类级别的计算机交互，可执行屏幕识别、光标控制及文本输入等操作，标志着AI多模态应用的重大突破。性能测试显示，其编码能力在SWE-bench基准测试中提升至49%，工具使用任务在航空领域提升10个百分点，综合表现超越当前主流模型。配套发布的Claude 3.5 Haiku模型进一步融合速度与性价比优势。此次更新基于Anthropic在工具使用和视觉理解的技术积累，为AI助手开辟了软件操作、智能流程自动化等全新应用场景，推动行业向具身智能迈出关键一步。

在人工智能领域，Anthropic公司的最新力作——Claude-3-5-sonnet-20241022模型，以其革命性的功能和卓越的性能，引起了业界的广泛关注。以下是对这一模型的详细介绍。

Claude-3-5-sonnet-20241022模型概述

Anthropic公司在2024年10月22日发布了Claude-3-5-sonnet的新版本，代号为claude-3-5-sonnet-20241022。这一新版本模型最大的亮点在于加入了计算机使用功能，现在通过API可用，开发者可以指导Claude像人类一样操作计算机，包括查看屏幕、移动光标、点击按钮和输入文本。Claude 3.5 Sonnet是首个在公开测试中提供计算机使用功能的前沿AI模型。尽管这一功能仍处于实验阶段，但已经显示出其巨大的潜力和应用前景。

性能测评

官方数据显示，Claude 3.5 Sonnet模型在关键学术和实践技能上的比较表现有了显著提升。同时，官方还评估了Claude 3.5 Sonnet在需要理解图像和图表等视觉任务上的表现。第三方数据也显示，刚发布的10月新版本在所有模型中的综合排名情况，显示出其在行业中的领先地位。

行业领先的软件工程技能

更新版的Claude 3.5 Sonnet在行业基准测试中显示出广泛的改进，特别是在智能体编码和工具使用任务上取得了显著的提升。在编码方面，其在SWE-bench Verified上的性能从33.4%提高到49.0%，得分高于所有公开可用的模型——包括像OpenAI o1-preview这样的推理模型和专为智能体编码设计的专门系统。它在TAU-bench上的表现也有所提升，这是一个智能体工具使用任务，在零售领域的得分从62.6%提高到了69.2%，在更具挑战性的航空领域则从36.0%提高到了46.0%。

Claude 3.5 Haiku：SOTA技术与性价比和速度的结合

Claude 3.5 Haiku是Anthropic最快的模型的下一代，它将SOTA技术与性价比和速度完美结合。

为什么说这个功能很重要？

操作计算机需要查看和解释图像的能力——这里的图像就是指计算机屏幕。如果能让AI像人类一样直接与计算机软件交互，将解锁大量当前一代AI助手无法实现的应用。Anthropic表示，他们之前在工具使用和多模态方面的工作为这些新的计算机使用技能奠定了基础。

结论

Claude-3-5-sonnet-20241022模型的发布，标志着人工智能领域的又一重大突破。它不仅增强了前身的能力，还引入了计算机使用这一突破性的功能，为AI的发展开辟了新的可能性。随着官方的持续改善和优化，我们可以期待Claude-3-5-sonnet-20241022模型在未来将带来更多的创新和变革。

模型所属：

Anthropic

Claude-3-5-sonnet

claude-3-5-sonnet-20241022

人工智能

计算机交互