谷歌推出 Gemini 1.5-Pro-002 和 Gemini 1.5-Flash-002，AI 能力再升级

AI导读

谷歌于2024年9月推出Gemini 1.5-Pro-002和Gemini 1.5-Flash-002两大AI模型，实现技术性能与效率双突破。Pro版本在MMLU-Pro基准测试中准确率提升7%，数学领域性能跃升20%，支持200万tokens长文本处理，可解析千页文档和万行代码库，并新增音频理解功能强化多模态分析。Flash版本响应速度提升3倍，输出效率翻倍，适配实时翻译等高敏场景，同时保持多模态推理优势。两模型均通过成本优化提升性价比，为科研、软件开发及商业应用提供更强大的跨模态处理工具，推动AI技术在复杂场景中的深度落地。

2024 年 9 月 25 日早，谷歌在人工智能领域再次取得重大突破，发布了 Gemini 1.5-Pro-002 和 Gemini 1.5-Flash-002 这两款更新的 AI 模型，为人工智能的应用带来了新的可能性。

基准测试性能显著提升：在多项关键基准测试中，Gemini 1.5-Pro-002 表现出色。与之前的版本相比，在 MMLU-Pro 基准上的成绩提高了约 7%，这意味着它在处理各种学术领域的复杂问题时，能够提供更准确、更全面的回答。在数学相关的基准测试中，包括 Math 和 HiddenMath，更是取得了约 20% 的提升，使其在解决数学难题方面的能力大幅增强。在视觉和代码用例方面，也有 2-7% 的改进，无论是对于图像的理解分析，还是代码的生成与理解，都有了更好的表现。
长上下文窗口支持更强大：该模型延续了长上下文窗口的优势，并进一步扩展，能够处理长达 200 万 tokens 的文本。这使得它可以轻松应对大规模数据的处理任务，例如合成长达 1000 页 PDF 中的信息、回答有关包含超过 1 万行代码的存储库的问题等，为科研、软件开发等领域的专业人士提供了强大的支持。
指令理解能力升级：现在，Gemini 1.5-Pro-002 能够更好地理解更加复杂和具有细微差异的指令，用户与模型的交互变得更加精准和高效。无论是在复杂的业务场景中，还是在学术研究的深度探讨中，它都能准确理解用户的需求，提供高质量的回答。
多模态信息处理能力增强：谷歌在 Gemini API 和 Google AI Studio 中加入了音频理解功能，这使得 Gemini 1.5-Pro-002 在多模态信息处理方面更进一步。它不仅可以处理文本，还能对音频和图像进行跨模态的推理和分析，为多模态应用场景的开发提供了有力的支持。

响应速度大幅提升：Gemini 1.5-Flash-002 在响应速度方面有了极大的改进，延迟降低了 3 倍，输出速度提高了 2 倍。这使得用户在使用过程中能够更快地获得答案，对于需要实时处理和快速响应的应用场景，如实时翻译、智能客服等，具有重要的意义。
高性价比优势明显：谷歌大幅降低了该模型的使用成本，为开发者和企业用户带来了更高的性价比。这使得更多的用户能够负担得起使用该模型，有助于推动 AI 技术在更多领域的广泛应用。
强大的多模态推理能力：尽管是一个较为轻量的模型，但 Gemini 1.5-Flash-002 在多模态推理能力方面依然表现出色。它擅长摘要制作、聊天应用、提供图说和视频字幕，以及从长篇文件和表格中提取数据等任务，能够满足用户在多种场景下的需求。

谷歌此次推出的 Gemini 1.5-Pro-002 和 Gemini 1.5-Flash-002 这两款新模型，不仅在性能上有了显著的提升，而且在成本和效率方面也具有明显的优势。这将为开发者和企业用户提供更强大的工具，推动人工智能技术在各个领域的深入应用和发展。相信在未来，这两款模型将在人工智能领域发挥重要的作用，为我们的生活和工作带来更多的便利和创新。