Gemini 2.5 Flash Image发布，智创聚合API仅0.2元/张图像

2025年8月26日，谷歌DeepMind正式推出新一代AI图像生成与编辑模型Gemini 2.5 Flash Image（代号”Nano Banana”）。这款先进模型凭借卓越的技术性能和亲民的定价策略，在多项基准测试中表现领先，标志着AI图像生成技术向实用化与规模化生产迈出重要一步。

核心功能与技术优势

Gemini 2.5 Flash Image具备多项突破性能力：

角色一致性：模型在生成或编辑多张图像时，能保持人物、宠物或物体外观的高度一致性，即使姿势、光线、环境或风格发生变化。这一特性使其特别适合创建系列照片、产品目录和品牌素材。

精准图像编辑：通过自然语言指令即可实现局部编辑，如虚化背景、去除污渍、改变姿势、添加颜色、移除物体等，无需手动圈选，且能保持主体细节不扭曲。

多图像融合：支持最多融合三张输入图像的创意元素，创造出独特且统一的构图，便于创意合成和产品场景展示。

风格迁移：能将一种艺术风格、设计或纹理应用到另一图像的主体上，同时保留原始主体的形态和细节。

现实世界推理：基于Gemini的底层逻辑，能推断图像中某个时刻之前或之后可能发生的情况，为图像编辑和生成增添逻辑性和连贯性。

实际表现示例（来源官方，英文翻译版）

提示词：制作 5 张头像宝丽来照片，放在一张干净的桌子上，所有这些照片都展示了我 1980 年代的各种情况。

提示词：一张超细致的高级时装照片，捕捉到一个女人漂浮在浅蓝色背景上的一个巨大的、无定形的半透明玻璃状液体气泡中。

提示词：重新混合这 2 张图片

提示词：让这个环境焕然一新，干净，不腐烂

提示词：恢复照片

提示词：把它变成一个女人走过甘美植物园的惊艳服装

提示词：将这个客厅重新设计成清新梦幻的风格，使用色板混合编织材料和纹理

提示词：在经典的黑白黑色电影侦探故事中，用 12 张图像与这两个角色一起创建一个令人上瘾的有趣 12 部分故事。让它成为他们自始至终获得线索并最终发现的丢失宝藏。这个故事自始至终都惊心动魄，情绪起伏不定，并以巨大的转折和高调结束。不要在图像上包含任何文字或文字，而要纯粹通过图像本身来讲述故事。

性能表现与定价优势

Gemini 2.5 Flash Image 是最先进的图像生成和编辑模型，与其他领先模型相比，延迟更低。

在正式发布前，该模型以”Nano Banana”代号在LMArena平台测试期间就获得”全球评分最高编辑模型”称号，在图像编辑榜单上获得1362的高分，较第二名的领先幅度接近15%。

在基准测试中，Gemini 2.5 Flash Image在用户综合喜好度、人物、创造力、信息图、物体和环境的生成上均领先GPT-4o图像生成、Flux.1 Kontext（max）、Qwen Image Edit等模型。

定价方面，该模型每百万输出token仅需30美元（约合每张图像0.039美元），低于OpenAI同类模型的40美元/百万token，展现出极高的性价比。

开发与集成方式

开发者可通过智创聚合API平台获取API（名称为 gemini-2.5-flash-image）进行开发、集成和测试，其定价为0.2元/张，性价比颇具竞争力。并且模型已同步上线橙子智图平台（zhitu.aicns.cn）同时，模型也通过Gemini API、Google AI Studio和Vertex AI向开发者提供。