图像AI飞跃：谷歌和字节跳动最新模型的对比

Decrypt

2026-03-03 02:16:21

简要总结

两种模型在图像生成前引入多步骤推理，能够比早期扩散系统更可靠地处理复杂提示、参考图像和扩展编辑流程。
Seedream在价格上优于Google，支持本地运行和真实图像编辑，而Nano Banana则紧密嵌入Google的消费者和企业生态系统中。
测试显示，Seedream在多轮编辑中更好地保持角色身份和空间一致性，而Nano Banana则提供更快的输出速度和更优的图像中文字渲染。

本周，两款最强大的AI图像模型几乎同时发布，预计将重塑用户的内容创作方式。 Nano Banana 2——Google内部称为Gemini 3.1 Flash Image——于2月26日发布，几乎立即引发AI讨论热潮。它是Nano Banana Pro的继任者，后者在2025年11月推出后成为AI图像编辑的黄金标准。ByteDance最新推出的图像生成产品Seedream 5 Lite，则在几天前上线。虽然前者由Google的营销团队大力宣传，后者几乎没有新闻稿，但两者能力的差距其实并不大。

为什么这很重要？ 两款模型都基于相同的核心架构思想：赋予图像生成器“先思考后绘制”的能力。这意味着在生成前就能进行实时的网络搜索集成，以及多步骤链式推理以理解复杂或模糊的提示，还能在扩展编辑流程中处理参考图像。这是真正的转变——相比一年前广泛被认为具有革命性的Stable Diffusion。它们都支持最高4K分辨率，支持多图像参考输入以实现一致性工作流程，并能在单次会话中保持角色和对象的视觉连贯性。

两者都能在图像中生成风格化、易读的文字，虽然效果不完全相同。它们都进入了一个市场——包括OpenAI的GPT Image 1.5、Black Forest Labs的Flux.2，以及不断增长的中国模型阵营——这些模型在价格和灵活性上激烈竞争。但最终哪个更适合用户？我们测试了两款模型以帮助找到答案。 技术与价格对比 价格差异是首要要理解的点。 Google通过Gemini API以每百万输出图像令牌60美元定价。换算下来，512像素的图像大约0.045美元，1K分辨率0.067美元，2K为0.101美元，4K为0.151美元。 Seedream每张图像收费0.035美元，不论输出分辨率如何，因此在512像素以上的任何尺寸都比Nano Banana便宜。在4K时，Nano每张图像的成本是Seedream的四倍多。对于大量生产流程，这个差异会迅速累积。两者的可用性路径完全不同。Nano在Google的全生态系统中上线，包括Gemini应用、Google搜索的AI模式、Google Lens、AI Studio、Vertex AI和Google Flow视频制作工具，嵌入了数亿用户每天使用的基础设施。 Seedream则通过ByteDance的CapCut、剪映创意应用、第三方API聚合平台以及ByteDance的专属图像生成界面Dreamina向用户提供。一个关键区别是：Seedream可以本地运行，而Google不允许这样做。

平台体验也是一个差异点。Gemini以聊天机器人为主，图像生成为辅。它能快速生成高质量图像，Google的速度优势在实践中得到了验证。但你是在一个并非为多轮视觉工作流程设计的对话界面中操作。 Dreamina则专为图像创作而建，拥有专门的参考管理、多步编辑和构图控制工具。此外，Dreamina的生成队列比Nano通过Gemini界面要长得多。快速测试或单一图像时，Gemini更快；但在持续多轮编辑中，Dreamina的结构更连贯。在内容审核方面，Gemini在大多数场景下拒绝处理真实人物——涉及肖像编辑、公众人物照片操控或任何涉及可识别主体的暗示性内容时都会拒绝。 Seedream的规则则宽松得多。ByteDance允许编辑真实图像和处理可识别主体的内容，Google则不允许，这也是Seedream在内容创作者中拥有大量用户的原因之一。在API方面，两者都支持可调节的推理深度。Nano允许开发者设置推理级别，从Minimal到High或Dynamic，让模型在渲染前对复杂提示进行推理。 Seedream在架构中引入链式推理监督，从而提升多约束和空间复杂生成任务的提示忠实度。

两者都没有完全向开发者透明推理过程，但在处理难题提示时都优于没有推理的前代模型。 角色一致性：迷你测试

测试模型是否能在多次编辑中保持可识别的身份。原始图片是一对在购物中心拍摄的情侣。目标是在五次迭代中交换他们的服装和其他元素，保持面孔、体型和视觉身份的连续性。 Gemini聊天机器人直接拒绝处理真实照片——符合其内容政策。测试Nano Banana 2则需要直接通过API操作。 Nano：

Nano的结果虽然视觉上细腻，但在后续几轮中明显出现身份漂移。

场景几何保持稳定——LED隧道环境、瓷砖人行道的透视、背景招牌位置都很连贯。但人物本身几乎被重新塑造。到最后一轮，女性不再是原始人物，男性也几乎完全被替换：年龄段不同、体型不同、面部结构不同、发型不同。模型生成了漂亮的图像，但不是原本的那两个人。如果上传的参考资料没有面孔信息，可能会有所改善。 Seedream：

Seedream在身份保持方面表现明显更佳。女性的面部结构、微笑轮廓和头部倾斜在多轮中都紧扣原始图像。男性的体型和存在感也更接近原始。两人姿势的连续性——手臂位置、距离和站姿——也得到了更好的保持，这对于需要在多个创意输出中保持一致场景的工作尤为重要。不过，细节上仍有瑕疵，比如皮肤略微平滑、腰线略微调整，以及整体质量略有下降。但这对情侣依然能被识别出来。对于需要多次创作中保持人物一致性的广告流程，这个差异并不小。 超出画布和场景扩展 扩展测试中，两模型都将现代简约客厅图片自然延展到16:9比例，左右扩展场景，保持光线和空间逻辑一致。提示包括白墙、米色沙发、木质茶几和室内植物，参数明确。 Nano：

Nano Banana 2在边界没有出现明显拼接痕迹或色调带状，输出干净流畅。墙色、日光平衡和地板材质在扩展中保持一致。窗户光线方向合理延续到扩展区域。技术上几乎无瑕。但模型加入了场景中没有的元素，比如右侧的篮子和背景的建筑。相比之前的模型，这已经非常令人印象深刻。

Seedream：

Seedream的原始输出较为基础，便于后续编辑。左侧扩展加入了第二个大盆栽和完整的窗帘流动，空间感合理。右侧延伸出一面次要墙体、装饰画和低矮的木质柜子，整体保持简约风格——浅木色、柔和中性色，没有违背原有美学。光线方向在整个扩展区域保持一致。天花板、吊灯位置和地板人字拼都合理对齐，场景看起来更像一个真实的宽景，而非重新拼接的概念。没有发现明显的瑕疵或异常。在对空间真实性和建筑细节要求较高的场景中，Seedream 5 Lite更可靠；如果更看重逼真度而非细节一致性，Nano Banana 2可能更优。 非写实图像生成：YouTube缩略图测试 此测试从编辑和扩展转向纯生成，目标是制作一张“AI IMAGE WAR”的YouTube缩略图，副标题列出两个模型，采用分屏布局，左侧大号粗体标题，鲜明高能色彩，16:9比例。

缩略图要求字体准确、构图层次分明、视觉冲击力强——三者兼备。 Nano：

Nano完美理解缩略图的排版规则。它生成的布局左侧大号高对比度字体，右侧戏剧性分屏对抗，鲜明的橙色与电蓝色对比，中央闪电分隔线强化“对抗”动态。标题层次清晰——“AI IMAGE WAR”视觉上占据主导，带有描边和发光效果，即使在手机小屏幕上也清晰可辨。文字渲染准确，无拼写错误、乱码，字距一致。人物面部细节丰富，情感强烈。整体视觉能量高，完全像是为了吸引点击的缩略图。

Seedream：

Seedream采用不同风格。它没有追求写实的戏剧性面孔，而是生成风格化的吉祥物——香蕉角色和发光的神经球，赋予每个模型一个更具图形化、标志性的形象。布局更简洁，结构合理，标题突出，副标题清晰，模型名称用框标出，便于一眼识别。字体设计强烈：线条清晰、比例易读，没有明显瑕疵。Nano Banana偏向视觉冲击和情感表达，而Seedream则更偏向简洁、差异化、可持续的视觉识别。这可能是风格选择，但就我们主观判断，为了追求病毒式点击率，Nano Banana 2的电影感更具优势。 写实图像生成：多约束精度 最后的测试是检验模型在严格多元素提示下的表现——是否能准确遵循所有约束，没有偏差或误解。提示内容：一位32岁女建筑师在日落时分的屋顶上，穿米色风衣、戴圆眼镜，左手拿卷起的蓝图，背景是略微模糊的城市天际线，金色时光灯光配合柔和的边缘光，浅景深模拟50mm镜头，竖屏比例4:5，逼真的肤质和细腻的胶片颗粒。每个元素都是独立的约束，容易出错。

Nano：

Nano生成了一位背对镜头的白人女性——这是一个未在提示中明确要求的选择，显示出偏向创意解读而非严格遵守约束。米色风衣、圆眼镜和左手卷蓝图都正确呈现。屋顶和模糊的天际线也合理存在。金色时光灯光出现，但偏冷，与提示中要求的暖色调不完全一致。边缘光较弱，没有明显轮廓。景深表现良好，但空间压缩更接近35mm到40mm的模拟，而非真正的50mm。胶片颗粒几乎不可见，肤质逼真但带有常见的平滑偏差。整体表现不错，但有少量自主选择的细节替换。 Seedream：

Seedream生成的女性面向镜头，符合默认设定，没有特别指定视线方向。所有元素都正确实现，金色时光的暖色更明显（甚至略有夸张），边缘光清晰，将主体与背景分离，符合提示意图。景深和焦点压缩更接近真实的50mm模拟，比例自然。肤质细腻，微对比度更佳，平滑瑕疵少于Nano Banana。但其中一张蓝图生成不正确，更像是瑕疵而非正式元素。整体来看，Seedream的结果更居中、技术更精准，少一些主观添加，但Nano Banana的图像更具真实感。 你可能需要注意的一个一致性问题 在长时间的API会话中，涉及大量连续生成，两个模型都出现了质量下降的情况——在会话开始时表现良好，但随着时间推移，面部变得模糊不清，人物身份逐渐丧失。 Seedream会生成模糊、难以辨认的面孔，而Nano则完全失去人物身份，生成的角色与最初设定毫无关联。两者似乎在会话持续时间越长，推理深度越低——仿佛它们在减少努力，尤其是在已经完成多次生成后。这可能是故意的计算节流、负载平衡策略，或架构设计上的问题，但从外部难以判断。但在长链式生产流程中，建议避免连续多次迭代，而是一次性请求合理数量的修改，以减少质量下降。这是一门艺术——轮次太多会导致提示偏离，轮次太少则需多次迭代，影响人物一致性。 结论：谁更胜一筹？ Nano在文字渲染、生成速度、生态系统整合和生成能量方面占优。其文字准确性是最明显的优势——没有乱码、字体不一致、重复文本。生成速度快，适用于亿级用户已在使用的产品中。其在搜索引擎中搜索网络信息后再生成的能力，使输出更具编辑性和内容深度，而非单纯的审美。如果你的工作流程依赖Google生态系统，或者对图中文字的准确性要求极高，或者需要快速迭代而不涉及真实人物，Nano是更强的工具。 Seedream则在成本、平台设计、内容灵活性、空间任务的结构纪律和多轮编辑中的角色保持方面胜出。其固定的0.035美元定价，成为大量图像生成流程的实用默认选择。Dreamina的专用界面比Gemini的聊天机器人更适合持续的创意工作。宽松的内容政策也允许处理Google不愿涉足的用例。而在需要在多次迭代中保持真实主体身份一致的广告工作中，Seedream在所有测试中表现更佳。

查看原文

免责声明：本页面信息可能来自第三方，不代表 Gate 的观点或意见。页面显示的内容仅供参考，不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证，对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为，价格波动剧烈，您可能损失全部投资本金。请充分了解相关风险，并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明。

0/400

暂无评论