图像AI飞跃:谷歌和字节跳动最新模型的对比

Decrypt

简要总结

  • 两种模型在图像生成前引入多步骤推理,能够比早期扩散系统更可靠地处理复杂提示、参考图像和扩展编辑流程。
  • Seedream在价格上优于Google,支持本地运行和真实图像编辑,而Nano Banana则紧密嵌入Google的消费者和企业生态系统中。
  • 测试显示,Seedream在多轮编辑中更好地保持角色身份和空间一致性,而Nano Banana则提供更快的输出速度和更优的图像中文字渲染。

本周,两款最强大的AI图像模型几乎同时发布,预计将重塑用户的内容创作方式。 Nano Banana 2——Google内部称为Gemini 3.1 Flash Image——于2月26日发布,几乎立即引发AI讨论热潮。它是Nano Banana Pro的继任者,后者在2025年11月推出后成为AI图像编辑的黄金标准。ByteDance最新推出的图像生成产品Seedream 5 Lite,则在几天前上线。 虽然前者由Google的营销团队大力宣传,后者几乎没有新闻稿,但两者能力的差距其实并不大。 

为什么这很重要? 两款模型都基于相同的核心架构思想:赋予图像生成器“先思考后绘制”的能力。 这意味着在生成前就能进行实时的网络搜索集成,以及多步骤链式推理以理解复杂或模糊的提示,还能在扩展编辑流程中处理参考图像。 这是真正的转变——相比一年前广泛被认为具有革命性的Stable Diffusion。 它们都支持最高4K分辨率,支持多图像参考输入以实现一致性工作流程,并能在单次会话中保持角色和对象的视觉连贯性。

两者都能在图像中生成风格化、易读的文字,虽然效果不完全相同。它们都进入了一个市场——包括OpenAI的GPT Image 1.5、Black Forest Labs的Flux.2,以及不断增长的中国模型阵营——这些模型在价格和灵活性上激烈竞争。 但最终哪个更适合用户?我们测试了两款模型以帮助找到答案。 技术与价格对比 价格差异是首要要理解的点。 Google通过Gemini API以每百万输出图像令牌60美元定价。换算下来,512像素的图像大约0.045美元,1K分辨率0.067美元,2K为0.101美元,4K为0.151美元。 Seedream每张图像收费0.035美元,不论输出分辨率如何,因此在512像素以上的任何尺寸都比Nano Banana便宜。 在4K时,Nano每张图像的成本是Seedream的四倍多。对于大量生产流程,这个差异会迅速累积。 两者的可用性路径完全不同。Nano在Google的全生态系统中上线,包括Gemini应用、Google搜索的AI模式、Google Lens、AI Studio、Vertex AI和Google Flow视频制作工具,嵌入了数亿用户每天使用的基础设施。 Seedream则通过ByteDance的CapCut、剪映创意应用、第三方API聚合平台以及ByteDance的专属图像生成界面Dreamina向用户提供。一个关键区别是:Seedream可以本地运行,而Google不允许这样做。

平台体验也是一个差异点。Gemini以聊天机器人为主,图像生成为辅。它能快速生成高质量图像,Google的速度优势在实践中得到了验证。 但你是在一个并非为多轮视觉工作流程设计的对话界面中操作。 Dreamina则专为图像创作而建,拥有专门的参考管理、多步编辑和构图控制工具。 此外,Dreamina的生成队列比Nano通过Gemini界面要长得多。快速测试或单一图像时,Gemini更快;但在持续多轮编辑中,Dreamina的结构更连贯。 在内容审核方面,Gemini在大多数场景下拒绝处理真实人物——涉及肖像编辑、公众人物照片操控或任何涉及可识别主体的暗示性内容时都会拒绝。 Seedream的规则则宽松得多。ByteDance允许编辑真实图像和处理可识别主体的内容,Google则不允许,这也是Seedream在内容创作者中拥有大量用户的原因之一。 在API方面,两者都支持可调节的推理深度。Nano允许开发者设置推理级别,从Minimal到High或Dynamic,让模型在渲染前对复杂提示进行推理。 Seedream在架构中引入链式推理监督,从而提升多约束和空间复杂生成任务的提示忠实度。

两者都没有完全向开发者透明推理过程,但在处理难题提示时都优于没有推理的前代模型。 角色一致性:迷你测试

测试模型是否能在多次编辑中保持可识别的身份。原始图片是一对在购物中心拍摄的情侣。 目标是在五次迭代中交换他们的服装和其他元素,保持面孔、体型和视觉身份的连续性。 Gemini聊天机器人直接拒绝处理真实照片——符合其内容政策。测试Nano Banana 2则需要直接通过API操作。 Nano:

Nano的结果虽然视觉上细腻,但在后续几轮中明显出现身份漂移。

场景几何保持稳定——LED隧道环境、瓷砖人行道的透视、背景招牌位置都很连贯。 但人物本身几乎被重新塑造。到最后一轮,女性不再是原始人物,男性也几乎完全被替换:年龄段不同、体型不同、面部结构不同、发型不同。 模型生成了漂亮的图像,但不是原本的那两个人。如果上传的参考资料没有面孔信息,可能会有所改善。 Seedream:

Seedream在身份保持方面表现明显更佳。女性的面部结构、微笑轮廓和头部倾斜在多轮中都紧扣原始图像。 男性的体型和存在感也更接近原始。两人姿势的连续性——手臂位置、距离和站姿——也得到了更好的保持,这对于需要在多个创意输出中保持一致场景的工作尤为重要。 不过,细节上仍有瑕疵,比如皮肤略微平滑、腰线略微调整,以及整体质量略有下降。 但这对情侣依然能被识别出来。对于需要多次创作中保持人物一致性的广告流程,这个差异并不小。 超出画布和场景扩展 扩展测试中,两模型都将现代简约客厅图片自然延展到16:9比例,左右扩展场景,保持光线和空间逻辑一致。 提示包括白墙、米色沙发、木质茶几和室内植物,参数明确。 Nano:

Nano Banana 2在边界没有出现明显拼接痕迹或色调带状,输出干净流畅。 墙色、日光平衡和地板材质在扩展中保持一致。 窗户光线方向合理延续到扩展区域。技术上几乎无瑕。 但模型加入了场景中没有的元素,比如右侧的篮子和背景的建筑。相比之前的模型,这已经非常令人印象深刻。

Seedream:

Seedream的原始输出较为基础,便于后续编辑。 左侧扩展加入了第二个大盆栽和完整的窗帘流动,空间感合理。 右侧延伸出一面次要墙体、装饰画和低矮的木质柜子,整体保持简约风格——浅木色、柔和中性色,没有违背原有美学。 光线方向在整个扩展区域保持一致。 天花板、吊灯位置和地板人字拼都合理对齐,场景看起来更像一个真实的宽景,而非重新拼接的概念。没有发现明显的瑕疵或异常。 在对空间真实性和建筑细节要求较高的场景中,Seedream 5 Lite更可靠;如果更看重逼真度而非细节一致性,Nano Banana 2可能更优。 非写实图像生成:YouTube缩略图测试 此测试从编辑和扩展转向纯生成,目标是制作一张“AI IMAGE WAR”的YouTube缩略图,副标题列出两个模型,采用分屏布局,左侧大号粗体标题,鲜明高能色彩,16:9比例。

缩略图要求字体准确、构图层次分明、视觉冲击力强——三者兼备。 Nano:

Nano完美理解缩略图的排版规则。 它生成的布局左侧大号高对比度字体,右侧戏剧性分屏对抗,鲜明的橙色与电蓝色对比,中央闪电分隔线强化“对抗”动态。 标题层次清晰——“AI IMAGE WAR”视觉上占据主导,带有描边和发光效果,即使在手机小屏幕上也清晰可辨。 文字渲染准确,无拼写错误、乱码,字距一致。人物面部细节丰富,情感强烈。 整体视觉能量高,完全像是为了吸引点击的缩略图。

Seedream:

Seedream采用不同风格。它没有追求写实的戏剧性面孔,而是生成风格化的吉祥物——香蕉角色和发光的神经球,赋予每个模型一个更具图形化、标志性的形象。 布局更简洁,结构合理,标题突出,副标题清晰,模型名称用框标出,便于一眼识别。 字体设计强烈:线条清晰、比例易读,没有明显瑕疵。Nano Banana偏向视觉冲击和情感表达,而Seedream则更偏向简洁、差异化、可持续的视觉识别。 这可能是风格选择,但就我们主观判断,为了追求病毒式点击率,Nano Banana 2的电影感更具优势。 写实图像生成:多约束精度 最后的测试是检验模型在严格多元素提示下的表现——是否能准确遵循所有约束,没有偏差或误解。 提示内容:一位32岁女建筑师在日落时分的屋顶上,穿米色风衣、戴圆眼镜,左手拿卷起的蓝图,背景是略微模糊的城市天际线,金色时光灯光配合柔和的边缘光,浅景深模拟50mm镜头,竖屏比例4:5,逼真的肤质和细腻的胶片颗粒。每个元素都是独立的约束,容易出错。

Nano:

Nano生成了一位背对镜头的白人女性——这是一个未在提示中明确要求的选择,显示出偏向创意解读而非严格遵守约束。 米色风衣、圆眼镜和左手卷蓝图都正确呈现。屋顶和模糊的天际线也合理存在。 金色时光灯光出现,但偏冷,与提示中要求的暖色调不完全一致。边缘光较弱,没有明显轮廓。景深表现良好,但空间压缩更接近35mm到40mm的模拟,而非真正的50mm。 胶片颗粒几乎不可见,肤质逼真但带有常见的平滑偏差。整体表现不错,但有少量自主选择的细节替换。 Seedream:

Seedream生成的女性面向镜头,符合默认设定,没有特别指定视线方向。 所有元素都正确实现,金色时光的暖色更明显(甚至略有夸张),边缘光清晰,将主体与背景分离,符合提示意图。 景深和焦点压缩更接近真实的50mm模拟,比例自然。肤质细腻,微对比度更佳,平滑瑕疵少于Nano Banana。 但其中一张蓝图生成不正确,更像是瑕疵而非正式元素。 整体来看,Seedream的结果更居中、技术更精准,少一些主观添加,但Nano Banana的图像更具真实感。 你可能需要注意的一个一致性问题 在长时间的API会话中,涉及大量连续生成,两个模型都出现了质量下降的情况——在会话开始时表现良好,但随着时间推移,面部变得模糊不清,人物身份逐渐丧失。 Seedream会生成模糊、难以辨认的面孔,而Nano则完全失去人物身份,生成的角色与最初设定毫无关联。 两者似乎在会话持续时间越长,推理深度越低——仿佛它们在减少努力,尤其是在已经完成多次生成后。 这可能是故意的计算节流、负载平衡策略,或架构设计上的问题,但从外部难以判断。 但在长链式生产流程中,建议避免连续多次迭代,而是一次性请求合理数量的修改,以减少质量下降。 这是一门艺术——轮次太多会导致提示偏离,轮次太少则需多次迭代,影响人物一致性。 结论:谁更胜一筹? Nano在文字渲染、生成速度、生态系统整合和生成能量方面占优。其文字准确性是最明显的优势——没有乱码、字体不一致、重复文本。 生成速度快,适用于亿级用户已在使用的产品中。其在搜索引擎中搜索网络信息后再生成的能力,使输出更具编辑性和内容深度,而非单纯的审美。 如果你的工作流程依赖Google生态系统,或者对图中文字的准确性要求极高,或者需要快速迭代而不涉及真实人物,Nano是更强的工具。 Seedream则在成本、平台设计、内容灵活性、空间任务的结构纪律和多轮编辑中的角色保持方面胜出。 其固定的0.035美元定价,成为大量图像生成流程的实用默认选择。Dreamina的专用界面比Gemini的聊天机器人更适合持续的创意工作。 宽松的内容政策也允许处理Google不愿涉足的用例。而在需要在多次迭代中保持真实主体身份一致的广告工作中,Seedream在所有测试中表现更佳。

查看原文
免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明
评论
0/400
暂无评论