Внутри прорыва в области Image AI: как новые модели Google и ByteDance сравниваются

Decrypt

Вкратце

  • Обе модели вводят многоступенчатое рассуждение перед генерацией изображения, что позволяет более надежно обрабатывать сложные подсказки, референсные изображения и расширенные рабочие процессы редактирования по сравнению с ранними системами диффузии.
  • Seedream дешевле Google и позволяет локальное выполнение и редактирование реальных изображений, в то время как Nano Banana плотно интегрирована в экосистему Google как для потребителей, так и для предприятий.
  • Тестирование показало, что Seedream лучше сохраняет идентичность персонажей и пространственную согласованность при многократных редактированиях, тогда как Nano Banana обеспечивает более быстрое получение результата и лучшее отображение текста внутри изображений.

Две из наиболее мощных моделей ИИ для создания изображений, доступных сейчас, были запущены в течение нескольких дней друг после друга на этой неделе, обещая изменить способы создания контента пользователями. Nano Banana 2 — внутреннее название Google для Gemini 3.1 Flash Image — вышла 26 февраля и почти сразу же стала предметом обсуждения в сфере ИИ. Это преемник Nano Banana Pro, модели, которая после запуска в ноябре 2025 года стала эталоном для редактирования изображений с помощью ИИ. Seedream 5 Lite, новейшая разработка ByteDance в области генерации изображений, вышла немного раньше. В то время как первая модель получила широкую огласку благодаря маркетинговой кампании Google, вторая прошла почти незаметно, с минимальным пресс-релизом. Несмотря на огромный разрыв в освещении, разница в возможностях оказалась менее значительной. 

В чем суть? Обе модели построены вокруг одной и той же основной архитектурной идеи — дать генератору изображений возможность подумать перед тем, как его нарисовать. Это включает интеграцию поиска в интернете в реальном времени перед началом генерации, а также многоступенчатое цепное рассуждение для интерпретации сложных или неоднозначных подсказок и возможность работы с референсными изображениями в расширенных рабочих процессах редактирования. Это настоящий сдвиг по сравнению с моделями генерации годичной давности, когда Stable Diffusion считалась революционной. Обе модели выводят изображения с разрешением до 4K. Обе поддерживают многокартные референсные входы для обеспечения согласованности. Обе могут сохранять визуальную целостность персонажей и объектов в рамках одной сессии.

Обе могут генерировать стилизованный, разборчивый текст внутри изображений, хотя и не одинаково хорошо. И обе вышли на рынок, где уже присутствуют GPT Image 1.5 от OpenAI, Flux.2 от Black Forest Labs и быстро растущий каталог китайских моделей, конкурирующих по цене и гибкости. Но какая из них лучше для конечного пользователя? Мы протестировали обе модели, чтобы помочь найти ответ. Техническое сравнение и цена Первое, что нужно понять — разрыв в ценах. Google оценивает Nano через API Gemini в $60 за миллион токенов выходных изображений. На практике это примерно $0.045 за изображение 512px, $0.067 при 1K, $0.101 при 2K и $0.151 при 4K. Seedream стоит фиксировано $0.035 за изображение независимо от разрешения, поэтому при любой величине выше 512px Seedream дешевле. При 4K Nano стоит более чем в четыре раза дороже за изображение. Для больших производственных линий это быстро складывается. Доступность у обеих моделей идет по совершенно разным каналам. Nano работает по всему потребительскому и разработческому экосистемам Google, включая приложение Gemini, режим AI в Google Search, Google Lens, AI Studio, Vertex AI и Google Flow для создания видео. Она встроена в инфраструктуру, которой ежедневно пользуются сотни миллионов людей. Seedream доступна через приложения ByteDance CapCut и Jianying, через сторонние платформы-агрегаторы API и через Dreamina — специализированный интерфейс ByteDance для генерации изображений. Важное отличие: Seedream можно запускать локально. Google этого не допускает.

Еще один аспект — платформа. Gemini — это в первую очередь чат-бот, а не генератор изображений. Он отлично создает изображения и делает это быстро; заявления Google о скорости подтверждаются на практике. Но вы работаете внутри интерфейса диалога, который не предназначен для итеративных визуальных рабочих процессов. Dreamina создана специально для создания изображений. В ней есть инструменты для управления референсами, многоступенчатого редактирования и контроля композиции. Также очередь генерации в Dreamina занимает заметно больше времени, чем у Nano через Gemini. Для быстрого теста или одного изображения Gemini работает быстрее. Но для длительных многократных сессий редактирования структура Dreamina более последовательна. Что касается модерации контента, Gemini отказывается работать с реальными людьми в большинстве сценариев — если попытаться изменить лицо, отредактировать фото с публичной фигурой или что-то вызывающее, оно откажется. Seedream работает по гораздо более либеральным правилам. ByteDance разрешает редактировать реальные изображения и работать с узнаваемыми субъектами там, где Google этого не делает, что объясняет значительную часть популярности Seedream среди создателей контента. Что касается API, обе модели поддерживают настройку глубины рассуждения. Nano позволяет разработчикам выбрать уровень мышления — от минимального до высокого или динамического, что дает модели возможность рассуждать о сложных подсказках перед рендерингом. Seedream реализует цепное рассуждение в своей архитектуре, что повышает точность выполнения сложных и многослойных задач.

Ни одна из моделей полностью не раскрывает рассуждения разработчику, но обе показывают лучшие результаты на сложных подсказках по сравнению с предшественниками без этой функции. Последовательность персонажей: мини-кампания

Это тест, показывает ли модели способность сохранять узнаваемую личность на нескольких итерациях редактирования реального изображения. Исходный объект — реальная пара, сфотографированная в торговом центре. Задача — поменять их наряды и другие элементы на фото в пяти итерациях, сохраняя узнаваемость лиц, телосложения и визуальной идентичности. Чат-бот Gemini отказался работать с реальным фото — это соответствует его политике контента. Для Nano Banana 2 пришлось обращаться напрямую к API. Nano:

Результаты Nano, хоть и выглядят аккуратно, показывали значительный сдвиг идентичности к последним итерациям.

Геометрия сцены сохранилась — туннель с LED-освещением, перспектива тротуара, расположение вывески — все оставалось согласованным. Но сами персонажи фактически были переработаны. К концу серии женщина уже не была той же, что изначально. Мужчина был практически полностью заменен: другой возраст, другая телосложение, другая форма лица, другие волосы.
Модель создала что-то красивое, но не тех людей, что были на самом деле. Это можно немного исправить, если для редактирования загружать референсы без лиц, чтобы не вводить модель в заблуждение. Seedream:

Seedream показала заметно лучшие результаты в сохранении идентичности на том же рабочем процессе. Структура лица женщины, форма улыбки и наклон головы оставались привязанными к исходному изображению на протяжении нескольких раундов. Мужчина сохранил больше своей исходной телосложения и физического присутствия. Также лучше сохранялась поза — расположение рук, близость и стойка оставались стабильными, что важно для ощущения одной сцены, а не новой. Были небольшие признаки — легкое сглаживание кожи, небольшая переработка талии и общее снижение качества в изображениях.

Но пара оставалась узнаваемой как пара. Для кампаний, где важно, чтобы одни и те же люди появлялись в нескольких креативных вариантах, эта разница существенна. Расширение и продолжение изображения Тест расширения сцены заключался в том, чтобы обе модели расширили изображение современной минималистичной гостиной до соотношения 16:9, плавно расширяя сцену влево и вправо, сохраняя освещение и пространственную логику. В подсказке указывались белые стены, бежевый диван, деревянный кофейный столик и комнатные растения — простая задача с четкими архитектурными рамками. Nano:

Nano Banana 2 создала чистый, бесшовный результат без видимых швов или полосовых артефактов по границам исходного кадра. Цвет стен, баланс дневного света и материал пола остались согласованными при расширении. Направление освещения от предполагаемого окна продолжалось логично в расширенной рамке. Технически, слияние было почти безупречным. Но модель добавила несколько элементов, которых не было в сцене, например, корзину справа и здание на заднем плане. Тем не менее, это очень впечатляет по сравнению с предыдущими моделями.

Seedream:

Seedream дала более простую начальную версию, что облегчило редактирование. Расширенная левая часть включала второй крупный горшок с растением и полноценный поток штор, что казалось логичным относительно предполагаемого окна. Правая часть расширилась за счет второй стены, оформленной картины и низкой деревянной тумбы, сохраняя минималистичный стиль — светлое дерево, мягкие нейтральные тона, ничего, что противоречило исходной эстетике. Освещение оставалось направленным и согласованным по всему расширенному кадру. Плоскость потолка, расположение подвесного светильника и рисунок пола — все оставалось логичным. Комната выглядела как расширенная, правдоподобная сцена, а не переработанная концепция. Мы не заметили никаких артефактов или ошибок. Для производственных задач, где важна пространственная точность и архитектурная честность, Seedream 5 Lite — более надежный инструмент. Если важна реалистичность, а не точность, лучше выбрать Nano Banana 2. Генерация нереалистичных изображений: тест миниатюры YouTube Этот тест перешел от редактирования и расширения к чистой генерации по конкретному заданию: миниатюра YouTube с надписью “AI IMAGE WAR” и подзаголовком с названиями обеих моделей, разделенный экран с крупным жирным заголовком слева, контрастные яркие цвета и соотношение 16:9.

Создание миниатюры требует точной типографики, продуманной композиционной иерархии и немедленной визуальной энергии — все одновременно. Nano:

Nano идеально понял грамматику миниатюр. Он создал композицию с крупной контрастной типографикой слева, драматический разделенный экран с лицами по разные стороны, насыщенные неоновые цвета — оранжевый и электрический синий, с центральным разделителем молнии, подчеркивающим противостояние. Заголовок четкий — “AI IMAGE WAR” доминирует визуально с обводками и свечением, которые сохраняются даже на маленьких экранах. Текст точно отображается, без ошибок, с равномерным кернингом. Лица детализированы и эмоционально выразительны. Визуальная энергия высокая. Это именно тот стиль, который вызывает клик. Seedream:

Seedream использовала другой подход. Вместо фотореалистичных драматичных лиц она создала стилизованных маскотов — бананов и светящийся нейронный шар, что придало сравнению более графический, иконографический характер. Макет был более чистым и структурированным, с доминирующим заголовком, четко читаемым подзаголовком и названиями моделей в рамке для быстрого восприятия. Типографика была сильной: четкая толщина линий, читаемость при масштабировании, без заметных артефактов. В отличие от Nano Banana, который делал акцент на эффектности и эмоциональности, Seedream создала менее взрывной, более дифференцированный и масштабируемый визуальный стиль. Это может быть стилистическим выбором, но по нашему субъективному мнению, для агрессивной вирусной оптимизации CTR у Nano Banana 2 есть преимущество за счет кинематографической интенсивности. Генерация реалистичных изображений: точность по многим ограничениям Последний тест оценивал, насколько точно каждая модель следовала сложной многоэлементной подсказке без нарушения или неправильной интерпретации ограничений. Задача: создать кинематографичный портрет 32-летней женщины-архитектора на крыше при закате, в бежевом плаще и круглых очках, держит в левой руке свернутые чертежи, на заднем плане — городской пейзаж со слегка размытым фоном, золотой час, мягкий контурный свет, малая глубина резкости, вертикальное соотношение 4:5, реалистичная текстура кожи и тонкое зерно пленки. Каждая из этих характеристик — отдельное ограничение, которое может провалиться.

Nano:

Nano создала изображение белокожей женщины, отвернувшейся от камеры — это художественный выбор, не указанный в подсказке, что говорит о склонности к творческой интерпретации. Бежевый плащ, круглые очки и свернутые чертежи в левой руке были правильно прорисованы. Крыша и размытый пейзаж выглядели убедительно. Освещение золотого часа присутствовало, но было чуть прохладнее по цветовой гамме, чем требовал запрос. Контурный свет был слабо выражен. Глубина резкости выполнена хорошо, но ощущение сжатия пространства ближе к 35-40 мм, чем к 50 мм. Зерно пленки минимально заметно, текстура кожи реалистична, но с легким эффектом сглаживания, типичным для систем, ориентированных на красоту. В целом, хорошая реализация с небольшими вариациями в интерпретации. Seedream:

Seedream создала изображение азиатской женщины, смотрящей прямо в камеру — стандартный выбор, если в подсказке не указано направление взгляда. Все указанные элементы присутствуют и реализованы правильно. Теплота золотого часа более выражена (возможно, даже преувеличена), есть четко выраженный контурный свет, отделяющий субъект от фона, что соответствует замыслу. Глубина резкости и фокусное сжатие ближе к реальному 50 мм, пропорции субъекта и фона выглядят естественно. Текстура кожи точная, с лучшим микроконтрастом и меньшим сглаживанием, чем у Nano Banana. Однако один из чертежей был сгенерирован неправильно и больше похож на артефакт, чем на правильный элемент. По композиции результат Seedream более центрирован и технически точен, с меньшим количеством интерпретационных добавлений, но Nano Banana создала более реалистичное изображение. Возможная проблема с согласованностью При длительных API-сессиях с большим количеством последовательных генераций обе модели показывали деградацию, которой не было в начале работы. Seedream начала выдавать размытые, нечеткие лица у объектов, которые ранее были четкими. Nano полностью терял узнаваемость персонажей, создавая образы, не связанные с исходными. Обе модели уменьшали глубину рассуждения по мере увеличения длины сессии — похоже, они тратят меньше усилий на каждую генерацию, чем больше уже сделано. Это может быть преднамеренной мерой ограничения, балансировкой нагрузки или особенностью архитектуры, понять со стороны сложно. Но это важно учитывать при планировании длинных рабочих цепочек. Обе работают лучше в начале сессии и деградируют при длительном использовании. Лучше всего — запрашивать у модели сразу несколько правок за один раз, чтобы избежать деградации. Это искусство: слишком много правок за один раунд ухудшают соответствие подсказке, слишком мало — требуют повторных итераций, что снижает согласованность. Вывод: кто побеждает? Nano выигрывает по качеству отображения текста, скорости генерации, интеграции в экосистему и энергопотреблению. Его главное преимущество — точность текста: без ошибок, без несогласованных шрифтов, без повторяющихся символов. Он работает быстро, интегрирован во множество продуктов, которыми пользуются миллиарды. А его поиск в интернете перед рендерингом дает более обоснованные результаты, чем просто эстетика. Если ваш рабочий процесс внутри экосистемы Google, если точность текста внутри изображений — обязательно, или если нужны быстрые итерации без работы с реальными людьми — Nano — лучший выбор. Seedream выигрывает по стоимости, дизайну платформы, гибкости контента, структурной дисциплине в пространственных задачах и сохранению персонажей при многократных редактированиях.

Фиксированная цена $0.035 делает Seedream практическим стандартом для объемных задач по генерации изображений. Интерфейс Dreamina более последовательный для длительных креативных сессий, чем чат-бот Gemini. Либеральная политика контента позволяет использовать модели там, где Google не готов. А для рабочих процессов, где важно сохранять постоянную идентичность реальных субъектов — именно в этом аспекте Seedream показала лучшие результаты во всех наших тестах.

Посмотреть Оригинал
Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.
комментарий
0/400
Нет комментариев