Згідно з моніторингом 1M AI News, команда Meituan Longmao відкрила вихідний код LongCat-Next — нативну мультимодальну модель на основі архітектури MoE з активованими параметрами 3B, яка об’єднала п’ять можливостей у рамках єдиного автогрекового підходу: розуміння тексту, візуальне сприйняття, генерація зображень, розуміння мови та синтез мови. Модель та відповідний токенізатор відкриті за ліцензією MIT, а ваги вже доступні на HuggingFace.
Основна концепція LongCat-Next — це парадигма DiNA (дискретне нативне автогрекове навчання): шляхом створення парних токенізаторів і декодерів для кожного модальності, перетворюючи візуальні та аудіосигнали у дискретні токени, що поділяють спільний простір вбудовування з текстом, — всі завдання виконуються за допомогою єдиного прогнозування наступного токена. Ключовий компонент візуальної частини — dNaViT (дискретний нативний роздільний Vision Transformer), який перетворює зображення у «візуальні слова», підтримує динамічний токенізатор і декодування, зберігаючи високий рівень якості генерації зображень навіть при стисненні у 28 разів, особливо в частині рендерингу тексту.
У порівнянні з моделями з аналогічною кількістю активованих параметрів (A3B), основні показники LongCat-Next такі:
У порівнянні з моделями, що об’єднують розуміння та генерацію у єдину архітектуру, LongCat-Next досягає балу MMMU 70.6, що перевищує друге місце NEO-unify (68.9), значно випереджаючи BAGEL (55.3) та Ovis-U1 (51.1). Показники SWE-Bench 43.0 і результати тестування інструментів Tau2 також підтверджують, що ця мультимодальна уніфікована архітектура не жертвує можливостями чистого тексту та агентських функцій.