Автор: Андрей Карпаты
Перевод: Тим, PANews
2025 год станет годом быстрого развития больших языковых моделей и полным неопределенности, мы достигли значительных результатов. Ниже приведены, на мой взгляд, заслуживающие внимания и несколько неожиданные “парадигмальные изменения”, которые изменили ситуацию и, по крайней мере, на концептуальном уровне произвели на меня впечатление.
К началу 2025 года производственные стеки LLM всех AI лабораторий будут примерно следующими:
На протяжении долгого времени это была стабильная и зрелая технологическая стек для обучения производственных языковых моделей. К 2025 году обучение с подкреплением на основе проверяемых вознаграждений стало основной принимаемой ключевой технологией. Позволяя языковым моделям обучаться в различных средах с автоматически проверяемыми вознаграждениями (например, математика, программирование), эти модели способны самостоятельно формировать стратегии, которые выглядят как “умозаключение” с точки зрения человека. Они учатся разбивать решение проблемы на промежуточные вычислительные шаги и овладевают множеством стратегий для решения проблем через повторные рассуждения (можно обратиться к примерам в статье DeepSeek-R1). В предыдущих стеках эти стратегии было трудно реализовать, поскольку для языковых моделей оптимальный путь рассуждения и механизм обратного отслеживания не были ясны, и нужно было исследовать подходящие решения через оптимизацию на основе вознаграждений.
В отличие от этапов контроля тонкой настройки и обучения с подкреплением на основе человеческой обратной связи (которые довольно короткие и требуют меньших вычислительных затрат), обучение с подкреплением на основе проверяемого вознаграждения подразумевает длительную оптимизацию объекта функции вознаграждения, которая является объективной и не поддается играм. Доказано, что выполнение обучения с подкреплением на основе проверяемого вознаграждения приносит значительное повышение возможностей при единичных затратах, что значительно расходует ресурсы, изначально запланированные для предобучения. Таким образом, прогресс в мощностях больших языковых моделей в 2025 году в основном состоит в том, что крупные AI-лаборатории осваивают огромные вычислительные потребности, связанные с этой новой технологией. В целом, мы видим, что масштабы моделей примерно сопоставимы, но время обучения с подкреплением значительно увеличивается. Уникальность этой новой технологии также заключается в том, что мы получили совершенно новое измерение регулирования (а также соответствующий закон масштабирования), а именно контроль возможностей модели как функции вычислительных затрат во время тестирования, генерируя более длинные цепочки рассуждений и увеличивая “время размышления”. Модель OpenAI o1 (выпущенная в конце 2024 года) является первой демонстрацией модели обучения с подкреплением на основе проверяемого вознаграждения, в то время как выпуск o3 (в начале 2025 года) является очевидным поворотным моментом, который позволяет ощутить качественный скачок.
2025 год стал для меня (и, как я считаю, для всей отрасли) первым годом, когда мы начали понимать “форму” интеллектуальных больших языковых моделей с более интуитивной точки зрения. Мы не “эволюционируем и не воспитываем животных”, а “вызываем духов”. Вся технологическая инфраструктура больших языковых моделей (нейронные архитектуры, обучающие данные, алгоритмы обучения, особенно цели оптимизации) совершенно различна, поэтому мы получаем сущности, которые отличаются от биологического интеллекта, и это не удивительно; смотреть на них с точки зрения животных неуместно. С точки зрения надзорной информации, человеческие нейронные сети оптимизированы для выживания племени в джунглях, в то время как нейронные сети больших языковых моделей оптимизированы для имитации человеческого текста, получения наград в математических задачах и завоевания одобрения людей на арене. С появлением проверяемых областей, предоставляющих условия для обучения с подкреплением на основе проверяемых наград, способности больших языковых моделей вблизи этих областей “внезапно увеличиваются”, демонстрируя интересную, зубчатую характеристику производительности. Они могут одновременно быть эрудированными гениями и запутанными, испытывающими трудности с познанием, младшеклассниками, которые в любой момент могут раскрыть ваши данные под давлением.
Человеческий интеллект: синий, ИИ-интеллект: красный. Мне нравится эта версия мемов (извините, я не могу найти оригинальный пост в Твиттере), потому что она указывает на то, что человеческий интеллект на самом деле также проявляется в своей уникальной форме в виде зубчатых волн.
Связано с этим, в 2025 году у меня возникло общее равнодушие и недоверие к различным типам бенчмарков. Основная проблема заключается в том, что бенчмарки по своей сути почти всегда находятся в проверяемой среде, что делает их легкими для воздействия на основе проверяемых вознаграждений и более слабых форм, созданных с помощью синтетических данных. В типичном процессе «максимизации баллов» команды больших языковых моделей неизбежно будут создавать обучающую среду вблизи небольшого встраиваемого пространства, где находятся бенчмарки, и покрывать эти области с помощью «зубчатости способностей». «Обучение на тестовом наборе» стало новой нормой.
Провалив все бенчмарки и все же не достигнув общего искусственного интеллекта, и что с того?
Одним из самых впечатляющих аспектов Cursor (помимо его стремительного роста в этом году) является то, что он убедительно раскрывает новый уровень “LLM-приложений”, поскольку люди начинают говорить о “Cursor в области XX”. Как я подчеркивал в своей речи на Y Combinator в этом году, такие LLM-приложения, как Cursor, сосредоточены на интеграции и оркестрации вызовов LLM для конкретных вертикальных областей:
В 2025 году вокруг развития этого нового уровня приложений уже ведется много обсуждений. Будет ли платформа больших языковых моделей охватывать все приложения, или у приложений больших языковых моделей все еще есть широкое пространство? Лично я предполагаю, что позиционирование платформы больших языковых моделей постепенно будет стремиться к подготовке “универсальных выпускников университетов”, в то время как приложения больших языковых моделей будут отвечать за организацию, тонкую настройку этих “выпускников” и, предоставляя частные данные, датчики, исполнительные механизмы и обратные связи, позволят им действительно стать “профессиональными командами”, которые могут быть вовлечены в практическую работу в определенных вертикальных областях.
Появление Claude Code впервые убедительно продемонстрировало форму LLM-агентов, сочетая использование инструментов с процессом рассуждения в цикличном формате, что позволяет решать более сложные задачи на долговременной основе. Кроме того, меня впечатлило, что он работает на персональном компьютере пользователя, глубоко интегрируясь с его приватной средой, данными и контекстом. Я считаю, что OpenAI допустила ошибку в этом направлении, сосредоточив свои усилия на разработке помощников по коду и агентов в облачных развертываниях, а не в локальной среде. Хотя облачные кластеры агентов кажутся «конечной формой пути к общему искусственному интеллекту», мы находимся на этапе перехода, где развитие возможностей неравномерно и относительно медленно. В таких условиях более разумным путем является развертывание агентов непосредственно на локальных компьютерах, что позволяет тесно сотрудничать с разработчиками и их специфической рабочей средой. Claude Code точно уловил этот приоритет и упаковал его в простую, элегантную и очень привлекательную форму командного инструмента, тем самым переосмыслив способ взаимодействия с ИИ. Он больше не просто сайт, который нужно посещать, как Google, а маленький дух или призрак, «живущий» на вашем компьютере. Это совершенно новая, уникальная парадигма взаимодействия с ИИ.
В 2025 году ИИ преодолел ключевой порог возможностей, что сделало возможным создание различных удивительных программ только на основе описаний на английском языке, при этом людям даже не нужно беспокоиться о базовом коде. Забавно, что я создал термин “Vibe Coding” (атмосферное программирование) в одной из своих мыслей в твиттере во время принятия ванны, когда совершенно не думал, что он разовьется до нынешнего уровня. В парадигме атмосферного программирования программирование больше не ограничивается строго подготовленными профессионалами, а становится доступным для всех. С этой точки зрения это является еще одним доказательством явления, описанного мной в статье “Упрощение для людей: как большие языковые модели меняют модели распространения технологий”. В резком контрасте со всеми другими технологиями, обычные люди получают больше преимуществ от больших языковых моделей по сравнению с профессионалами, компаниями и государством. Однако атмосферное программирование не только дает возможность обычным людям попробовать программирование, но и позволяет профессиональным разработчикам создавать больше “программного обеспечения, которое в противном случае не было бы реализовано”. При разработке nanochat я использовал атмосферное программирование для написания пользовательского эффективного BPE-токенизатора на Rust, не полагаясь на существующие библиотеки или углубленное изучение Rust. В этом году я также быстро реализовал несколько прототипов проектов с помощью атмосферного программирования, чтобы проверить, жизнеспособны ли определенные идеи. Я даже написал целое одноразовое приложение только для того, чтобы найти конкретную уязвимость, потому что код внезапно стал бесплатным, кратковременным, податливым и одноразовым. Атмосферное программирование изменит экосистему разработки программного обеспечения и глубоко изменит границы определения профессии.
Гемини Нано банан от Google — это один из самых разрушительных парадигмальных сдвигов 2025 года. На мой взгляд, большие языковые модели являются следующим крупным вычислительным парадигмальным сдвигом после компьютеров 1970-х и 1980-х годов. Таким образом, мы увидим аналогичные инновации, основанные на тех же коренных причинах, аналогично эволюционным формам персональных вычислений, микроконтроллеров и даже интернета. Особенно на уровне взаимодействия человек-компьютер текущая “диалоговая” модель с LLM отчасти напоминает ввод команд в компьютерные терминалы 1980-х годов. Текст является самой примитивной формой представления данных для компьютера (и LLM), но не является предпочтительным способом для человека (особенно при вводе). Люди на самом деле ненавидят читать текст, это медленно и утомительно. Напротив, люди склонны воспринимать информацию через визуальные и пространственные измерения, что и является причиной появления графических пользовательских интерфейсов в традиционных вычислениях. Точно так же большие языковые модели должны общаться с нами в формате, предпочтительном для человека, через изображения, информационные графики, слайды, доски, анимации, видео, веб-приложения и другие носители. Текущая ранняя форма уже реализована через “визуальные текстовые украшения”, такие как эмодзи и Markdown (например, заголовки, жирный шрифт, списки, таблицы и другие элементы верстки). Но кто действительно создаст графический интерфейс для больших языковых моделей? С этой точки зрения, нано банан является ранним прототипом этой будущей концепции. Стоит отметить, что прорыв нано банана заключается не только в самой способности генерации изображений, но и в комплексной способности, образуемой переплетением генерации текста, генерации изображений и мировых знаний в весах модели.