Разбор Berkeley GEPA: ИИ может научиться новым задачам без обновления весов, при этом затраты на обучение в 35 раз ниже, чем у RL

Исследовательская группа из Калифорнийского университета в Беркли представила новый подход к обучению ИИ — GEPA. Он уже принят ICLR 2026 как доклад Oral. GEPA не обновляет веса модели, не требует GPU-обучения: достаточно одного LLM, который многократно переписывает подсказки для AI-системы, используя «чтение обучающих записей». В итоге на 6 задачах в среднем результат лучше, чем у основных методов обучения с подкреплением GRPO, на 6%, с максимальным превосходством 20%, а число необходимых обучающих попыток (rollouts) меньше в 35 раз. После того как исследование AI-инженерное сообщество распространило и обсудило в X, сейчас GEPA уже интегрирован в DSPy как оптимизатор первого класса.

Что делает GEPA: рассматривает обучающие записи как учебный материал, а не только как оценку

Традиционный процесс обучения с подкреплением (например, GRPO) выглядит так: ИИ один раз выполняет задачу, по результату получает «+1 или -1», после чего эта оценка снова и снова используется для корректировки весов модели. Проблема в том, что выполнение задачи обычно включает тысячи токенов рассуждений, вызовы инструментов и сообщения об ошибках — все эти богатые детали сжимаются до одного числа, а информация о ходе процесса теряется. Поэтому RL приходится запускать десятки тысяч раз, чтобы добиться сходимости.

GEPA поступает наоборот: после того как ИИ завершает задачу, всю последовательность действий (reasoning, вызовы инструментов, записи ошибок) целиком передают другому «LLM для рефлексии», который читает процесс. LLM для рефлексии — как опытный инженер, который читает log с запусков: он находит, на каком шаге произошла ошибка, почему она произошла, и как нужно изменить подсказку, после чего напрямую переписывает подсказку для соответствующего модуля. По сути, при том же одном запуске задачи GEPA извлекает из него существенно больше сигнала, чем RL извлекает из единственной оценки.

Почему это работает: вместо «оценки» — «чтение всего процесса»

GEPA на 6 задачах в среднем обходит GRPO на 6%, а максимум — на 20%; также он опережает другой популярный оптимизатор подсказок MIPROv2 более чем на 10% (на математическом бенчмарке AIME-2025 рост на 12%). Самое важное — стоимость обучения: чтобы достичь сопоставимой производительности, GEPA нужен rollouts (один полный запуск задачи) в 35 раз меньше.

Еще один показатель: после интеграции GEPA с DSPy «Full Program Adapter» позволяет оптимизировать всю программу в DSPy (включая signature, модули и управляющий поток). На математическом бенчмарке MATH точность достигает 93%, что намного выше исходного способа ChainOfThought в DSPy (67%). GEPA также особенно хорошо проявляет себя в multi-module рабочих процессах (AI-агенты с несколькими модулями, соединенными последовательно): он позволяет точно локализовать конкретный модуль, в котором произошла ошибка, и переписать подсказку именно для него, вместо того чтобы настраивать весь систему целиком.

Кто первым начнёт использовать: DSPy — гражданин первого класса, GitHub уже открыто

Код GEPA опубликован на GitHub; он интегрирован в DSPy в виде dspy.GEPA и также отдельно выпущен как Python-библиотека. В исследовательской группе задействованы организации уровня UC Berkeley, Stanford, Notre Dame, Anthropic и др.; среди авторов статьи: Matei Zaharia (сооснователь Databricks, один из ключевых авторов DSPy) и Omar Khattab (главный автор DSPy).

Для разработческого сообщества GEPA предлагает новое решение для ситуации «у нас много rollout, но мы не знаем, как их использовать»: многие команды уже накопили тысячи и тысячи записей о запуске задач агентами, но кроме ручной проверки пары эпизодов при баге, у них нет системного способа превращать эти записи в улучшение модели. Следующий вопрос — как GEPA проявит себя в реальных внедрениях корпоративных agentic рабочих процессов (например, автоматизация клиентской поддержки, автоматическое исправление кода), и появятся ли совместимые реализации GEPA вне фреймворка DSPy.

Эта статья «Berkeley GEPA разбор»: «не обновляя веса, можно научить ИИ новым задачам — с 35-кратным сокращением расходов на обучение, победив RL» впервые появилась в ленте новостей ABMedia.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

MoonPay запускает MoonAgents Card — виртуальную Mastercard для AI-агентов — в пятницу

По данным The Block, MoonPay в пятницу запустила MoonAgents Card — виртуальную дебетовую карту Mastercard. Карта предназначена как для AI-агентов, так и для пользователей: она конвертирует стейблкоины в фиат непосредственно в момент оплаты и позволяет тратить средства у любого онлайн-торговца по всему миру, который принимает Mastercard. Карточка i

GateNews7ч назад

OpenAI запускает Codex Pets — AI-ориентированного виртуального компаньона с пользовательской генерацией

Согласно Beating, OpenAI добавила новую функцию «Codex Pets» в настольное приложение Codex, позволяющую пользователям создавать и взаимодействовать с анимированным виртуальным питомцем. Пользователи могут активировать питомца, введя /pet в редакторе. Функция работает как индикатор состояния агента, отображая a

GateNews16ч назад

MoonPay запускает карту MoonAgents для AI-агентов в сети Mastercard

По данным The Block, MoonPay запустила MoonAgents Card в пятницу — виртуальную дебетовую карту Mastercard, которая в реальном времени конвертирует стейблкоины в фиат непосредственно в момент оплаты. Карта выпускается через Monavate — регулируемую платежную платформу и основного участника Mastercard — в партнерстве с Exodus M

GateNews20ч назад

xAI запускает API для клонирования голоса, поддерживающий 80+ голосов на 28 языках

По данным PANews, xAI запустила API Voice Cloning 2 мая, позволяя пользователям создавать пользовательские голоса примерно за 2 минуты или выбирать из 80+ готовых голосов, охватывающих 28 языков, для приложений включая голосовых помощников, аудиокниги и персонажей игр. Эта функция в настоящее время

GateNews20ч назад

MoonPay запускает MoonAgents Card — виртуальную Mastercard для AI-агентов и пользователей в пятницу

По данным The Block, MoonPay в пятницу запустила MoonAgents Card — виртуальную дебетовую карту Mastercard для AI-агентов и пользователей. Карта конвертирует стейблкоины в фиат непосредственно в момент оплаты и может использоваться у любых онлайн-мерчантов по всему миру, которые принимают Mastercard. Карта выпущена через Monavate, регулируемого платежного провайдера

GateNews05-01 15:41

MoonPay запускает MoonAgents Card в сети Mastercard в пятницу

По данным The Block, MoonPay запустила MoonAgents Card в пятницу — виртуальную дебетовую карту Mastercard, позволяющую AI-агентам и пользователям тратить стейблкоины напрямую из onchain-кошельков. Карта выпускается через Monavate, регулируемую глобальную платежную платформу и principal member Mastercard, в

GateNews05-01 13:01
комментарий
0/400
Нет комментариев