Повідомлення Gate News, 22 квітня — Google Research опублікувала ReasoningBank, фреймворк пам’яті агентів, який дає змогу агентам, керованим великими мовними моделями, безперервно вчитись після розгортання. Фреймворк витягує універсальні стратегії міркування як з успішних, так і з невдалих досвідів виконання завдань, зберігаючи їх у банку пам’яті для пошуку та виконання під час подібних майбутніх завдань. Відповідна стаття була опублікована в ICLR, а код відкрито на GitHub.

ReasoningBank удосконалює два наявні підходи: Synapse, який записує повні траєкторії дій, але має обмежену переносимість через дрібнозернисту деталізацію, та Agent Workflow Memory, яка навчається лише на успішних випадках. ReasoningBank вносить дві ключові зміни: зберігання “patternів міркування” замість “послідовностей дій”, де кожна пам’ять містить структуровані поля для назви, опису та вмісту; і включення невдалих траєкторій у процес навчання. Фреймворк використовує модель для самостійної оцінки траєкторій виконання, перетворюючи невдалий досвід на правила проти типових помилок. Наприклад, правило “клікніть кнопку Load More, коли її побачите” еволюціонує в “спершу перевірте ідентифікатор поточної сторінки, уникайте нескінченних циклів прокрутки, а потім натисніть load more.”

Стаття також вводить Memory-aware Test-time Scaling (MaTTS), яке виділяє додаткові обчислення під час інференсу, щоб досліджувати кілька траєкторій і зберігати результати в банку пам’яті. Паралельне розгортання виконує кілька різних траєкторій для одного й того ж завдання, уточнюючи більш надійні стратегії через самопорівняння; послідовне розгортання ітеративно уточнює одну траєкторію, зберігаючи проміжне міркування в пам’яті.

У браузерних задачах WebArena та задачах кодування SWE-Bench-Verified із використанням Gemini 2.5 Flash як агента ReAct, ReasoningBank досягла на 8.3% вищого рівня успіху на WebArena та на 4.6% вищого на SWE-Bench-Verified порівняно з базовим підходом без пам’яті, зменшивши середню кількість кроків на завдання приблизно на 3. Додавання MaTTS із паралельним розгортанням (k=5) ще більше покращило рівень успіху на WebArena на 3 відсоткові пункти та зменшило кількість кроків додатково на 0.4.

Переглянути джерело

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Пов'язані статті

Тайванські банки об’єдналися для створення локального ШІ! Фінансові великі мовні моделі найшвидше запрацюють до кінця року

AI Agent Новини індустрії ШІ

Під керівництвом China Citic Financial Holding Company 16 фінансових установ оголосили про запуск проєкту «фінансова велика мовна модель FinLLM». Перша версія банківської моделі планується до випуску в серпні, а в 2026 році Q1 — представлення AI-агентів на базі FinLLM. Навчання стартує з травня, бюджет становить приблизно 40–70 млн юанів. Через регуляторні вимоги та потреби локалізації основою є навчання на локальних даних: посилення суверенного AI, побудова спільної базової інфраструктури, а також розширення на інклюзивні фінанси. План уже включено до державної програми розвитку ШІ та отримано підтримку міжвідомства.

ChainNewsAbmedia6хв. тому

Генеральний директор Google: 2026 року капітальні витрати сягнуть 185 млрд, у період інвестицій в AI-агенти інвестиції збільшуються

AI Agent Новини індустрії ШІ

Генеральний директор Google Сундар Пічаї 22 квітня на конференції Google Cloud Next у Лас-Вегасі оголосив, що Google планує у 2026 році спрямувати від 175 до 185 мільярдів доларів капітальних витрат на будівництво інфраструктури, необхідної для автономних агентів штучного інтелекту (AI Agent), що на додаток до 31 мільярда доларів у 2022 році.

MarketWhisper41хв. тому

Google Jules запускає список оновлених кандидатів у відкритому доступі та перевизначає його як платформу для розробки end-to-end продуктів

AI Agent Новини індустрії ШІ

Згідно з офіційним оголошенням команди Google Jules від 23 квітня, позиціонування продукту Jules оновлено з «асинхронного агентного агенту для кодування» до «кінцево-до-кінцевого агентного платформи для розробки продуктів»; нова версія здатна зчитувати повний контекст продукту, самостійно визначати наступний напрям побудови та надсилати PR. Офіційно також оголошено про відкриття списку кандидатів на нову версію.

MarketWhisper47хв. тому

Google Jules перейменовує на платформу розробки агентних продуктів end-to-end, відкриває список очікування для нової версії

AI Agent Новини індустрії ШІ

Повідомлення Gate News, 23 квітня — команда Jules від Google оголосила про відкриття списку очікування для нової версії продукту, переорієнтувавши Jules з асинхронного агента для програмування на платформу розробки агентних продуктів end-to-end. Згідно з офіційним описом, оновлена платформа зчитує повний контекст продукту, визначає, що слід створити далі, пропонує рішення та надсилає pull requests.

GateNews1год тому

Perplexity розкриває метод пост-тренування агента веб-пошуку; модель на базі Qwen3.5 перевершує GPT-5.4 за точністю та вартістю

AI Agent Новини індустрії ШІ

Perplexity використовує SFT із подальшим RL із моделями Qwen3.5, застосовуючи багатокроковий набір даних для QA та перевірки за рубрикою, щоб підвищити точність і ефективність пошуку, досягаючи рівня FRAMES найвищого класу. Анотація: Робочий процес пост-тренування Perplexity для агентів веб-пошуку поєднує контрольоване донавчання (SFT) для забезпечення дотримання інструкцій і мовної узгодженості з онлайн підкріплювальним навчанням (RL) через алгоритм GRPO. Етап RL використовує власний багатоходовий верифікований датасет запитань-відповідей і розмовні дані на основі рубрики, щоб запобігти дрейфу SFT, із обмеженням винагород і штрафами за ефективність у межах групи. Оцінювання показує, що Qwen3.5-397B-SFT-RL досягає найвищих показників FRAMES: 57,3% точності за одного виклику інструмента та 73,9% за чотирьох викликів при $0,02 за запит, випереджаючи GPT-5.4 і Claude Sonnet 4.6 за цими метриками. Ціноутворення базується на API і не включає кешування.

GateNews2год тому

Команда OpenAI Codex виправила баг із автентифікацією OpenClaw та суттєво покращила поведінку агента

AI Agent Новини індустрії ШІ

OpenClaw переходить з Pi на оснастку Codex, щоб виправити беззвучний аварійний відкат автентифікації, і має два PR, які усувають проблеми з мостом і відкатом; після виправлення агент переходить від поверхневого опитування сердець до повного робочого циклу, що дає змогу прогресувати. Анотація: Оптимізація оснастки Codex в OpenClaw усунула критичну ваду автентифікації, через яку при використанні Codex з моделями OpenAI відбувався беззвучний відкат на оснастку Pi. Два pull request-и виправляють міст автентифікації та запобігають беззвучному відкату, змінюючи адаптер виконання. У результаті поведінка агента еволюціонує від поверхневого опитування сердець до повного робочого циклу, який читає контекст, аналізує завдання, редагує репозиторії та перевіряє прогрес, покращуючи безперервність і видимість протягом сердець.

GateNews3год тому

Прокоментувати

0/400

Немає коментарів