Perplexity розкриває метод пост-тренування агента веб-пошуку; модель на базі Qwen3.5 перевершує GPT-5.4 за точністю та вартістю

Gate News message, 23 квітня — Дослідницька команда Perplexity опублікувала технічну статтю, яка детально описує її методологію пост-тренування для агентів веб-пошуку. Підхід використовує дві моделі Qwen3.5 із відкритим кодом (Qwen3.5-122B-A10B та Qwen3.5-397B-A17B) і застосовує конвеєр у два етапи: контрольоване донавчання (SFT) для формування дотримання інструкцій і мовної узгодженості, а потім онлайн підкріплювальне навчання (RL) для оптимізації точності пошуку та ефективності використання інструментів.

Фаза RL використовує алгоритм GRPO із двома джерелами даних: власним багатокроковим верифікованим набором запитань-відповідей, зібраним із внутрішніх стартових запитів, що вимагають 2–4 кроків міркування з верифікацією за допомогою кількох розв’язувачів, та розмовними даними загального призначення на основі рубрики, які перетворюють вимоги розгортання на об’єктивно перевірювані атомарні умови, щоб запобігти деградації поведінки SFT.

Дизайн винагород використовує gated aggregation — лише коли досягнуто базової правильності (відповідність питання-відповіді або коли виконано всі критерії рубрики), бали преференцій додаються, запобігаючи тому, щоб сигнали високої преференції маскували фактичні помилки. Штрафи за ефективність використовують прив’язку в межах групи, застосовуючи згладжені штрафи до викликів інструментів і довжини генерації, що перевищує базовий рівень правильних відповідей у тій самій групі.

Оцінювання показує, що Qwen3.5-397B-SFT-RL досягає результатів найвищого класу на пошукових бенчмарках. На FRAMES він досягає 57,3% точності за одного виклику інструмента, випереджаючи GPT-5.4 на 5,7 відсоткового пункта та Claude Sonnet 4.6 на 4,7 відсоткового пункта. За помірного бюджету (чотири виклики інструментів) він досягає 73,9% точності при $0,02 за запит, порівняно з 67,8% точності GPT-5.4 при $0,085 за запит і 62,4% точності Sonnet 4.6 при $0,153 за запит. Показники вартості базуються на публічному ціноутворенні кожного провайдера через API та виключають оптимізації кешування.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Пов'язані статті

Генеральний директор Google: 2026 року капітальні витрати сягнуть 185 млрд, у період інвестицій в AI-агенти інвестиції збільшуються

Генеральний директор Google Сундар Пічаї 22 квітня на конференції Google Cloud Next у Лас-Вегасі оголосив, що Google планує у 2026 році спрямувати від 175 до 185 мільярдів доларів капітальних витрат на будівництво інфраструктури, необхідної для автономних агентів штучного інтелекту (AI Agent), що на додаток до 31 мільярда доларів у 2022 році.

MarketWhisper4хв. тому

Google Jules запускає список оновлених кандидатів у відкритому доступі та перевизначає його як платформу для розробки end-to-end продуктів

Згідно з офіційним оголошенням команди Google Jules від 23 квітня, позиціонування продукту Jules оновлено з «асинхронного агентного агенту для кодування» до «кінцево-до-кінцевого агентного платформи для розробки продуктів»; нова версія здатна зчитувати повний контекст продукту, самостійно визначати наступний напрям побудови та надсилати PR. Офіційно також оголошено про відкриття списку кандидатів на нову версію.

MarketWhisper9хв. тому

Google Jules перейменовує на платформу розробки агентних продуктів end-to-end, відкриває список очікування для нової версії

Повідомлення Gate News, 23 квітня — команда Jules від Google оголосила про відкриття списку очікування для нової версії продукту, переорієнтувавши Jules з асинхронного агента для програмування на платформу розробки агентних продуктів end-to-end. Згідно з офіційним описом, оновлена платформа зчитує повний контекст продукту, визначає, що слід створити далі, пропонує рішення та надсилає pull requests.

GateNews55хв. тому

Команда OpenAI Codex виправила баг із автентифікацією OpenClaw та суттєво покращила поведінку агента

OpenClaw переходить з Pi на оснастку Codex, щоб виправити беззвучний аварійний відкат автентифікації, і має два PR, які усувають проблеми з мостом і відкатом; після виправлення агент переходить від поверхневого опитування сердець до повного робочого циклу, що дає змогу прогресувати. Анотація: Оптимізація оснастки Codex в OpenClaw усунула критичну ваду автентифікації, через яку при використанні Codex з моделями OpenAI відбувався беззвучний відкат на оснастку Pi. Два pull request-и виправляють міст автентифікації та запобігають беззвучному відкату, змінюючи адаптер виконання. У результаті поведінка агента еволюціонує від поверхневого опитування сердець до повного робочого циклу, який читає контекст, аналізує завдання, редагує репозиторії та перевіряє прогрес, покращуючи безперервність і видимість протягом сердець.

GateNews2год тому

Відкрити OpenAI для ChatGPT Workspace Agents: керування Codex, спільна робота команди, інтеграція Slack

OpenAI 22 квітня запустила Workspace Agents у ChatGPT Business/Enterprise/Edu/Teachers. Їх приводить у дію Codex: вони працюють у хмарі тривалий час, є для спільного використання командою та підтримують офлайн-виконання. Агенти можуть проактивно відповідати в Slack, створювати рахунки, виконувати багатокрокові робочі процеси та підтримують планування. Дослідницький попередній перегляд безкоштовний до 6 травня, після чого буде застосовано оплату за credit-based підхід; ціни будуть оголошені згодом. Вони змагаються на одному полі з GoogleGeminiEnterpriseAgentPlatform і AnthropicClaudeCowork: усі три компанії роблять ставку на агентів для рівня підприємств, але їхні позиціонування відрізняються.

ChainNewsAbmedia3год тому

Google Cloud Next 2026: запустила платформу корпоративних агентів Gemini, 750 мільйонів доларів США для допомоги консультантам у впровадженні

Google Cloud на Cloud Next 2026 представила платформу Gemini Enterprise Agent Platform, яка інтегрує вибір моделей, побудову агентів, DevOps, оркестрацію та корпоративний контроль безпеки, а також оголосила фонд у розмірі 750 мільйонів доларів США для підтримки розгортання корпоративних агентів McKinsey, Accenture, Deloitte. Платформа в поєднанні з Ironwood TPU, A2A та MCP створює власний повний стек і консалтинговий канал, щоб протистояти OpenAI Operator та корпоративній версії Anthropic Claude.

ChainNewsAbmedia3год тому
Прокоментувати
0/400
Немає коментарів