ゲートニュース 4月22日 — Google Researchは、エージェントのメモリーフレームワークであるReasoningBankをリリースしました。これは、大規模言語モデル主導のエージェントが、デプロイ後も継続的に学習できるようにするものです。このフレームワークは、成功したタスク経験と失敗したタスク経験の両方から普遍的な推論戦略を抽出し、それらをメモリーバンクに保存して、同様の将来のタスクでの検索と実行に活用します。関連論文はICLRで公開されており、コードはGitHubでオープンソース化されています。

ReasoningBankは、既存の2つのアプローチを改良しています。Synapseは完全な行動の軌跡を記録しますが、きめ細かな粒度のために転用可能性が限られています。また、Agent Workflow Memoryは成功したケースのみから学習します。ReasoningBankは2つの重要な変更を行います。"アクションシーケンス"ではなく"推論パターン"を保存し、各メモリにタイトル、説明、コンテンツの構造化フィールドを含めること。そして、失敗の軌跡を学習に取り込むことです。このフレームワークは、実行軌跡を自己評価するモデルを使用し、失敗の経験を「落とし穴回避ルール」へと変換します。たとえば、ルール"見かけたらLoad Moreボタンをクリックする"は、"まず現在のページ識別子を確認し、無限スクロールのループを避けてから、load moreをクリックする"へと進化します。

この論文は、Memory-aware Test-time Scaling (MaTTS)も導入しています。これは推論中に追加の計算を割り当て、複数の軌跡を探索して、その発見をメモリーバンクに保存するものです。並列拡張では同一タスクに対して複数の異なる軌跡を実行し、自己比較によってより頑健な戦略を洗練します。一方で逐次拡張では単一の軌跡を反復的に改良し、推論の途中結果をメモリに保存します。

Gemini 2.5 FlashをReActエージェントとして用いたWebArenaのブラウザタスク、およびSWE-Bench-Verifiedのコーディングタスクでは、ReasoningBankは、メモリなしのベースラインと比べてWebArenaで成功率が8.3%高く、SWE-Bench-Verifiedでは4.6%高くなりました。さらに、タスクあたりの平均ステップ数を約3%減らしました。並列拡張 (k=5)でMaTTSを追加すると、WebArenaの成功率はさらに3ポイント向上し、ステップ数もさらに0.4減少しました。

ソースを表示

免責事項：このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。

Google Jules、エンドツーエンドのエージェント型プロダクト開発プラットフォームとして再ブランディング、新バージョンのウェイリストを開設

AIエージェント AI業界ニュース

Gate News メッセージ、4月23日 — GoogleのJulesチームは、製品の新バージョンに関するウェイリストの開設を発表し、Julesを非同期のコーディングエージェントからエンドツーエンドのエージェント型プロダクト開発プラットフォームへと再配置しました。公式の説明によれば、アップグレードされたプラットフォームはエンティ

GateNews11分前

PerplexityがWeb検索エージェントのポストトレーニング手法を公開；Qwen3.5ベースのモデルが精度とコストでGPT-5.4を上回る

AIエージェント AI業界ニュース

Perplexityは、Qwen3.5モデルを用いたSFTの後にRLを行います。マルチホップQAデータセットとルーブリック（評価基準）チェックを活用して、検索の精度と効率を高め、FRAMESにおいて業界最高水準の性能を達成しています。要旨：PerplexityのWeb検索エージェント向けポストトレーニングのワークフローは、命令追従と言語の一貫性を強制するための教師あり微調整 (SFT) と、GRPOアルゴリズムによるオンライン強化学習 (RL) を組み合わせています。RL段階では、SFTのドリフトを防ぐために、独自のマルチホップ検証可能QAデータセットと、ルーブリックに基づく対話データを使用し、報酬ゲーティングと同一グループ内の効率ペナルティを採用します。評価の結果、Qwen3.5-397B-SFT-RLがトップのFRAMES性能を達成し、単一ツール呼び出しで57.3%の精度、4回の呼び出しで73.9%の精度を、1クエリあたり$0.02で実現しています。これにより、これらの指標においてGPT-5.4およびClaude Sonnet 4.6を上回ります。料金はAPIベースで、キャッシュは除外されます。

GateNews44分前

OpenAI CodexチームがOpenClawの認証バグを修正、エージェント挙動を大幅に改善

AIエージェント AI業界ニュース

OpenClawはサイレントな認証フォールバックを修正するためにPiからCodexハーネスへ切り替え、ブリッジとフォールバックに対処する2つのPRを投入しました。修正後、エージェントは浅いハートビートのポーリングから完全な作業ループへ移行し、進捗が可能になりました。概要：OpenClawのCodexハーネス最適化は、CodexをOpenAIモデルで使用した際にPiハーネスへサイレントにフォールバックする原因となった重要な認証の不具合に対処しました。2つのプルリクエストが認証ブリッジを修正し、サイレントなフォールバックを防ぎ、実行時アダプタを変更します。その結果、エージェントの挙動は浅いハートビートのポーリングから、コンテキストを読み取り、タスクを分析し、リポジトリを編集し、進捗を検証する完全な作業ループへと進化し、ハートビート間の継続性と可視性が向上します。

GateNews1時間前

OpenAI が ChatGPT Workspace Agents を公開：Codex による駆動、チーム共有、Slack 連携

AIエージェント AI業界ニュース

OpenAIは4月22日にChatGPT Business/Enterprise/Edu/TeachersでWorkspace Agentsを提供開始し、Codexを駆動に、クラウドでの長時間稼働、チームでの共有、オフライン実行に対応します。Slack上で主導的に応答し、請求書発行、複数ステップのワークフローの実行ができ、スケジューリングにも対応しています。研究プレビューは5月6日まで無料で、その後はcredit-basedでの課金となり、価格は未発表です。Google Gemini Enterprise Agent Platform、Anthropic Claude Coworkと同じ土俵で競合しており、3社はいずれも企業向けのエージェントに注力していますが、位置付けはそれぞれ異なります。

ChainNewsAbmedia2時間前

Google Cloud Next 2026：Gemini エンタープライズ・エージェント・プラットフォームを提供、7億5,000万ドルでコンサルの導入を後押し

AIエージェント AI業界ニュース

Google Cloud が Cloud Next 2026 で Gemini Enterprise Agent Platform を発表し、モデルの選択、エージェントの構築、DevOps、オーケストレーション、企業向けのセキュリティ統制を統合するとともに、McKinsey、Accenture、Deloitte が企業エージェントを導入するための 7.5 億ドルの基金を提供した。プラットフォームは Ironwood TPU、A2A、MCP と組み合わせて自社のフルスタックおよびコンサルティング流通網を構築し、OpenAI Operator および Anthropic Claude の企業版に対抗する。

ChainNewsAbmedia2時間前

Google、WizのクラウドセキュリティをAWS、Azure、Google Cloudに拡大

AIエージェント AI業界ニュース

Googleは、新しいセキュリティ機能と、米国$32 10億ドルで買収したイスラエルのクラウドセキュリティ企業Wizとのさらなる統合を発表しました。同社は、Cloud Next '26イベントで、Google Cloudおよび競合プラットフォーム全体にわたりこれを展開しました。会社は、Security Operations向けの3つのAIエージェントをプレビュー・モードで導入し、設計されています。

CryptoFrontier2時間前

0/400

コメントなし