スタンフォードとバークレーはLLM-as-a-Verifierを提案し、同時にTerminal-BenchとSWE-Benchのトップを更新した

robot
概要作成中

ME News メッセージ、4 月 14 日(UTC+8)、1M AI News の監視によると、AI プログラミングエージェントが単一のタスクを処理する際、複数回実行すると異なる解法が得られることが多く、その中には誤りも含まれる可能性がある。最良の解法を自動的に選び出せれば、全体の成功率は一度の実行を超えることができる。問題はどうやって選ぶかだ:もう一つのモデルを裁判官として採点させる(つまり LLM-as-a-Judge)ことが現在の主流だが、採点の粒度が粗すぎて、異なる解法に対して同じスコアを付けることが多く、優劣をつけられない。スタンフォードAI研究所とバークレーSky Computing研究所は、NVIDIAと共同で LLM-as-a-Verifier を提案し、この選別プロセスを改善した。裁判官の最終スコアだけを見るのではなく、モデルが各評価レベルで示す確率分布を読み取り、それから連続的な報酬値を計算する。また、裁判官に複数回判定させて平均を取り、偶然の偏りを排除し、全体の評価を3つの独立した次元(タスク要件の満足度、出力フォーマットの正確さ、誤信号の有無)に分けて検証する。実験では Gemini 2.5 Flash を検証器として使用し、単一検証の正確率は 74.7%、従来の Judge は 57.0%;これを16回繰り返すと Verifier は 77.4%、Judge は 70.2% に達した。従来の Judge は 26.5% の比較で引き分けに終わり、Verifier はすべての設定で引き分け率が 0% だった。実際の効果:Terminal-Bench 2 で GPT-5.4 に同じタスクを5回実行し、ランダムに選んだ一つの成功率は 81.8%、Verifier で選定後は 86.4% に向上した。SWE-Bench Verified では、Claude Opus 4.5、Claude Opus 4.6、Gemini 3 Flash の各1解法(合計3解法)から選び、76.1% から 77.8% に向上した。4月9日のリリース時点で、両方ともトップの成績だった。フレームワークはオープンソース化されている。(出典:BlockBeats)

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし