1M AI Newsの監測によると、アリの通義千問の前技術責任者である林俊旸はX上で長文を投稿し、AI業界の「推理思考」から「エージェント思考」への判断を体系的に述べた。これは彼が3月初めに千問チームを離れて以来初めて公開した技術的見解である。
林俊旸は、2025年前半の核心的テーマは推理思考であり、具体的にはモデルが推論段階でより多くの計算資源を消費する方法、より強力な報酬信号を用いた訓練方法、推論の深さを制御する方法であると考えている。しかし次の段階の答えはエージェント思考であり、モデルは単に「長く考える」だけでなく、「行動のために考える」ようになり、環境との相互作用の中で計画を継続的に修正していく。
彼はまた、千問チームの技術選択について率直に振り返った。Qwen3は同一モデル内で思考モードと指示モードを融合させ、調整可能な推論予算をサポートしているが、実際の運用では両者のデータ分布や行動目標に大きな差異があることが判明した。指示モードは簡潔さ、低遅延、フォーマットの準拠を追求し、思考モードは難問に対してより多くのトークンを投入し、中間推論構造を維持しようとする。もしデータ設計が不十分だと、結果は両端で凡庸になることが多い。そのため、Qwen 2507シリーズは最終的にInstruct版とThinking版(30Bと235Bの2規格)を別々にリリースし、それぞれ最適化を図った。対照的に、AnthropicはClaude 3.7 Sonnetから推論は独立したモデルではなく、統合能力の一部とすべきだと主張し、ユーザーが思考予算を設定できるようにした。
林俊旸は、エージェント強化学習のインフラは従来の推論RLよりも難しいと指摘している。推論RLのロールアウトは通常自己完結型の軌跡であり、静的な検証器と組み合わせるだけで済むが、エージェントRLはモデルに完全なツールチェーン(ブラウザ、端末、サンドボックス、API、記憶システム)を埋め込む必要があり、訓練と推論を切り離さないとロールアウトのスループットが崩壊する。彼は環境設計をモデルアーキテクチャと同等に重要なものと位置付け、「環境構築は副次的なプロジェクトから本格的なスタートアップのカテゴリーへと変わりつつある」と述べた。
彼は、エージェント思考が主流の思考形式となり、従来の静的推論における長すぎる孤立した内部モノローグを置き換える可能性を予測している。ただし最大のリスクは報酬ハッキング(reward hacking)であり、モデルが実際のツールアクセス権を得ると、RL訓練中に直接答えを検索したり、リポジトリ内の未来情報を利用したり、タスクの回避策を見つけたりすることが学習される恐れがある。最後に、今後の競争優位はより優れたRLアルゴリズムから、より良い環境設計や訓練と推論の緊密な統合、多エージェント協調のシステムエンジニアリング能力に移行すると指摘している。