AI汎用推論層を構築!vLLMオープンソースプロジェクトは、どのようにして世界的な推論エンジンの野心的計画となるのか?

ChainNewsAbmedia

AIモデルの急速な進化に伴い、これらの大型モデルの効率的な推論(Inference)を実現する方法が業界の重要な課題となっています。UCバークレーのオープンソースプロジェクトvLLMは、この技術的課題に正面から取り組むだけでなく、コミュニティとエコシステムを着実に構築し、推論基盤に特化した新興企業Inferactを生み出しています。本稿では、vLLMの起源、技術的ブレークスルー、オープンソースコミュニティの発展、そしてInferactが「AI推論の汎用エンジン」を目指す取り組みについて深掘りします。

学術実験からGitHubスター案件へ:vLLM誕生の背景

vLLMは、UCバークレーの博士課程研究プロジェクトに端を発し、大規模言語モデル(LLM)の推論効率の低さを解決することを目的としていました。当時、MetaはOPTモデルをオープンソース化し、vLLMの初期貢献者の一人であるWoosuk Kwonは、そのデモサービスの最適化を試みる中で、未解決の推論システムの課題を発見しました。「数週間で完成すると思っていたが、結果的に全く新しい研究と開発の道が開けた」とKwonは振り返ります。

下からの挑戦:なぜLLMの推論は従来のMLと異なるのか?

vLLMは自己回帰型(auto-regressive)言語モデルに焦点を当てており、その推論プロセスは動的で非同期、バッチ処理が困難です。これは従来の画像や音声モデルとは大きく異なります。こうしたモデルの入力長は一文から数百ページのドキュメントまで多様であり、GPUメモリの正確な配分や、トークンレベルのスケジューリング、KVキャッシュの管理など、計算とメモリ管理が非常に複雑です。

vLLMの重要な技術的ブレークスルーの一つは「Page Attention」であり、この設計によりシステムはメモリ管理をより効率的に行い、多様なリクエストや長いシーケンス出力に対応可能となっています。

単なるプログラミングを超えて:キャンパスからオープンソースコミュニティへの重要な転換点

2023年、vLLMチームはシリコンバレーで初のオープンソースミートアップを開催しました。当初は十数人の参加を予想していましたが、予想を大きく上回る参加者で会場は満員となり、コミュニティ発展の転機となりました。

その後、vLLMのコミュニティは急速に成長し、現在では50人を超える常時貢献者と2,000人以上のGitHub貢献者を擁し、最も成長著しいオープンソースプロジェクトの一つとなっています。Meta、Red Hat、NVIDIA、AMD、AWS、Googleなどからも支援を受けています。

多勢の勢力が競い合う:AIのオペレーティングシステムを目指して

vLLMの成功の一因は、モデル開発者、チップメーカー、アプリケーション開発者が共通のプラットフォームを持つことにあります。個々が異なるモデルやハードウェアに対して連携する必要なく、vLLM一つで最大の互換性を実現できるのです。

これにより、vLLMは「AIのオペレーティングシステム」構想を推進しています。すべてのモデルとハードウェアが、同一の汎用推論エンジン上で動作できる未来を目指しています。

推論がますます難しくなる?規模、ハードウェア、エージェント知能の三重圧力

現在の推論課題は絶えず進化しています。具体的には:

モデル規模の拡大:最初の百億パラメータから兆級モデル(例:Kim K2)へと進化し、推論に必要な計算資源も増大しています。

モデルとハードウェアの多様性:Transformerアーキテクチャは一貫していますが、内部の詳細はますます多様化し、sparse attentionやlinear attentionなどの変種が次々と登場しています。

エージェントシステムの台頭:モデルは単なる回答だけでなく、連続対話、外部ツール呼び出し、Pythonスクリプトの実行などに参加し、推論層は長時間の状態維持や非同期入力処理を求められ、技術的ハードルがさらに高まっています。

実戦投入:vLLMの大規模展開事例

vLLMは学術的なツールにとどまらず、Amazon、LinkedIn、Character AIなどの大規模プラットフォームで実際に稼働しています。例えば、Amazonのスマートアシスタント「Rufus」はvLLMによって駆動されており、購買検索の推論エンジンとして機能しています。

また、エンジニアが開発中の機能を数百GPUに直接展開した例もあり、その信頼性の高さが伺えます。

背後の企業:Inferactの役割とビジョン

vLLMのさらなる発展を推進するため、コア開発者たちはInferactを設立し、多方面から投資を受けています。一般的な商業企業とは異なり、Inferactはオープンソースを最優先とし、創業者の一人であるSimon Moは次のように述べています。「私たちの会社は、vLLMを世界標準の推論エンジンにするために存在します。」Inferactのビジネスモデルは、vLLMエコシステムの維持と拡張、企業向けの導入支援に焦点を当てており、商業とオープンソースの二軌道を並行しています。

また、ML基盤の経験を持つエンジニアを積極的に募集しており、大規模モデル推論や分散システム、ハードウェアアクセラレーションに長けた人材を求めています。技術的な挑戦と深いシステム最適化を追求する開発者にとって、次世代AI基盤の構築に参加できる絶好の機会です。

チームは、OSやデータベースのような「抽象層」を構築し、AIモデルが多様なハードウェアやアプリケーションシナリオでシームレスに動作できる未来を目指しています。

この記事は、「AI推論の汎用層を構築!vLLMオープンソースプロジェクトが世界の推論エンジンになる野望とは?」としてABMediaに最初に掲載されました。

原文表示
免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。
コメント
0/400
コメントなし