Créer une couche d'inférence universelle AI ! Comment le projet open source vLLM peut-il devenir le plan ambitieux du moteur d'inférence mondial ?

ChainNewsAbmedia

Avec l’évolution rapide des modèles d’IA, la question de l’inférence efficace de ces grands modèles devient un enjeu clé incontournable dans l’industrie. Le projet open source vLLM, issu de UC Berkeley, non seulement relève ce défi technologique, mais construit également progressivement sa communauté et son écosystème, voire engendre une startup axée sur l’infrastructure d’inférence, Inferact. Cet article vous plongera dans l’origine de vLLM, ses avancées technologiques, le développement de sa communauté open source, et comment Inferact souhaite créer un « moteur universel d’inférence IA ».

De l’expérimentation académique à la star de GitHub : la naissance de vLLM

vLLM trouve ses racines dans un projet de recherche de doctorat à UC Berkeley, visant à résoudre le problème de faible efficacité d’inférence des grands modèles de langage (LLM). À l’époque, Meta a open source le modèle OPT, et l’un des premiers contributeurs de vLLM, Woosuk Kwon, tentait d’optimiser le service de démonstration de ce modèle, découvrant ainsi un problème systémique d’inférence encore non résolu. « Nous pensions pouvoir le faire en quelques semaines, mais cela a ouvert une toute nouvelle voie de recherche et de développement », se remémore Kwon.

Un défi de bas en haut : pourquoi l’inférence LLM diffère-t-elle de l’apprentissage automatique traditionnel ?

vLLM cible les modèles de langage autoregressifs, dont le processus d’inférence est dynamique, asynchrone et impossible à batcher, ce qui diffère grandement des modèles d’images ou de voix traditionnels. La longueur d’entrée de ces modèles peut varier d’une phrase à plusieurs centaines de pages, nécessitant une gestion précise de la mémoire GPU, tandis que les étapes de calcul (planification au niveau des tokens) et la gestion du cache KV deviennent particulièrement complexes.

Une avancée technologique majeure de vLLM est le « Page Attention », une conception qui aide le système à gérer la mémoire plus efficacement face à des requêtes variées et des sorties longues.

Plus qu’une programmation : du campus à la communauté open source, un moment clé

En 2023, l’équipe vLLM a organisé pour la première fois un meetup open source à Silicon Valley, initialement prévu pour une dizaine de participants. Le nombre d’inscriptions a largement dépassé les attentes, saturant la salle, marquant un tournant dans le développement de la communauté.

Depuis, la communauté vLLM connaît une croissance rapide, comptant aujourd’hui plus de 50 contributeurs réguliers et plus de 2 000 contributeurs sur GitHub, faisant de ce projet l’un des plus rapidement croissants dans l’open source, soutenu par Meta, Red Hat, NVIDIA, AMD, AWS, Google, et d’autres.

Une compétition entre plusieurs forces : construire un « système d’exploitation IA »

L’une des clés du succès de vLLM réside dans sa capacité à offrir une plateforme commune pour les développeurs de modèles, les fabricants de puces et les développeurs d’applications, évitant ainsi des intégrations complexes. En se connectant simplement à vLLM, ils peuvent maximiser la compatibilité entre modèles et matériel.

Cela implique également que vLLM tente de créer une « plateforme d’exploitation IA » : faire fonctionner tous les modèles et tout le matériel sur un même moteur d’inférence universel.

L’inférence devient-elle de plus en plus difficile ? La triple pression de la taille, du matériel et de l’intelligence agent

Les défis d’inférence s’intensifient aujourd’hui, notamment :

  • Explosion de la taille des modèles : passant de centaines de millions à des modèles de plusieurs trillions de paramètres, comme Kim K2, nécessitant des ressources de calcul toujours plus importantes.
  • Diversité des modèles et du matériel : bien que l’architecture Transformer soit standard, ses détails internes divergent de plus en plus, avec des variantes comme sparse attention, linear attention, etc.
  • Émergence des agents (Agents) : les modèles ne se limitent plus à répondre à une seule question, mais participent à des dialogues continus, appellent des outils externes, exécutent des scripts Python, etc. La couche d’inférence doit maintenir un état sur le long terme et gérer des entrées asynchrones, augmentant encore la complexité technique.

Passage à la pratique : cas d’utilisation de vLLM en déploiement massif

vLLM n’est pas seulement un outil académique ; il est déjà déployé sur de grandes plateformes comme Amazon, LinkedIn, Character AI. Par exemple, l’assistant intelligent d’Amazon, « Rufus », est alimenté par vLLM, servant de moteur d’inférence derrière la recherche d’achats.

Certains ingénieurs ont même déployé une fonctionnalité de vLLM en phase de développement sur plusieurs centaines de GPU, témoignant de la confiance de la communauté dans le projet.

L’entreprise derrière vLLM : le rôle et la vision d’Inferact

Pour favoriser le développement de vLLM, les principaux développeurs ont créé Inferact, bénéficiant de plusieurs investissements. Contrairement à une entreprise commerciale classique, Inferact considère l’open source comme sa priorité. Simon Mo, l’un des fondateurs, déclare : « Notre entreprise existe pour faire de vLLM le standard mondial d’inférence. » Le modèle commercial d’Inferact repose sur la maintenance et l’expansion de l’écosystème vLLM, tout en proposant des déploiements et un support d’entreprise, combinant ainsi open source et activité commerciale.

Inferact recrute activement des ingénieurs ayant une expérience en infrastructure ML, notamment spécialisés dans l’inférence de grands modèles, les systèmes distribués et l’accélération matérielle. Pour les développeurs cherchant des défis techniques et une optimisation systémique approfondie, c’est une opportunité de participer à la prochaine génération d’infrastructure IA.

L’équipe vise à créer une « couche d’abstraction » semblable à un OS ou une base de données, permettant aux modèles IA de fonctionner sans couture sur une variété de matériels et de scénarios d’application.

Cet article a pour but de bâtir une couche d’inférence IA universelle ! Comment le projet open source vLLM peut-il devenir le moteur d’inférence mondial ? Publié initialement sur Chain News ABMedia.

Voir l'original
Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.
Commentaire
0/400
Aucun commentaire