Avec l’évolution rapide des modèles d’IA, la question de l’inférence efficace de ces grands modèles devient un enjeu clé incontournable dans l’industrie. Le projet open source vLLM, issu de UC Berkeley, non seulement relève ce défi technologique, mais construit également progressivement sa communauté et son écosystème, voire engendre une startup axée sur l’infrastructure d’inférence, Inferact. Cet article vous plongera dans l’origine de vLLM, ses avancées technologiques, le développement de sa communauté open source, et comment Inferact souhaite créer un « moteur universel d’inférence IA ».
De l’expérimentation académique à la star de GitHub : la naissance de vLLM
vLLM trouve ses racines dans un projet de recherche de doctorat à UC Berkeley, visant à résoudre le problème de faible efficacité d’inférence des grands modèles de langage (LLM). À l’époque, Meta a open source le modèle OPT, et l’un des premiers contributeurs de vLLM, Woosuk Kwon, tentait d’optimiser le service de démonstration de ce modèle, découvrant ainsi un problème systémique d’inférence encore non résolu. « Nous pensions pouvoir le faire en quelques semaines, mais cela a ouvert une toute nouvelle voie de recherche et de développement », se remémore Kwon.
Un défi de bas en haut : pourquoi l’inférence LLM diffère-t-elle de l’apprentissage automatique traditionnel ?
vLLM cible les modèles de langage autoregressifs, dont le processus d’inférence est dynamique, asynchrone et impossible à batcher, ce qui diffère grandement des modèles d’images ou de voix traditionnels. La longueur d’entrée de ces modèles peut varier d’une phrase à plusieurs centaines de pages, nécessitant une gestion précise de la mémoire GPU, tandis que les étapes de calcul (planification au niveau des tokens) et la gestion du cache KV deviennent particulièrement complexes.
Une avancée technologique majeure de vLLM est le « Page Attention », une conception qui aide le système à gérer la mémoire plus efficacement face à des requêtes variées et des sorties longues.
Plus qu’une programmation : du campus à la communauté open source, un moment clé
En 2023, l’équipe vLLM a organisé pour la première fois un meetup open source à Silicon Valley, initialement prévu pour une dizaine de participants. Le nombre d’inscriptions a largement dépassé les attentes, saturant la salle, marquant un tournant dans le développement de la communauté.
Depuis, la communauté vLLM connaît une croissance rapide, comptant aujourd’hui plus de 50 contributeurs réguliers et plus de 2 000 contributeurs sur GitHub, faisant de ce projet l’un des plus rapidement croissants dans l’open source, soutenu par Meta, Red Hat, NVIDIA, AMD, AWS, Google, et d’autres.
Une compétition entre plusieurs forces : construire un « système d’exploitation IA »
L’une des clés du succès de vLLM réside dans sa capacité à offrir une plateforme commune pour les développeurs de modèles, les fabricants de puces et les développeurs d’applications, évitant ainsi des intégrations complexes. En se connectant simplement à vLLM, ils peuvent maximiser la compatibilité entre modèles et matériel.
Cela implique également que vLLM tente de créer une « plateforme d’exploitation IA » : faire fonctionner tous les modèles et tout le matériel sur un même moteur d’inférence universel.
L’inférence devient-elle de plus en plus difficile ? La triple pression de la taille, du matériel et de l’intelligence agent
Les défis d’inférence s’intensifient aujourd’hui, notamment :
Passage à la pratique : cas d’utilisation de vLLM en déploiement massif
vLLM n’est pas seulement un outil académique ; il est déjà déployé sur de grandes plateformes comme Amazon, LinkedIn, Character AI. Par exemple, l’assistant intelligent d’Amazon, « Rufus », est alimenté par vLLM, servant de moteur d’inférence derrière la recherche d’achats.
Certains ingénieurs ont même déployé une fonctionnalité de vLLM en phase de développement sur plusieurs centaines de GPU, témoignant de la confiance de la communauté dans le projet.
L’entreprise derrière vLLM : le rôle et la vision d’Inferact
Pour favoriser le développement de vLLM, les principaux développeurs ont créé Inferact, bénéficiant de plusieurs investissements. Contrairement à une entreprise commerciale classique, Inferact considère l’open source comme sa priorité. Simon Mo, l’un des fondateurs, déclare : « Notre entreprise existe pour faire de vLLM le standard mondial d’inférence. » Le modèle commercial d’Inferact repose sur la maintenance et l’expansion de l’écosystème vLLM, tout en proposant des déploiements et un support d’entreprise, combinant ainsi open source et activité commerciale.
Inferact recrute activement des ingénieurs ayant une expérience en infrastructure ML, notamment spécialisés dans l’inférence de grands modèles, les systèmes distribués et l’accélération matérielle. Pour les développeurs cherchant des défis techniques et une optimisation systémique approfondie, c’est une opportunité de participer à la prochaine génération d’infrastructure IA.
L’équipe vise à créer une « couche d’abstraction » semblable à un OS ou une base de données, permettant aux modèles IA de fonctionner sans couture sur une variété de matériels et de scénarios d’application.
Cet article a pour but de bâtir une couche d’inférence IA universelle ! Comment le projet open source vLLM peut-il devenir le moteur d’inférence mondial ? Publié initialement sur Chain News ABMedia.