¡Construyendo una capa de inferencia general de IA! ¿Cómo el proyecto de código abierto vLLM se convierte en un plan ambicioso para ser el motor de inferencia global?

2026-01-23 08:14:24

Generación de resúmenes en curso

Con la rápida evolución de los modelos de IA, cómo realizar inferencias (Inference) de manera eficiente en estos grandes modelos se ha convertido en un tema clave en la industria. El proyecto de código abierto vLLM de UC Berkeley no solo enfrenta directamente este desafío técnico, sino que también está construyendo gradualmente su comunidad y ecosistema, e incluso ha dado lugar a una startup centrada en infraestructura de inferencia, Inferact. Este artículo te llevará a profundizar en los orígenes de vLLM, sus avances tecnológicos, el desarrollo de su comunidad de código abierto, y cómo Inferact busca crear una “plataforma universal de inferencia de IA”.\n\nDesde experimentos académicos hasta estrella en GitHub: el nacimiento de vLLM\n\nvLLM se originó inicialmente en un proyecto de investigación de doctorado en UC Berkeley, con el objetivo de resolver la baja eficiencia en la inferencia de modelos de lenguaje grandes (LLM). En ese momento, Meta había abierto el código del modelo OPT, y uno de los primeros contribuyentes de vLLM, Woosuk Kwon, intentó optimizar el servicio de demostración de ese modelo, descubriendo que detrás había un problema aún no resuelto en los sistemas de inferencia. “Pensamos que solo tomaría unas semanas, pero en realidad nos abrió un camino completamente nuevo en investigación y desarrollo”, recuerda Kwon.\n\nEl desafío desde abajo hacia arriba: ¿por qué la inferencia en LLM es diferente del ML tradicional?\n\nvLLM se enfoca en modelos de lenguaje autoregresivos, cuyo proceso de inferencia es dinámico, asincrónico y no puede ser procesado en lotes, muy diferente a los modelos tradicionales de imagen o voz. La entrada de estos modelos puede variar desde una sola frase hasta cientos de páginas de documentos, requiriendo una asignación precisa de memoria en GPU, y los pasos de cálculo (programación a nivel de token) y la gestión de memoria (manejo de caché KV) se vuelven especialmente complejos.\n\nUn avance tecnológico importante de vLLM es “Page Attention”, un diseño que ayuda al sistema a gestionar la memoria de manera más eficiente, enfrentando solicitudes variadas y salidas de secuencias largas.\n\nNo solo programando: el momento clave en que el proyecto salió de la universidad hacia la comunidad de código abierto\n\nEn 2023, el equipo de vLLM organizó su primera meetup de código abierto en Silicon Valley, inicialmente pensando que asistirían unas pocas personas, pero la inscripción superó ampliamente las expectativas y llenó el lugar, convirtiéndose en un punto de inflexión para el desarrollo de la comunidad.\n\nDesde entonces, la comunidad de vLLM ha crecido rápidamente, con más de 50 contribuyentes regulares y más de 2,000 contribuyentes en GitHub, siendo uno de los proyectos de código abierto de mayor crecimiento actualmente, con apoyo de Meta, Red Hat, NVIDIA, AMD, AWS, Google y otros.\n\nDiversas fuerzas en competencia: creando un “sistema operativo de IA”\n\nUna de las claves del éxito de vLLM es que ha creado una plataforma común para desarrolladores de modelos, fabricantes de chips y desarrolladores de aplicaciones, eliminando la necesidad de integraciones complejas, y permitiendo una compatibilidad máxima entre modelos y hardware simplemente conectándose a vLLM.\n\nEsto también significa que vLLM intenta construir una especie de “sistema operativo de IA”: hacer que todos los modelos y hardware puedan ejecutarse en un mismo motor de inferencia universal.\n\n¿La inferencia cada vez más difícil? La triple presión de escala, hardware e inteligencia proxy\n\nLos desafíos actuales en inferencia continúan escalando, incluyendo:\n\nIncremento en la escala del modelo: desde los primeros modelos de cientos de millones de parámetros hasta modelos de billones, como Kim K2, lo que también aumenta los recursos computacionales necesarios.\n\nDiversidad de modelos y hardware: aunque la arquitectura Transformer sigue siendo la base, los detalles internos divergen cada vez más, con variantes como sparse attention, linear attention, entre otras.\n\nAuge de sistemas de agentes (Agents): los modelos ya no solo responden una vez, sino que participan en diálogos continuos, llaman a herramientas externas, ejecutan scripts en Python, etc., requiriendo mantener estado durante largos períodos y manejar entradas asincrónicas, elevando aún más la barrera técnica.\n\nCasos de implementación en producción: vLLM en despliegues a gran escala\n\nvLLM no es solo un juguete académico; ya está en plataformas grandes como Amazon, LinkedIn, Character AI, entre otras. Por ejemplo, el asistente inteligente de Amazon, “Rufus”, está impulsado por vLLM, siendo el motor de inferencia detrás de las búsquedas de compras.\n\nIncluso, algunos ingenieros han desplegado funciones de vLLM en cientos de GPU en etapas de desarrollo, demostrando la alta confianza en la comunidad.\n\nLa empresa detrás de vLLM: el papel y visión de Inferact\n\nPara impulsar el desarrollo de vLLM, los desarrolladores principales fundaron Inferact, que ha recibido apoyo de múltiples inversores. A diferencia de una empresa comercial convencional, Inferact prioriza el código abierto. Uno de sus fundadores, Simon Mo, afirma: “Nuestra misión es hacer que vLLM sea el estándar global de inferencia”. El modelo de negocio de Inferact se centra en mantener y expandir el ecosistema de vLLM, ofreciendo despliegues empresariales y soporte, combinando así el sector comercial y el código abierto.\n\nInferact busca reclutar ingenieros con experiencia en infraestructura de ML, especialmente en inferencia de modelos grandes, sistemas distribuidos y aceleración de hardware. Para desarrolladores que buscan desafíos técnicos y optimización profunda de sistemas, esta es una oportunidad para participar en la próxima generación de infraestructura de IA.\n\nEl equipo aspira a crear una “capa de abstracción” similar a un sistema operativo o base de datos, que permita que los modelos de IA funcionen sin problemas en hardware y escenarios de aplicación diversos.\n\n¿Quieres saber más? ¡Sigue leyendo para descubrir cómo vLLM busca convertirse en el motor de inferencia universal de IA y su ambición de ser un estándar global en esta tecnología! Este artículo fue originalmente publicado en ABMedia.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.