À medida que os modelos de IA evoluem rapidamente, a questão de como realizar inferências (Inference) de forma eficiente nesses grandes modelos torna-se uma prioridade fundamental na indústria. O projeto de código aberto vLLM, da UC Berkeley, não só enfrenta esse desafio técnico de frente, como também constrói gradualmente sua comunidade e ecossistema, chegando a impulsionar a criação de uma startup focada na infraestrutura de inferência, a Inferact. Este artigo irá aprofundar as origens do vLLM, seus avanços tecnológicos, o desenvolvimento da comunidade open source e como a Inferact pretende criar uma “motor de inferência de IA universal”.\n\nDesde experimentos acadêmicos até destaque no GitHub: o nascimento do vLLM\n\nO vLLM teve origem em um projeto de pesquisa de doutorado na UC Berkeley, com o objetivo de resolver a baixa eficiência de inferência em grandes modelos de linguagem (LLMs). Na época, a Meta open-sourou o modelo OPT, e um dos primeiros contribuidores do vLLM, Woosuk Kwon, tentou otimizar o serviço de demonstração desse modelo, descobrindo que por trás disso havia um problema ainda não resolvido na sistema de inferência. “Achávamos que levaria apenas algumas semanas para concluir, mas isso abriu um novo caminho de pesquisa e desenvolvimento,” lembra Kwon.\n\nDesafios de baixo para cima: por que a inferência de LLMs difere do ML tradicional?\n\nO vLLM foca em modelos de linguagem autoregressivos, cujo processo de inferência é dinâmico, assíncrono e não pode ser processado em lotes, diferindo bastante de modelos tradicionais de imagem ou áudio. A entrada desses modelos pode variar de uma frase a centenas de páginas de documentos, exigindo uma alocação precisa de memória GPU, além de tornar os passos de cálculo (agendamento a nível de token) e o gerenciamento de memória (manuseio de cache KV) particularmente complexos.\n\nUm avanço técnico importante do vLLM foi a introdução do “Page Attention”, um design que ajuda o sistema a gerenciar a memória de forma mais eficiente, lidando com solicitações variadas e saídas de sequências longas.\n\nMais do que programar: do campus à comunidade open source em um momento decisivo\n\nEm 2023, a equipe do vLLM organizou seu primeiro meetup de código aberto no Vale do Silício, inicialmente esperando apenas uma dezena de participantes. Surpreendentemente, o número de inscrições superou as expectativas, lotando o local, marcando um ponto de virada no desenvolvimento da comunidade.\n\nDesde então, a comunidade do vLLM cresceu rapidamente, com mais de 50 contribuidores regulares e mais de 2.000 contribuidores no GitHub, tornando-se um dos projetos open source de crescimento mais rápido atualmente, recebendo apoio de empresas como Meta, Red Hat, NVIDIA, AMD, AWS, Google, entre outras.\n\nMúltiplos atores em ação: construindo um “sistema operacional de IA”\n\nUm dos fatores-chave do sucesso do vLLM é que ele criou uma plataforma comum para desenvolvedores de modelos, fabricantes de chips e desenvolvedores de aplicações, eliminando a necessidade de integração entre eles. Basta conectar-se ao vLLM para alcançar a máxima compatibilidade entre modelos e hardware.\n\nIsso também significa que o vLLM está tentando criar uma espécie de “sistema operacional de IA”: um motor de inferência universal onde todos os modelos e hardware possam rodar.\n\nInferência cada vez mais desafiadora? Escala, hardware e inteligência agente sob pressão tripla\n\nOs desafios atuais de inferência continuam a aumentar, incluindo:\n\nExpansão do tamanho do modelo: de centenas de milhões de parâmetros inicialmente, para modelos de trilhões de parâmetros hoje, como o Kim K2, o que eleva os recursos computacionais necessários.\n\nDiversidade de modelos e hardware: embora a arquitetura Transformer seja comum, detalhes internos divergem cada vez mais, com variantes como atenção esparsa, atenção linear, entre outras.\n\nAscensão de sistemas agentes: os modelos não respondem mais apenas a uma rodada, mas participam de diálogos contínuos, chamam ferramentas externas, executam scripts Python, etc. A camada de inferência precisa manter estado por longos períodos, lidar com entradas assíncronas, elevando ainda mais a barreira técnica.\n\nCasos de implantação em grande escala: o vLLM em ação\n\nO vLLM não é apenas uma ferramenta acadêmica; já está em uso em plataformas como Amazon, LinkedIn, Character AI, entre outras. Por exemplo, o assistente inteligente da Amazon, “Rufus”, é alimentado pelo vLLM, funcionando como o motor de inferência por trás das buscas de compras.\n\nAlguns engenheiros já implantaram funcionalidades do vLLM em centenas de GPUs durante a fase de desenvolvimento, demonstrando a alta confiança da comunidade na tecnologia.\n\nA empresa por trás do vLLM: o papel e a visão da Inferact\n\nPara impulsionar o desenvolvimento do vLLM, os principais desenvolvedores fundaram a Inferact, que recebeu investimentos de várias fontes. Diferente de uma empresa comercial comum, a Inferact vê a open source como prioridade. Um dos fundadores, Simon Mo, afirmou: “Nossa missão é fazer do vLLM o padrão global de motor de inferência.” O modelo de negócios da Inferact gira em torno de manter e expandir o ecossistema do vLLM, oferecendo também implantação e suporte corporativo, criando uma via dupla de negócios e open source.\n\nA Inferact está recrutando ativamente engenheiros com experiência em infraestrutura de ML, especialmente aqueles especializados em inferência de grandes modelos, sistemas distribuídos e aceleração de hardware. Para desenvolvedores que buscam desafios técnicos e otimizações profundas de sistemas, essa é uma oportunidade de participar da próxima geração de infraestrutura de IA.\n\nA equipe busca criar uma “camada de abstração” semelhante a um sistema operacional ou banco de dados, permitindo que modelos de IA operem de forma transparente em hardware e cenários de aplicação diversos.\n\nEste artigo apresenta a iniciativa de criar uma camada universal de inferência de IA! Como o projeto open source vLLM pode se tornar uma ambiciosa plataforma global de inferência? Publicado originalmente na 链新闻 ABMedia.