Создание универсального слоя для ИИ! Как проект с открытым исходным кодом vLLM становится амбициозным планом по созданию глобального движка для выводов?

ChainNewsAbmedia

2026-01-23 08:14:24

随着 AI 模型的快速演进，如何高效推论（Inference）这些大型模型，成为业界绕不开的关键课题。来自 UC Berkeley 的开源项目 vLLM 不仅正面迎战这个技术挑战，更逐步建立起自己的社区与生态系统，甚至催生出专注于推论基础设施的创业公司 Inferact。本文将带你深入 vLLM 的起源、技术突破、开源社区发展，以及 Inferact 如何想要打造「AI 推论的通用引擎」。\n\n从学术实验到 GitHub 明星项目：vLLM 的诞生\n\nvLLM 最初源于 UC Berkeley 的一项博士班研究计划，旨在解决大型语言模型（LLM）推论效率低落的问题。当时，Meta 开源了 OPT 模型，vLLM 的早期贡献者之一的 Woosuk Kwon 则试图优化该模型的 Demo 服务，进而发现这背后是一个尚未解决的推论系统难题。「我们以为只要几周就能完成，结果却开启了一条全新的研究与开发之路。」Kwon 回忆表示。\n\n由下而上的挑战：为什么 LLM 推论与传统 ML 不同？\n\nvLLM 针对的是自回归式（auto-regressive）语言模型，其推论过程动态、非同步、无法批次化处理，与传统影像或语音模型大不相同。这类模型的输入长度可从一句话到数百页文档不等，GPU 内存使用需精准调配，而计算步骤（token-level scheduling）与内存管理（KV cache handling）也变得格外复杂。\n\nvLLM 的一项重要技术突破就是「Page Attention」，这个设计帮助系统更有效地管理内存，应对多样化的请求与长序列输出。\n\n不只是写程序：从校园走向开源社区的关键时刻\n\nvLLM 团队于 2023 年在硅谷举办第一次开源 meetup，原以为只会有十几人参加，结果报名人数远超预期、挤爆会场，成为社区发展的转折点。\n\n此后，vLLM 社区成长迅速，如今已有超过 50 位常态贡献者，并累计 2,000 多名 GitHub 贡献者，是当今成长最快的开源项目之一，获得 Meta、Red Hat、NVIDIA、AMD、AWS、Google 等多方支持。\n\n多方势力同场竞技：打造「AI 的操作系统」\n\nvLLM 的成功关键之一在于，它为模型开发者、芯片厂商与应用开发者建立了一个共通平台，不必彼此对接，只需对接 vLLM 一套，就能实现模型与硬件的最大兼容性。\n\n这也意味着，vLLM 正试图打造一种「AI 的操作系统」：让所有模型、所有硬件都能跑在同一个通用推论引擎上。\n\n推论越来越难？规模、硬件与代理智能的三重压力\n\n如今的推论挑战不断升级，包括：\n\n模型规模暴增：从最初的百亿参数到今日的兆级模型，如 Kim K2，推论所需的运算资源也水涨船高。\n\n模型与硬件多样性：Transformer 架构虽然一致，但内部细节越来越分歧，如 sparse attention、linear attention 等变种层出不穷。\n\n代理系统（Agents）兴起：模型不再只是回答一轮，而是参与连续对话、调用外部工具、执行 Python 脚本等，推论层需长时间维持状态、处理非同步输入，进一步拉高技术门槛。\n\n进入实战：vLLM 被大规模部署的案例\n\nvLLM 不只是学术玩具，它已在 Amazon、LinkedIn、Character AI 等大型平台中上线。例如 Amazon 的智能助理「Rufus」就由 vLLM 驱动，成为购物搜索背后的推论引擎。\n\n甚至有工程师在 vLLM 的一项功能还在开发阶段就直接部署至数百张 GPU 上，可见其在社区中的信任度之高。\n\nvLLM 背后的公司：Inferact 的角色与愿景\n\n为了推动 vLLM 的进一步发展，核心开发者们创办了 Inferact，并获得多方投资支持。与一般商业公司不同，Inferact 将开源视为首要任务，创始人之一 Simon Mo 表示：「我们的公司存在，是为了让 vLLM 成为全球的标准推论引擎。」Inferact 的商业模式围绕在维护与扩展 vLLM 生态系统，同时提供企业级部署与支持，形成商业与开源的双轨并行。\n\nInferact 正积极招募拥有 ML 基础设施经验的工程师，特别是擅长大型模型推论、分布式系统与硬件加速领域的人才。对于追求技术挑战与深度系统优化的开发者而言，这也是一个参与下一代 AI 基础设施的机会。\n\n团队期望打造的是类似 OS 或数据库那样的「抽象层」，让 AI 模型能无缝运行于多样化硬件与应用场景中。\n\n这篇文章打造 AI 通用推论层！vLLM 开源项目如何成为全球推论引擎的野心计划？最早出现在链新闻 ABMedia。

Посмотреть Оригинал

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

комментарий

0/400

Нет комментариев