Создание универсального слоя для ИИ! Как проект с открытым исходным кодом vLLM становится амбициозным планом по созданию глобального движка для выводов?

ChainNewsAbmedia

随着 AI 模型的快速演进,如何高效推论(Inference)这些大型模型,成为业界绕不开的关键课题。来自 UC Berkeley 的开源项目 vLLM 不仅正面迎战这个技术挑战,更逐步建立起自己的社区与生态系统,甚至催生出专注于推论基础设施的创业公司 Inferact。本文将带你深入 vLLM 的起源、技术突破、开源社区发展,以及 Inferact 如何想要打造「AI 推论的通用引擎」。\n\n从学术实验到 GitHub 明星项目:vLLM 的诞生\n\nvLLM 最初源于 UC Berkeley 的一项博士班研究计划,旨在解决大型语言模型(LLM)推论效率低落的问题。当时,Meta 开源了 OPT 模型,vLLM 的早期贡献者之一的 Woosuk Kwon 则试图优化该模型的 Demo 服务,进而发现这背后是一个尚未解决的推论系统难题。「我们以为只要几周就能完成,结果却开启了一条全新的研究与开发之路。」Kwon 回忆表示。\n\n由下而上的挑战:为什么 LLM 推论与传统 ML 不同?\n\nvLLM 针对的是自回归式(auto-regressive)语言模型,其推论过程动态、非同步、无法批次化处理,与传统影像或语音模型大不相同。这类模型的输入长度可从一句话到数百页文档不等,GPU 内存使用需精准调配,而计算步骤(token-level scheduling)与内存管理(KV cache handling)也变得格外复杂。\n\nvLLM 的一项重要技术突破就是「Page Attention」,这个设计帮助系统更有效地管理内存,应对多样化的请求与长序列输出。\n\n不只是写程序:从校园走向开源社区的关键时刻\n\nvLLM 团队于 2023 年在硅谷举办第一次开源 meetup,原以为只会有十几人参加,结果报名人数远超预期、挤爆会场,成为社区发展的转折点。\n\n此后,vLLM 社区成长迅速,如今已有超过 50 位常态贡献者,并累计 2,000 多名 GitHub 贡献者,是当今成长最快的开源项目之一,获得 Meta、Red Hat、NVIDIA、AMD、AWS、Google 等多方支持。\n\n多方势力同场竞技:打造「AI 的操作系统」\n\nvLLM 的成功关键之一在于,它为模型开发者、芯片厂商与应用开发者建立了一个共通平台,不必彼此对接,只需对接 vLLM 一套,就能实现模型与硬件的最大兼容性。\n\n这也意味着,vLLM 正试图打造一种「AI 的操作系统」:让所有模型、所有硬件都能跑在同一个通用推论引擎上。\n\n推论越来越难?规模、硬件与代理智能的三重压力\n\n如今的推论挑战不断升级,包括:\n\n模型规模暴增:从最初的百亿参数到今日的兆级模型,如 Kim K2,推论所需的运算资源也水涨船高。\n\n模型与硬件多样性:Transformer 架构虽然一致,但内部细节越来越分歧,如 sparse attention、linear attention 等变种层出不穷。\n\n代理系统(Agents)兴起:模型不再只是回答一轮,而是参与连续对话、调用外部工具、执行 Python 脚本等,推论层需长时间维持状态、处理非同步输入,进一步拉高技术门槛。\n\n进入实战:vLLM 被大规模部署的案例\n\nvLLM 不只是学术玩具,它已在 Amazon、LinkedIn、Character AI 等大型平台中上线。例如 Amazon 的智能助理「Rufus」就由 vLLM 驱动,成为购物搜索背后的推论引擎。\n\n甚至有工程师在 vLLM 的一项功能还在开发阶段就直接部署至数百张 GPU 上,可见其在社区中的信任度之高。\n\nvLLM 背后的公司:Inferact 的角色与愿景\n\n为了推动 vLLM 的进一步发展,核心开发者们创办了 Inferact,并获得多方投资支持。与一般商业公司不同,Inferact 将开源视为首要任务,创始人之一 Simon Mo 表示:「我们的公司存在,是为了让 vLLM 成为全球的标准推论引擎。」Inferact 的商业模式围绕在维护与扩展 vLLM 生态系统,同时提供企业级部署与支持,形成商业与开源的双轨并行。\n\nInferact 正积极招募拥有 ML 基础设施经验的工程师,特别是擅长大型模型推论、分布式系统与硬件加速领域的人才。对于追求技术挑战与深度系统优化的开发者而言,这也是一个参与下一代 AI 基础设施的机会。\n\n团队期望打造的是类似 OS 或数据库那样的「抽象层」,让 AI 模型能无缝运行于多样化硬件与应用场景中。\n\n这篇文章 打造 AI 通用推论层!vLLM 开源项目如何成为全球推论引擎的野心计划? 最早出现在 链新闻 ABMedia。

Посмотреть Оригинал
Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.
комментарий
0/400
Нет комментариев