Với sự tiến bộ nhanh chóng của các mô hình AI, làm thế nào để thực hiện suy luận (Inference) hiệu quả cho các mô hình lớn này trở thành một vấn đề then chốt không thể bỏ qua trong ngành công nghiệp. Dự án mã nguồn mở vLLM đến từ UC Berkeley không chỉ đối mặt trực diện với thách thức công nghệ này mà còn từng bước xây dựng cộng đồng và hệ sinh thái của riêng mình, thậm chí đã thúc đẩy sự ra đời của công ty khởi nghiệp tập trung vào hạ tầng suy luận mới là Inferact. Bài viết này sẽ đưa bạn đi sâu vào nguồn gốc của vLLM, đột phá công nghệ, sự phát triển của cộng đồng mã nguồn mở, và cách Inferact muốn tạo ra “động cơ suy luận AI phổ quát”.\n\nTừ thí nghiệm học thuật đến dự án nổi bật trên GitHub: Sự ra đời của vLLM\n\nBan đầu, vLLM xuất phát từ một dự án nghiên cứu của tiến sĩ tại UC Berkeley, nhằm giải quyết vấn đề hiệu quả suy luận của các mô hình ngôn ngữ lớn (LLM). Thời điểm đó, Meta đã mở mã mô hình OPT, và một trong những người đóng góp ban đầu của vLLM là Woosuk Kwon đã cố gắng tối ưu dịch vụ Demo của mô hình này, từ đó phát hiện ra một vấn đề hệ thống suy luận chưa được giải quyết. “Chúng tôi nghĩ chỉ mất vài tuần để hoàn thành, nhưng kết quả lại mở ra một con đường nghiên cứu và phát triển hoàn toàn mới.” Kwon nhớ lại.\n\nThách thức từ dưới lên: Tại sao suy luận LLM khác biệt so với ML truyền thống?\n\nvLLM tập trung vào mô hình ngôn ngữ tự hồi quy (auto-regressive), quá trình suy luận của nó động, không đồng bộ, không thể xử lý theo lô, khác hoàn toàn so với các mô hình hình ảnh hoặc âm thanh truyền thống. Đầu vào của loại mô hình này có thể dài từ một câu đến hàng trăm trang tài liệu, việc sử dụng bộ nhớ GPU cần được phân bổ chính xác, và các bước tính toán (lập lịch token) cùng quản lý bộ nhớ (xử lý bộ đệm KV) cũng trở nên phức tạp hơn nhiều.\n\nMột đột phá công nghệ quan trọng của vLLM là “Page Attention”, thiết kế này giúp hệ thống quản lý bộ nhớ hiệu quả hơn, đối phó với các yêu cầu đa dạng và đầu ra chuỗi dài.\n\nKhông chỉ viết mã: Từ trường học đến cộng đồng mã nguồn mở trong thời khắc then chốt\n\nĐội ngũ vLLM đã tổ chức meetup mã nguồn mở lần đầu tiên tại Thung lũng Silicon vào năm 2023, ban đầu nghĩ rằng chỉ có khoảng mười mấy người tham gia, kết quả số lượng đăng ký vượt xa mong đợi, làm chật kín hội trường, trở thành bước ngoặt trong sự phát triển cộng đồng.\n\nSau đó, cộng đồng vLLM phát triển nhanh chóng, hiện có hơn 50 người đóng góp thường xuyên, và hơn 2.000 người đóng góp trên GitHub, trở thành một trong những dự án mã nguồn mở phát triển nhanh nhất ngày nay, nhận được sự hỗ trợ từ Meta, Red Hat, NVIDIA, AMD, AWS, Google và nhiều bên khác.\n\nĐấu trường nhiều thế lực: Xây dựng “Hệ điều hành AI”\n\nMột trong những chìa khóa thành công của vLLM là nó đã tạo ra một nền tảng chung cho các nhà phát triển mô hình, nhà sản xuất chip và nhà phát triển ứng dụng, không cần phải tích hợp lẫn nhau, chỉ cần kết nối với vLLM, có thể đạt được khả năng tương thích tối đa giữa mô hình và phần cứng.\n\nĐiều này cũng có nghĩa là vLLM đang cố gắng xây dựng một “hệ điều hành AI”: cho phép tất cả các mô hình và phần cứng đều chạy trên cùng một động cơ suy luận chung.\n\nSuy luận ngày càng khó khăn? Áp lực từ quy mô, phần cứng và trí tuệ đại diện ba chiều\n\nThách thức suy luận ngày nay liên tục nâng cao, bao gồm:\n\nQuy mô mô hình tăng vọt: từ vài tỷ tham số ban đầu đến các mô hình tỷ tham số ngày nay, như Kim K2, đòi hỏi tài nguyên tính toán cũng tăng theo.\n\nĐa dạng mô hình và phần cứng: Mặc dù kiến trúc Transformer vẫn giữ nguyên, nhưng các chi tiết bên trong ngày càng phân hóa, như sparse attention, linear attention và các biến thể khác liên tục xuất hiện.\n\nHệ thống đại lý (Agents) nổi lên: Mô hình không còn chỉ trả lời một vòng, mà tham gia vào các cuộc đối thoại liên tục, gọi các công cụ bên ngoài, thực thi script Python, v.v., đòi hỏi tầng suy luận phải duy trì trạng thái trong thời gian dài, xử lý đầu vào không đồng bộ, nâng cao rào cản kỹ thuật.\n\nVào thực chiến: Các trường hợp vLLM được triển khai quy mô lớn\n\nvLLM không chỉ là đồ chơi học thuật, nó đã được đưa vào hoạt động trên các nền tảng lớn như Amazon, LinkedIn, Character AI. Ví dụ, trợ lý thông minh của Amazon “Rufus” được vận hành bởi vLLM, trở thành động cơ suy luận đằng sau việc tìm kiếm mua sắm.\n\nThậm chí, có kỹ sư đã triển khai trực tiếp một tính năng của vLLM trên hàng trăm GPU khi tính năng này còn đang trong giai đoạn phát triển, cho thấy độ tin cậy cao trong cộng đồng.\n\nVai trò và tầm nhìn của công ty đằng sau vLLM: Inferact\n\nĐể thúc đẩy sự phát triển của vLLM, các nhà phát triển cốt lõi đã thành lập Inferact, nhận được nhiều khoản đầu tư hỗ trợ. Khác với các công ty thương mại thông thường, Inferact xem mã nguồn mở là nhiệm vụ hàng đầu, một trong những sáng lập viên, Simon Mo, cho biết: “Chúng tôi tồn tại để biến vLLM thành tiêu chuẩn suy luận toàn cầu.” Mô hình kinh doanh của Inferact xoay quanh việc duy trì và mở rộng hệ sinh thái vLLM, đồng thời cung cấp triển khai và hỗ trợ doanh nghiệp, tạo ra một mô hình song song giữa thương mại và mã nguồn mở.\n\nInferact đang tích cực tuyển dụng các kỹ sư có kinh nghiệm về hạ tầng ML, đặc biệt là những người thành thạo trong suy luận mô hình lớn, hệ thống phân tán và tăng tốc phần cứng. Đối với các nhà phát triển mong muốn thử thách kỹ thuật và tối ưu hệ thống sâu, đây là cơ hội tham gia vào hạ tầng AI thế hệ tiếp theo.\n\nNhóm hy vọng xây dựng một “lớp trừu tượng” giống như hệ điều hành hoặc cơ sở dữ liệu, để mô hình AI có thể vận hành liền mạch trên nhiều phần cứng và bối cảnh ứng dụng khác nhau.\n\nBài viết này tạo ra lớp suy luận AI chung! Dự án mã nguồn mở vLLM làm thế nào trở thành kế hoạch tham vọng trở thành động cơ suy luận toàn cầu? Bài viết ban đầu xuất hiện trên ABMedia.