Seiring dengan perkembangan pesat model AI, bagaimana melakukan inferensi (Inference) secara efisien terhadap model besar ini menjadi tantangan utama yang tidak bisa diabaikan oleh industri. Proyek sumber terbuka dari UC Berkeley, vLLM, tidak hanya secara positif menghadapi tantangan teknologi ini, tetapi juga secara bertahap membangun komunitas dan ekosistemnya sendiri, bahkan melahirkan perusahaan startup baru yang fokus pada infrastruktur inferensi, Inferact. Artikel ini akan membawa Anda menyelami asal-usul vLLM, terobosan teknologi, perkembangan komunitas sumber terbuka, serta bagaimana Inferact berencana menciptakan “mesin inferensi AI yang universal”.\n\nDari eksperimen akademik hingga proyek bintang di GitHub: kelahiran vLLM\n\nvLLM awalnya berasal dari sebuah proyek penelitian doktoral di UC Berkeley, bertujuan mengatasi rendahnya efisiensi inferensi pada model bahasa besar (LLM). Saat itu, Meta merilis OPT sebagai sumber terbuka, dan salah satu kontributor awal vLLM, Woosuk Kwon, mencoba mengoptimalkan layanan Demo model tersebut, dan menemukan bahwa di baliknya terdapat masalah sistem inferensi yang belum terselesaikan. “Kami pikir hanya butuh beberapa minggu untuk menyelesaikannya, tetapi justru membuka jalan baru dalam penelitian dan pengembangan,” kenang Kwon.\n\nTantangan dari bawah ke atas: mengapa inferensi LLM berbeda dari ML tradisional?\n\nvLLM menargetkan model bahasa autoregresif (auto-regressive), di mana proses inferensinya bersifat dinamis, tidak sinkron, dan tidak dapat diproses secara batch, berbeda jauh dari model citra atau suara tradisional. Input dari model ini bisa berkisar dari satu kalimat hingga ratusan halaman dokumen, penggunaan memori GPU harus diatur secara presisi, dan langkah perhitungan (penjadwalan token-level) serta pengelolaan memori (penanganan KV cache) menjadi sangat kompleks.\n\nSalah satu terobosan teknologi penting dari vLLM adalah “Page Attention”, yang membantu sistem mengelola memori secara lebih efisien untuk menangani permintaan yang beragam dan output berurutan panjang.\n\nLebih dari sekadar pemrograman: dari kampus menuju komunitas sumber terbuka di momen penting\n\nTim vLLM mengadakan meetup sumber terbuka pertama di Silicon Valley pada tahun 2023. Awalnya mereka mengira hanya akan dihadiri sekitar sepuluh orang, tetapi jumlah pendaftar jauh melebihi ekspektasi dan memenuhi ruangan, menjadi titik balik dalam pengembangan komunitas.\n\nSejak itu, komunitas vLLM berkembang pesat, kini memiliki lebih dari 50 kontributor tetap dan lebih dari 2.000 kontributor di GitHub, menjadikannya salah satu proyek sumber terbuka yang paling cepat berkembang saat ini, didukung oleh Meta, Red Hat, NVIDIA, AMD, AWS, Google, dan lainnya.\n\nBerkompetisi di berbagai pihak: membangun “Sistem Operasi AI”\n\nSalah satu kunci keberhasilan vLLM adalah kemampuannya membangun platform bersama bagi pengembang model, produsen chip, dan pengembang aplikasi, tanpa perlu saling mengintegrasikan satu sama lain. Cukup dengan mengintegrasikan satu set vLLM, mereka dapat mencapai kompatibilitas maksimal antara model dan perangkat keras.\n\nIni juga berarti bahwa vLLM berusaha menciptakan semacam “sistem operasi AI”: memungkinkan semua model dan perangkat keras berjalan di atas satu mesin inferensi yang umum.\n\nInferensi semakin sulit? Tekanan dari skala, perangkat keras, dan kecerdasan agen\n\nTantangan inferensi saat ini terus meningkat, termasuk:\n\nPertumbuhan skala model yang pesat: dari ratusan miliar parameter awalnya hingga model triliunan saat ini, seperti Kim K2, sumber daya komputasi yang dibutuhkan juga meningkat pesat.\n\nKeanekaragaman model dan perangkat keras: meskipun arsitektur Transformer tetap sama, detail internalnya semakin berbeda, seperti sparse attention, linear attention, dan varian lainnya.\n\nKemunculan sistem agen (Agents): model tidak lagi hanya menjawab satu pertanyaan, tetapi terlibat dalam percakapan berkelanjutan, memanggil alat eksternal, menjalankan skrip Python, dan lain-lain. Lapisan inferensi harus mempertahankan status dalam waktu lama dan menangani input tidak sinkron, meningkatkan tingkat kesulitan teknis.\n\nMasuk ke praktik nyata: kasus penerapan vLLM secara besar-besaran\n\nvLLM bukan hanya mainan akademik, tetapi sudah digunakan di platform besar seperti Amazon, LinkedIn, Character AI, dan lainnya. Misalnya, asisten pintar Amazon “Rufus” didukung oleh vLLM, menjadi mesin inferensi di balik pencarian belanja.\n\nBahkan, ada insinyur yang langsung menerapkan fitur vLLM yang masih dalam tahap pengembangan ke ratusan GPU, menunjukkan tingkat kepercayaan komunitas terhadapnya.\n\nPerusahaan di balik vLLM: peran dan visi Inferact\n\nUntuk mendorong pengembangan vLLM lebih jauh, para pengembang inti mendirikan Inferact, yang juga mendapatkan dukungan investasi dari berbagai pihak. Berbeda dari perusahaan komersial biasa, Inferact memandang sumber terbuka sebagai prioritas utama. Salah satu pendirinya, Simon Mo, menyatakan, “Perusahaan kami ada untuk menjadikan vLLM sebagai standar inferensi global.” Model bisnis Inferact berfokus pada pemeliharaan dan pengembangan ekosistem vLLM, sekaligus menyediakan deployment dan dukungan tingkat perusahaan, menjalankan jalur bisnis dan sumber terbuka secara bersamaan.\n\nInferact aktif merekrut insinyur dengan pengalaman infrastruktur ML, terutama yang ahli dalam inferensi model besar, sistem terdistribusi, dan akselerasi perangkat keras. Bagi pengembang yang mencari tantangan teknologi dan optimisasi sistem mendalam, ini adalah kesempatan untuk berpartisipasi dalam pembangunan infrastruktur AI generasi berikutnya.\n\nTim mereka berharap menciptakan “lapisan abstraksi” seperti OS atau basis data, yang memungkinkan model AI berjalan tanpa hambatan di berbagai perangkat keras dan skenario aplikasi.\n\nArtikel ini membangun lapisan inferensi AI universal! Bagaimana proyek sumber terbuka vLLM menjadi rencana ambisius mesin inferensi global? Artikel ini pertama kali muncul di ABMedia.