Era Berikutnya dari Percepatan GPU: Bagaimana NVIDIA's Vera Rubin Mendefinisikan Ulang Penjadwalan GPU Berbasis Perangkat Keras

Di CES 2026, Jensen Huang menyampaikan keynote yang transformatif yang menegaskan visi NVIDIA tentang bet-the-company: beralih dari era yang fokus murni pada pelatihan AI ke satu yang didominasi oleh inferensi skala besar yang efisien dan kecerdasan berwujud. Dalam waktu lebih dari 90 menit, CEO NVIDIA mengungkapkan delapan pengumuman utama, masing-masing memperkuat satu strategi tunggal—membangun sistem yang terintegrasi secara ketat di mana penjadwalan GPU yang dipercepat perangkat keras dan komputasi jaringan menjadi tak terpisahkan. Pesannya jelas: masa depan bukan milik akselerator terisolasi, tetapi milik sistem yang dirancang untuk throughput yang hemat biaya.

Platform Vera Rubin: Pendekatan Enam Chip untuk Desain Sistem Percepatan

Vera Rubin mewakili pemikiran ulang mendasar tentang arsitektur pusat data. Alih-alih memasang akselerator ke infrastruktur generik, NVIDIA merancang bersama enam chip pelengkap—Vera CPU, Rubin GPU, NVLink 6 Switch, ConnectX-9 SuperNIC, BlueField-4 DPU, dan Spectrum-X CPO—yang masing-masing dioptimalkan untuk bekerja sebagai ekosistem yang kohesif.

Vera CPU, yang dibangun dengan inti Olympus kustom, menangani perpindahan data dan pemrosesan agen dengan konektivitas NVLink-ke-CPU sebesar 1.8TB/s, secara efektif mengelola koordinasi yang dibutuhkan penjadwalan GPU. Rubin GPU memperkenalkan mesin Transformer dan kemampuan inferensi NVFP4 yang mencapai 50 PFLOPS—5x performa Blackwell—serta mendukung memori HBM4 dengan bandwidth 22TB/s, 2.8x generasi sebelumnya. Spesifikasi ini penting bukan secara terisolasi, tetapi karena mereka memecahkan masalah kritis: seiring model membesar dan token inferensi berkembang, pendekatan penjadwalan GPU tradisional menjadi bottleneck pada bandwidth memori dan biaya perpindahan data.

Mengintegrasikan semua komponen ke dalam satu sistem rak, Vera Rubin NVL72 menghasilkan 3.6 EFLOPS performa inferensi dengan 2 triliun transistor. Lebih penting lagi, arsitektur sistem ini memungkinkan penjadwalan GPU yang dipercepat perangkat keras dalam skala yang belum pernah terjadi sebelumnya. NVLink 6 Switch mencapai bandwidth interkoneksi penuh 3.6TB/s per GPU (2x generasi sebelumnya), dengan komputasi dalam jaringan sebesar 14.4 TFLOPS FP8. Ini bukan sekadar bandwidth lebih besar—ini bandwidth yang dirancang untuk menghilangkan bottleneck penjadwalan yang melekat pada beban kerja inferensi terdistribusi.

Sistem ini menggunakan pendinginan cair 100% dan dilengkapi tray komputasi modular tanpa kipas yang mengurangi waktu perakitan dari dua jam menjadi lima menit. Pemeliharaan tanpa downtime melalui tray NVLink Switch dan mesin RAS generasi kedua memastikan bahwa klaster inferensi mencapai keandalan uptime yang dibutuhkan pusat data. Lebih dari 80 mitra MGX sudah siap untuk penerapan Vera Rubin.

Tiga Inovasi Menargetkan Batas Efisiensi Inferensi

Selain fondasi perangkat keras, NVIDIA merilis tiga produk yang dirancang khusus untuk mengatasi bottleneck inferensi: Spectrum-X Ethernet CPO, Platform Penyimpanan Memori Konteks Inferensi, dan DGX SuperPOD berbasis Vera Rubin.

Spectrum-X Ethernet Co-Packaged Optics menerapkan desain dua chip menggunakan teknologi SerDes 200Gbps, menghasilkan 102.4Tb/s per ASIC. Dibandingkan jaringan switched tradisional, arsitektur CPO mencapai efisiensi energi 5x lebih baik, keandalan 10x lebih tinggi, dan waktu aktif aplikasi 5x lebih baik. Ini secara langsung berarti mampu memproses lebih banyak token inferensi setiap hari sekaligus menurunkan TCO pusat data—keunggulan kompetitif penting dalam perlombaan untuk mengkomoditisasi inferensi.

Platform Penyimpanan Memori Konteks Inferensi mendefinisikan ulang bagaimana sistem menangani penyimpanan konteks untuk beban kerja AI berurutan panjang. Saat sistem AI Agenik menangani percakapan multi-putar, pipeline RAG, dan penalaran multi-tahap yang kompleks, jendela konteks kini mencapai jutaan token. Alih-alih menghitung ulang cache kunci-nilai di setiap langkah inferensi—yang memboroskan compute GPU dan memperkenalkan latensi—platform ini memperlakukan konteks sebagai warga negara kelas satu, menyimpannya dan menggunakannya kembali melalui tier penyimpanan yang dipercepat BlueField-4 yang terhubung Spectrum-X. Dengan memisahkan penyimpanan konteks dari memori GPU sambil menjaga hubungan erat melalui NVLink, platform ini memberikan performa inferensi 5x dan efisiensi energi 5x untuk beban kerja yang berat konteks. Ini merupakan perubahan arsitektur fundamental: bottleneck inferensi telah bergeser dari komputasi mentah ke manajemen konteks.

DGX SuperPOD dengan Vera Rubin berfungsi sebagai cetak biru untuk pabrik AI siap pakai. Menggabungkan delapan sistem Vera Rubin NVL72 dengan penskalaan vertikal melalui NVLink 6 dan penskalaan horizontal melalui Spectrum-X Ethernet, SuperPOD menunjukkan bagaimana desain chip kolaboratif dapat menurunkan biaya sistem secara berantai. Dibandingkan generasi Blackwell sebelumnya, pelatihan model MoE besar hanya membutuhkan seperempat jumlah GPU, dan biaya inferensi per token turun menjadi sepersepuluh. Dikelola melalui perangkat lunak NVIDIA Mission Control, SuperPOD beroperasi sebagai mesin inferensi terpadu di mana penjadwalan GPU, orkestrasi jaringan, dan koordinasi penyimpanan berlangsung secara transparan.

Amplifier Open-Source: Dari Model ke Agen Terintegrasi

Perluasan agresif kontribusi open-source NVIDIA—650 model dan 250 dataset dirilis pada 2025 saja—mencerminkan strategi canggih: membanjiri pengembang dengan alat yang kuat dan gratis sambil membuat perangkat keras dasar semakin tak tergantikan.

Perusahaan telah mengintegrasikan model dan alat open ke dalam “Blueprints,” kerangka SaaS yang memungkinkan sistem agenik multi-model dan multi-cloud. Sistem ini secara otomatis mengarahkan kueri ke model lokal privat atau model frontier berbasis cloud sesuai kebutuhan tugas, memanggil API eksternal untuk penggunaan alat, dan menggabungkan input multimodal (teks, suara, gambar, data sensor). Dengan menyematkan arsitektur ini ke dalam alur kerja pengembang, NVIDIA memastikan bahwa bahkan organisasi yang sadar biaya yang membangun di atas model open akhirnya bergantung pada infrastruktur inferensi Vera Rubin untuk penerapan produksi.

Keluarga Nemotron yang diperluas kini mencakup model RAG Agenik, varian yang berfokus pada keamanan, dan model suara—masing-masing mengatasi bottleneck dalam tumpukan AI Agenik yang sedang berkembang. Pengembang dapat melakukan fine-tuning model ini, menghasilkan data sintetis melalui Cosmos, dan membangun aplikasi yang dua tahun lalu akan sangat rumit.

AI Fisik: Di Mana Mengemudi Otonom Bertemu Penalaran Dunia Nyata

NVIDIA menempatkan AI fisik—kecerdasan yang memahami dunia nyata, menalar ketidakpastian, dan mengeksekusi tindakan kompleks—sebagai frontier multi-triliun dolar berikutnya. Kendaraan otonom muncul sebagai medan uji utama.

Alpha-Mayo, rangkaian model open-source NVIDIA untuk mengemudi Level 4, mewujudkan visi ini. Dengan 10 miliar parameter, Alpha-Mayo memungkinkan pengambilan keputusan berbasis penalaran, memecah skenario mengemudi kompleks menjadi langkah-langkah dan memilih tindakan paling aman. Alih-alih sistem aturan reaktif, model ini memahami keberadaan objek, memprediksi perilaku kendaraan, dan menangani kasus ekstrem yang belum pernah dilihat sebelumnya—misalnya, kerusakan lampu lalu lintas di persimpangan yang sibuk.

Mercedes-Benz CLA, yang kini diproduksi dengan integrasi Alpha-Mayo, baru saja meraih peringkat keselamatan tertinggi NCAP. Platform NVIDIA DRIVE, yang berjalan di perangkat keras produksi, mendukung mengemudi bebas tangan di jalan raya dan otonomi perkotaan end-to-end—kemampuan yang menunjukkan kesiapan AI fisik untuk deployment skala besar. Alpha-Sim, kerangka evaluasi open-source, dan pembuatan data sintetis melalui Cosmos memungkinkan pengembang di seluruh dunia mempercepat pengembangan kendaraan otonom.

Selain otomotif, NVIDIA mengumumkan kemitraan dengan Boston Dynamics, Franka Robotics, LG Electronics, dan lainnya yang membangun di atas platform NVIDIA Isaac dan GR00T. Kolaborasi dengan Siemens mengintegrasikan teknologi NVIDIA ke dalam alat EDA, CAE, dan digital twin, menanamkan AI fisik ke seluruh proses desain, simulasi, manufaktur, dan operasi.

Kedalaman Benteng: Sistem Rekayasa sebagai Keunggulan Kompetitif

Seiring pasar infrastruktur AI beralih dari model berfokus pelatihan ke ekonomi berfokus inferensi, kompetisi platform telah berkembang dari metrik satu sumbu (GPU FLOPS) menjadi rekayasa sistem yang mencakup chip, rak, jaringan, dan orkestrasi perangkat lunak secara komprehensif.

Strategi NVIDIA berjalan di dua front sekaligus. Di front open-source, perusahaan secara agresif menyumbangkan model, alat, dan dataset, mendemokratisasi pengembangan AI dan memperluas total pasar yang dapat dijangkau untuk inferensi. Di front proprietary, ekosistem Vera Rubin yang terintegrasi rapat—dengan chip yang dirancang bersama, bandwidth NVLink, jaringan Spectrum-X, lapisan penyimpanan konteks, dan perangkat lunak Mission Control—semakin sulit ditiru.

Dinamika loop tertutup ini sangat kuat: dengan memperluas ekosistem open-source, NVIDIA mendorong adopsi AI yang lebih luas dan konsumsi token; dengan menyediakan infrastruktur inferensi yang hemat biaya, perusahaan menangkap beban kerja yang berkembang; dengan terus berinovasi dalam arsitektur perangkat keras dan kemampuan penjadwalan GPU, NVIDIA memastikan platform alternatif kesulitan menyamai performa-per-watt dan biaya-per-token. Ini menciptakan keunggulan yang memperkuat diri sendiri yang melampaui siklus produk tunggal.

Pengumuman Vera Rubin bukan sekadar generasi berikutnya dari perangkat keras inferensi, tetapi juga validasi bahwa taruhan NVIDIA pada sistem terintegrasi—di mana percepatan perangkat keras, orkestrasi jaringan, dan optimisasi perangkat lunak bersatu—telah menjadi doktrin industri. Dari hyperscalers yang menerapkan SuperPOD hingga perusahaan yang membangun agen AI pribadi di kluster DGX, lanskap infrastruktur sedang mengkonsolidasi di sekitar visi NVIDIA.

Bagi pengembang dan operator, implikasinya sederhana: era memasang akselerator ke platform generik telah berakhir secara pasti. Masa depan inferensi yang efisien dan skalabel berjalan di sistem yang dipercepat perangkat keras yang dirancang khusus untuk tugas tersebut.

ERA0,75%
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan

Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)