2026年CES消費電子展、輝達執行長黃仁勳正式宣佈Vera Rubin投入量產,標誌著人工智慧(AI)發展史上的一個關鍵轉折點:從以模型訓練(Training)為核心的生成式AI初期,正式邁入以代理型AI(Agentic AI)與大規模推論(Inference)為主導的時代。
(黃仁勳 CES 定調 2026:Vera Rubin 全面量產、AI 自駕車 Q1 上市,關鍵製程來自台積電)
本報告將深入剖析這一技術轉折如何重塑資料中心的硬體層級,特別是G3.5儲存層級與推論上下文記憶體儲存平台(ICMS)。在此背景下,全球四大記憶體與儲存巨頭:SK海力士(SK Hynix)、三星電子(Samsung Electronics)、美光科技(Micron Technology)與SanDisk正面臨著前所未有的機遇與挑戰。
HBM、DRAM、NAND是什麼?記憶體名詞解析
在進入正式內容前,先用淺顯的描述來進行名詞補充:
白話文解釋記憶體名詞:HBM(包含HBM3E、HBM4、HBM5)
HBM全名High Bandwidth Memory (高頻寬記憶體)。可以想成:把很多層DRAM晶片像千層蛋糕一樣疊起來,再用非常多又粗的高速公路接到GPU,傳資料超快。
HBM3E:目前主力,用在最新一代GPU上,速度快、功耗也壓得不錯。
HBM4:下一代,給像Vera Rubin這種更兇猛的GPU用,頻寬更高、容量更大。
HBM5:再下一代(規劃中),會再拉高速度與容量,對未來更大模型準備。
Rubin GPU旁邊會塞很多顆HBM堆疊,讓GPU能以超高速拿資料。AI訓練、推論的核心算力全靠HBM供應資料,是這波AI伺服器供應緊缺的最大明星,廠商把大量產能都轉去做HBM,導致其他記憶體供應吃緊。在Vera Rubin時代,HBM是所有零件中最關鍵的元件。
白話文解釋記憶體名詞:SSD
SSD就像一個超大的USB隨身碟,用來長期存資料,不會因為關機就忘記。電腦裡放檔案、影片、遊戲,就是存在SSD(或傳統硬碟)。在Vera Rubin時代為了讓AI聊天機器人記住很多很多文字、對話歷史和知識,Vera Rubin要接上非常多SSD,當作超大資料圖書館。Citi估算,一台Vera Rubin伺服器要接大約1,152TB(也就是1,152個1TB)這麼多的SSD,才能讓新的ICMS系統運作。
以前SSD比較像資料倉庫配角,現在在ICMS/長上下文推論裡變成很重要的角色。
白話文解釋記憶體名詞:NAND
SSD裡面真正存資料的材料叫NAND快閃記憶體。可以想成:SSD是書櫃,NAND是一塊一塊的書本頁面。Vera Rubin的ICMS要用很多SSD,而SSD裡就是堆滿NAND晶片,所以AI要的是很多很多NAND。當AI模型越來越大、對話記憶越來越長,就需要更多NAND來放這些文字和中間結果。
白話文解釋記憶體名詞:DRAM
DRAM就像短期記憶白板,電腦運算時先把要算的東西寫在DRAM,上完課(關機)白板就擦掉。速度比SSD快很多,但一關機就全忘。在Vera Rubin給CPU/GPU當一般運算時的工作區。不直接存很久的對話或超大模型,但負責支撐系統運作。不過因為廠商把產能移去做HBM,結果一般DRAM供應變少,價格猛漲、甚至缺貨。
白話文解釋記憶體名詞:LPDDR5X / DDR5
DDR5:伺服器與桌機裡常用的主記憶體,比舊的DDR4更快。
LPDDR5X:給行動裝置、或者高密度CPU模組用的省電版本,可以想像是「省電型的DRAM」。
Rubin CPU這種處理器,需要很多LPDDR5X或DDR5當系統記憶體,處理控制、排程、系統任務。它們不會像HBM那樣直接綁在GPU上,但也是整個AI伺服器穩定運作的基礎。由於產能被HBM吸走,一般DDR5 / LPDDR5X供應變緊、價格上升。
白話文解釋記憶體名詞:High Bandwidth Flash(HBF)
可以把HBF想成速度被強化過的NAND,目標是讓Flash(快閃記憶體)不再只是慢慢存資料,而是變得更快、更像記憶體來用。比起一般SSD,它更強調「高吞吐量、低延遲」,好讓AI在推論時可以比較快地讀寫大量上下文。
在Vera Rubin裡當ICMS的核心之一:把大量KV Cache、長上下文資料放在這種高速Flash上,用網路(RDMA等)讓GPU以接近內存的速度取用。這就是G3.5層概念。把Flash從只有存檔提升成快得可以參與運算流程的外部記憶。
Vera Rubin世代:硬體架構的根本性重構
極致協同設計(Extreme Co-design)與機櫃級運算
在CES2026上,NVIDIA執行長黃仁勳的演講揭示了一個核心理念:在Rubin世代,運算的單位不再是單個GPU或伺服器,而是整個資料中心機櫃。Rubin平台由六款核心晶片組成:Vera CPU、Rubin GPU、NVLink 6 Switch、ConnectX-9 SuperNIC、BlueField-4 DPU以及Spectrum-6 Ethernet Switch。
這種被稱為極致協同設計的策略,旨在消除晶片間的通訊瓶頸,將Vera Rubin NVL72機櫃打造成一個擁有3.6 ExaFLOPS推論算力與75TB高速記憶體的單一巨型電腦。
這種架構的演進並非單純的效能堆疊,而是為了應對AI工作負載的本質改變。從Blackwell到Rubin,AI模型已從單純的問答機器演化為能夠執行多步驟推理、長期記憶檢索與工具使用的智慧代理(Agents)。這類工作負載要求硬體不僅要具備高吞吐量,還必須具備極低的延遲與海量的上下文(Context)保留能力。
收購Groq與推論翻轉:防禦性吞併與ASIC時代的開端
NVIDIA在2025年底以200億美元人才併購與技術授權的形式吸納AI晶片新創公司Groq,Groq的核心技術LPU(語言處理單元)架構,本質上是一種針對Transformer模型極度優化的ASIC。與依賴HBM(高頻寬記憶體)的傳統GPU不同,Groq採用片上SRAM(靜態隨機存取記憶體)與編譯器優先的設計。
在即時互動場景中,這種架構能提供比傳統GPU快10倍的代幣生成速度,且能效高出10倍。NVIDIA想補齊低延遲推論(Groq LPU擅長)與CUDA生態結合。Google (TPU)、Amazon (Inferentia)等雲端巨頭早已透過自研ASIC證明了專用晶片在推論成本上的巨大優勢,NVIDIA必須透過Groq的技術來防禦。
上下文牆(The Context Wall)難題
在長上下文(Long-context)推論中,Key-Value (KV) Cache是AI模型記住對話歷史的機制。隨著上下文窗口擴展至百萬級Token,KV Cache的體積呈線性增長,迅速耗盡昂貴且容量有限的GPU HBM (G1)。當HBM滿載,數據會被逐出至系統DRAM (G2)或本地SSD (G3)。這導致了KV Cache危機:GPU經常為了等待歷史數據而空轉。
G3.5層級:推論上下文記憶體儲存平台(ICMS)
在Vera Rubin架構中,對記憶體產業最具顛覆性、影響最深遠的變革,是G3.5記憶體層級,即推論上下文記憶體儲存平台 (ICMS, Inference Context Memory Storage)的誕生。這項創新不僅是架構的升級,更標誌著上下文感知(Context-Aware)運算時代的來臨。
ICMS利用BlueField-4 DPU與Spectrum-X乙太網路,在機櫃(Pod)層級建立了一個共享的、基於快閃記憶體(Flash)的緩衝池。這個G3.5層級位於DRAM與傳統儲存之間,透過RDMA(遠端直接記憶體存取)技術,讓GPU能以接近本地記憶體的速度存取遠端Flash中的KV Cache1。
強制催生新技術標準 (HBF & AI-SSD)
為了讓NAND Flash能夠勝任準記憶體的高強度工作,產業被迫加速技術迭代,這改變了主要記憶體廠的技術路徑圖。
High Bandwidth Flash (HBF):為了追求頻寬,SK海力士與SanDisk合作開發HBF。這是一種類似HBM的3D堆疊技術,但使用NAND晶圓,旨在提供比傳統SSD快數倍的吞吐量,專門服務於AI推論。
AI專用SSD (AI-NP):SK海力士正與NVIDIA緊密合作,開發能達到1億IOPS的AI-NP SSD。這種性能是現有頂級SSD的100倍,專門為了滿足ICMS對隨機讀取速度的極端苛求,確保數據能即時餵給GPU。
G3.5 ICMS層級是將AI價值鏈從昂貴的HBM向下延伸至NAND Flash的關鍵橋樑。它解決了AI Agent需要無限記憶來處理複雜任務的痛點,將NAND產業從週期性的儲存商品,轉變為AI運算基礎設施中不可或缺的核心戰略資源。
Rubin NVL72的儲存通膨效應
根據Citi與其他市場分析機構的拆解,Vera Rubin架構中ICMS對NAND的需求是爆炸性的。除了標準的儲存外,BlueField-4驅動的ICMS為每個GPU額外增加了約16TB的高速NAND快閃記憶體。對於一個滿載72顆GPU的NVL72機櫃而言,這意味著額外增加了1,152TB(約1.15PB)的NAND需求。
如果2026年前全球部署10萬個此類機櫃,將產生超過115Exabytes (EB)的額外NAND需求,約佔2025年全球NAND總供應量的12%。這種需求不僅量大,且對性能要求極高,這直接導致了市場對企業級SSD供應短缺的恐慌,開啟一個由賣方主導的超級循環。
這場架構革命將記憶體市場推向了「三重超級循環」(DRAM漲價、NAND缺貨、HBM售罄)。以下是四大廠的深度競爭力分析:
SK海力士 (SK Hynix):AI架構的設計師
地位
HBM市場絕對霸主 (HBM3/3E時代市占率5~60%),NVIDIA核心盟友。
優勢
HBM4壟斷:券商推估囊括Vera Rubin平台HBM4初期訂單的70%以上,且產能已宣佈2026年全數售罄。
HBF標準制定:與SanDisk合作推動High Bandwidth Flash (HBF),試圖將NAND提升至準記憶體層級。
AI-NP SSD:開發專為ICMS設計的1億IOPS超高性能SSD。
劣勢
SK hynix現在吃到AI超級循環,HBM3E/HBM4幾乎滿載,2026年自己也在展望裡承認:後面可能面臨價格修正與競爭加劇風險。多家機構點名一旦2026之後HBM供給擴張、價格轉跌,對HBM依賴最高的就是SK hynix,獲利下修風險最大。
三星電子 (Samsung):帝國的反擊與產能優勢
地位
全方位解決方案提供者,產能怪獸。
優勢
Turnkey HBM4:提供「記憶體+邏輯代工+封裝」一站式服務的廠商,對Google、Amazon等自研晶片客戶極具吸引力。
G3.5直接受惠:作為全球最大NAND製造商,擁有最強大的企業級SSD與CXL記憶體(PBSSD)供應能力,能同時滿足HBM與海量存儲需求。
劣勢
HBM技術起步較晚,需在Rubin世代重建客戶信心;NAND雖有量但定價權不如HBM強勢。
美光科技 (Micron):效率與地緣政治受益者
地位
美國主權AI首選,HBM+NAND雙輪驅動。
優勢
雙重受惠:唯一同時擁有HBM3E/4產能與先進企業級SSD的美國廠商。能同時吃到Rubin GPU記憶體與ICMS儲存層的紅利。
能效領先:HBM產品宣稱比對手節能30%,契合AI資料中心對TCO的極致要求。
地緣政治紅利:作為唯一美國本土製造商,是北美主權AI雲端的首選。
劣勢
總產能規模小於韓系大廠,需依賴技術溢價維持高毛利,無法打價格戰。
SanDisk:從儲存到運算的價值重估
地位
G3.5層級的最大純粹受惠者,轉型AI基礎設施股。
優勢
最純粹的G3.5概念股:每套Vera Rubin系統1,152TB的NAND需求是SanDisk的純增量。其Stargate企業級SSD已獲超大規模客戶認證。
業務轉型:從Western Digital分拆後,戰略完全轉向數據中心(營收年增26%),擺脫消費級包袱。
定價爆發力:在供應短缺下,企業級NAND價格可能還會翻倍,SanDisk擁有極高利潤彈性。
劣勢
缺乏自有晶圓廠,走Fabless模式,依賴代工,產能鎖定能力弱於IDM廠。
2026年前瞻分析:記憶體賣方市場確立
Nomura與Citi一致預測,2026年將面臨嚴重供需失衡。DRAM營收預計年增51%,NAND晶圓合約價可能翻倍。由於潔淨室(Cleanroom)短缺及HBM對晶圓產能的消耗(HBM消耗量是DRAM的3倍),供應緊張將持續至2027年中。在這場價值10兆美元的產業現代化浪潮中,Vera Rubin與ICMS平台的出現,使記憶體廠商從配角躍升為主角。
展望2026~2028年,記憶體賣方市場除了來自HBM擴產受限與ICMS對企業級SSD的擠壓,還可能出現另一個加速器:HBF(NAND堆疊式高頻寬快閃)商用化時間表前移。學界與產業界近期的共識是,由於HBF在製程與設計上可部分沿用HBM時代累積的堆疊與封裝基礎,導入節奏有望較HBM更快,並在2027年前後開始進入主要加速器平台的整合期。
這篇文章 輝達 Vera Rubin 引爆記憶體需求:解析 SK 海力士、三星、美光、SanDisk 優缺點 最早出現於 鏈新聞 ABMedia。