HBM 後, AI sẽ vướng “nút thắt” bộ nhớ mới là HBF? Người đoạt giải Turing David Patterson: Suy luận sẽ định nghĩa lại kiến trúc lưu trữ

ChainNewsAbmedia

Cuộc đua chip AI trong hai năm qua gần như xoay quanh HBM, nhưng khi ứng dụng AI chuyển từ huấn luyện mô hình sang suy luận quy mô lớn, nút thắt cung ứng tiếp theo có thể không chỉ là HBM nữa, mà là HBF (High Bandwidth Flash, bộ nhớ nhanh băng thông cao). Người đoạt giải Turing Award, giáo sư David Patterson của UC Berkeley, vào ngày 30 tháng 4 tại San Francisco (Mỹ), cho biết ông tin rằng HBF rất có thể sẽ trở thành công nghệ bộ nhớ then chốt cho một làn sóng nhu cầu tăng nhanh tiếp theo, thậm chí tạo ra một nút thắt mới.

( NVIDA Vera Rubin có gì thay đổi? Giải mã thời đại chiến tranh bộ nhớ: SK Hynix, Samsung, Micron, SanDisk )

Vì sao David Patterson, người đoạt giải Turing Award, lại đánh giá cao HBF

Cuộc thảo luận về bộ nhớ cho AI gần như đều xoay quanh HBM (High Bandwidth Memory, bộ nhớ băng thông cao), nhưng khi ứng dụng AI chuyển từ huấn luyện mô hình sang suy luận quy mô lớn, nút thắt cung ứng tiếp theo có thể không chỉ là HBM mà là HBF (High Bandwidth Flash, bộ nhớ nhanh băng thông cao).

Patterson là một nhân vật nặng ký trong giới khoa học máy tính, được xem là một trong những nhà thiết kế quan trọng của kiến trúc RISC. Khi nói về giai đoạn tiếp theo sau HBM, ông cho biết dù HBF vẫn còn nhiều thách thức kỹ thuật cần được giải quyết, HBF do các doanh nghiệp như SK Hynix và SanDisk đang thúc đẩy lại có đặc tính “cung cấp dung lượng lớn với mức tiêu hao điện thấp hơn”. Biến số cốt lõi của các hệ thống AI trong tương lai không chỉ là năng lực tính toán, mà là liệu dữ liệu có thể được lưu trữ, điều phối và cung ứng một cách hiệu quả hay không.

HBF là gì? Xếp chồng NAND Flash—không phải để thay thế HBM, mà để phân công

Khác biệt lớn nhất giữa HBF và HBM nằm ở vật liệu bộ nhớ ở tầng nền. HBM là công nghệ xếp chồng DRAM theo chiều dọc để cung cấp khả năng truy cập dữ liệu băng thông cao cần thiết cho GPU và bộ tăng tốc AI, chủ yếu đảm nhiệm vai trò “nạp dữ liệu nhanh cho các đơn vị tính toán”. HBF thì xếp chồng bộ nhớ không bay hơi NAND Flash, lợi thế cốt lõi không phải là tốc độ tuyệt đối, mà là cung cấp dung lượng dữ liệu lớn với chi phí và mức tiêu hao điện thấp hơn.

Nói cách khác, HBM giải quyết vấn đề “tốc độ” trong quá trình vận hành AI, còn HBF giải quyết vấn đề “dung lượng” ngày càng lớn của hệ thống AI. Đây cũng là lý do HBF không chỉ đơn thuần thay thế HBM, mà tạo ra một sự phân công bộ nhớ mới cùng với HBM. HBM chịu trách nhiệm trao đổi dữ liệu tức thời, tốc độ cao; trong khi HBF gánh nhu cầu lưu trữ dữ liệu trung gian quy mô lớn, dữ liệu ngữ cảnh và các lần gọi dữ liệu lặp lại trong quá trình suy luận.

Thị trường suy luận AI mở rộng khiến nhu cầu HBF nổi lên

HBF vì sao trong năm 2026 nhận được sự chú ý nhiều hơn? Mấu chốt là trọng tâm thị trường AI đang chuyển dần từ huấn luyện sang suy luận. Huấn luyện AI là việc nạp lượng lớn dữ liệu cho mô hình để mô hình học ra các tham số và quy luật; suy luận AI thì là sau khi mô hình đã được huấn luyện xong, quá trình mô hình tạo ra câu trả lời dựa trên đầu vào người dùng, thực hiện nhiệm vụ, ghi nhớ ngữ cảnh trước sau và liên tục đưa ra phán đoán.

Trong bối cảnh suy luận, AI không chỉ trả lời một lần; mà còn phải lưu giữ hội thoại trước đó, mạch công việc, kết quả phán đoán, lịch sử lệnh gọi công cụ, thậm chí cả dữ liệu trung gian xuyên nhiệm vụ. Khối lượng các dữ liệu này rất lớn và cần được đọc lại, cập nhật liên tục.

Vấn đề là nếu đưa toàn bộ các dữ liệu này vào HBM, chi phí sẽ quá cao và dung lượng cũng không thực tế. HBM phù hợp để xử lý dữ liệu tốc độ cao cần ngay lập tức, nhưng không phù hợp để gánh toàn bộ dữ liệu ngữ cảnh và trạng thái trung gian phát sinh trong quá trình suy luận. Khi các AI Agent, mô hình ngữ cảnh dài, suy luận đa phương thức và quy trình AI cấp doanh nghiệp trở nên phổ biến, hệ thống sẽ không chỉ cần bộ nhớ nhanh hơn, mà cần một “hồ dữ liệu” tốc độ cao lớn hơn. Đây chính là lý do HBF được đánh giá cao.

SK Hynix và SNDK đã thúc đẩy chuẩn hóa, nhu cầu HBF năm 2038 có thể vượt HBM

Để theo đuổi băng thông, SK Hynix hợp tác với SanDisk phát triển HBF. Đây là một công nghệ xếp chồng 3D tương tự HBM, nhưng dùng wafer NAND, nhằm cung cấp thông lượng cao hơn vài lần so với SSD truyền thống, chuyên phục vụ AI suy luận.

Giáo sư Kim Jungho của KAIST (trường đại học Khoa học và Công nghệ Tiên tiến Hàn Quốc), cũng từng nêu trong buổi thuyết minh công nghệ HBF vào tháng 2 rằng, trong thời kỳ PC thì lõi là CPU, trong thời kỳ điện thoại thông minh thì lõi là tiêu hao điện thấp, còn trong thời đại AI thì lõi lại là bộ nhớ. Ông phân chia rất rõ vai trò của HBM và HBF: HBM quyết định tốc độ, còn HBF quyết định dung lượng. Kim Jungho còn dự đoán rằng từ năm 2038, nhu cầu HBF có thể vượt HBM.

Lý do của nhận định này nằm ở chỗ thị trường suy luận AI càng lớn thì ngữ cảnh tức thời, dữ liệu lịch sử và trạng thái nhiệm vụ mà mô hình cần xử lý càng trở nên đồ sộ. Nếu chỉ mở rộng bằng HBM, không những chi phí sẽ đắt đỏ mà còn khiến công suất tổng thể hệ thống và áp lực lên đóng gói tiếp tục tăng. Nếu HBF đạt được bước đột phá về băng thông, đóng gói, độ bền và chuẩn hóa, nó có thể trở thành tầng bộ nhớ khóa thế hệ mới cho trung tâm dữ liệu AI.

Từ HBM đến HBF, cuộc đua AI chuyển từ “tính nhanh” sang “nhớ được, điều khiển được”

Trong quá khứ, khi bàn về chất bán dẫn cho AI, trọng tâm thường đặt nhiều vào GPU, quy trình sản xuất tiên tiến và nguồn cung HBM. Đặc biệt sau khi nhu cầu máy chủ AI của Nvidia tăng vọt, HBM từng là chỉ số cốt lõi để đánh giá năng lực cạnh tranh của các hãng bộ nhớ như SK Hynix, Samsung, Micron. Tuy nhiên, phát biểu của Patterson nhắc thị trường rằng các nút thắt của hạ tầng AI đang trở nên phức tạp hơn.

Khi AI còn ở giai đoạn cuộc đua huấn luyện mô hình lớn, trọng tâm là dùng bộ nhớ băng thông cao hơn để “nuôi” GPU. Nhưng khi AI bước vào giai đoạn suy luận quy mô lớn và ứng dụng Agent, câu hỏi sẽ là: mô hình duy trì ngữ cảnh trong thời gian dài bằng cách nào? lưu trạng thái nhiệm vụ với chi phí thấp ra sao? làm sao để dữ liệu di chuyển hiệu quả hơn giữa GPU, HBM, SSD, Flash và lưu trữ mạng?

Vì vậy, cuộc đua bộ nhớ AI ở giai đoạn tiếp theo có thể không còn chỉ là cuộc chiến giành năng lực sản xuất HBM, mà là sự sắp xếp lại toàn bộ tầng bộ nhớ. HBM vẫn quan trọng, vì nó quyết định liệu chip AI có thể vận hành tính toán tốc độ cao hay không; nhưng sự xuất hiện của HBF cho thấy hệ thống AI bắt đầu cần một lớp dữ liệu mới nằm giữa bộ nhớ lưu trữ truyền thống và bộ nhớ băng thông cao. Nó không nhất thiết là nhanh nhất, nhưng có thể tạo ra một sự cân bằng mới giữa dung lượng, công suất và chi phí.

Điều này cũng đồng nghĩa, từ khóa quan trọng tiếp theo trong chuỗi cung ứng AI có thể chuyển từ “bộ nhớ băng thông cao” sang “bộ nhớ nhanh băng thông cao”. HBM giải quyết nút thắt tính toán tức thời của AI, còn HBF có thể giải quyết nút thắt lưu trữ dữ liệu đồ sộ trong kỷ nguyên suy luận.

Bài viết này HBM sau đó chính là nút thắt bộ nhớ AI với HBF? Người đoạt giải Turing Award David Patterson: Suy luận sẽ định nghĩa lại kiến trúc lưu trữ Xuất hiện đầu tiên tại Chuỗi tin tức ABMedia.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bài viết liên quan

Cổ phiếu Riot Tăng 8% Sau Khi Mở Rộng Thỏa Thuận Trung Tâm Dữ Liệu với AMD

Cổ phiếu của Riot Platforms đã tăng 8% sau khi mở rộng quan hệ đối tác trung tâm dữ liệu với AMD và các điều khoản tài trợ được cải thiện, phản ánh việc công ty khai thác bitcoin đang chuyển hướng chiến lược sang trí tuệ nhân tạo và trung tâm dữ liệu

GateNews1giờ trước

Minnesota cấm các công cụ AI tạo ảnh thân mật không có sự đồng ý, áp mức phạt lên tới $500K đô la Mỹ

Theo Decrypt, cơ quan lập pháp bang Minnesota đã thông qua một dự luật vào ngày 2 tháng 5, cấm các trang web và ứng dụng cung cấp công cụ AI tạo ra các hình ảnh thân mật không có sự đồng ý của cá nhân có thể nhận dạng. Luật này cấm các nền tảng cho phép người dùng truy cập hoặc sử dụng các công cụ “deepfake” như vậy, và cấm

GateNews2giờ trước

Người dùng ChatGPT giờ đây có thể truy cập các gói đăng ký trên nền tảng OpenClaw, Sam Altman công bố

Theo thông báo của Sam Altman hôm nay, người dùng ChatGPT hiện có thể đăng nhập vào nền tảng tác nhân OpenClaw bằng tài khoản ChatGPT của mình và truy cập trực tiếp các gói đăng ký ChatGPT hiện có trên nền tảng.

GateNews3giờ trước

xAI ra mắt Grok Custom Voices, cho phép người dùng sao chép giọng AI của chính mình trong 1 phút

Theo Beating, xAI đã ra mắt Grok Custom Voices và Voice Library, cho phép người dùng ghi lại 1 phút âm thanh trong bảng điều khiển xAI để tạo voice_id tùy chỉnh nhằm sử dụng với các API Grok TTS và Voice Agent. Tính năng này hỗ trợ các ứng dụng bao gồm tác nhân dịch vụ khách hàng, tạo nội dung,

GateNews4giờ trước

Hội nghị các nhà phát triển của Anthropic Code With Claude 5/6 khai mạc tại San Francisco: đăng ký miễn phí trực tiếp

Anthropic ngày 1/5 công bố hội nghị nhà phát triển đầu tiên “Code with Claude” sẽ khai mạc vào ngày 6/5 tại San Francisco, và lần đầu mở rộng thành chuỗi 3 điểm với London (19/5) và Tokyo (10/6). Số lượng chỗ ngồi trực tiếp tại 3 buổi hội trường chính được phân bổ theo cơ chế bốc thăm và tất cả đều đã bốc xong, nhưng đăng ký xem livestream vẫn mở cho mọi người. Nhằm đáp ứng nhu cầu trực tiếp vượt tải, sự kiện tại San Francisco còn có thêm một buổi “Extended” vào ngày 7/5, được thiết kế riêng cho các nhà phát triển độc lập và những người sáng lập ở giai đoạn sớm. Ba chặng lưu diễn: 6/5 San Francisco, 19/5 London, 10/6 Tokyo Code with Claude là hội nghị nhà phát triển do Anthropic tổ chức; sự kiện tại San Francisco là lần thứ 2 được tổ chức. Nội dung cả 3 sự kiện là như nhau: các buổi workshop trực tiếp cả ngày, demo các tính năng mới nhất, và những nội dung liên quan đến Claude ở từng phần

ChainNewsAbmedia5giờ trước

OpenAI công bố dữ liệu sau 1 tuần ra mắt GPT-5.5: tốc độ tăng trưởng doanh thu API lập kỷ lục mới, Codex tăng gấp đôi

OpenAI ngày 1/5 đã công bố trên tài khoản chính thức 3 số liệu sau 1 tuần ra mắt GPT-5.5: tự đánh giá là “bài đăng mạnh nhất từ trước đến nay”, tốc độ tăng trưởng doanh thu API đạt từ 2 lần trở lên so với bất kỳ lần công bố mô hình nào trước đây, và Codex tăng gấp đôi doanh thu trong chưa đầy 7 ngày. OpenAI quy kết nguyên nhân là nhu cầu phía doanh nghiệp đối với các công cụ agentic coding (lập trình theo tác nhân) tiếp tục tăng cao, trùng nhịp cùng việc đối đầu với Anthropic Mythos đồng thời ra mắt GPT-5.5-Cyber vào ngày 30/4, hình thành cùng một “nhịp” sản phẩm. 3 mục số liệu do công bố: tốc độ doanh thu API gấp đôi, Codex gấp đôi trong 7 ngày, bài đăng mạnh nhất từ trước đến nay 3 con số then chốt mà OpenAI lần này công bố đến từ các dòng tweet chính thức, không kèm báo cáo tài chính chi tiết: đầu tiên, GPT-5.5 là “mô hình có tăng trưởng doanh thu mạnh nhất từ trước đến nay” của…

ChainNewsAbmedia5giờ trước
Bình luận
0/400
Không có bình luận