DeepSeek hợp tác cùng Tường Bắc và Tường Trung công bố bài báo nghiên cứu đột phá: Tập trung vào hạ tầng nền tảng của trí thông minh nhân tạo, phá vỡ điểm nghẽn I/O trong suy luận Agent!

robot
Đang tạo bản tóm tắt

Trước ngày ra mắt DeepSeek V4, bài báo nghiên cứu đột phá đã chính thức ra mắt

Các mô hình lớn đang nhanh chóng tiến hóa từ robot đối thoại đơn vòng thành các Agent có khả năng tự lập kế hoạch, gọi công cụ và giải quyết các vấn đề thực tế. Tuy nhiên, sự chuyển đổi này đã gây ra một trận động đất trong kiến trúc tính toán nền tảng.

Khi các mô hình lớn tương tác với môi trường qua hàng chục, thậm chí hàng trăm vòng trong bối cảnh dài hạn, nút thắt về tính toán chuyển từ sức mạnh GPU sang băng thông I/O lưu trữ. Do mỗi lần chỉ thêm rất ít Token, tỷ lệ trúng KV-Cache cực cao (thường trên 95%), khiến GPU phải dành phần lớn thời gian chờ đợi dữ liệu KV-Cache lịch sử khổng lồ từ bộ nhớ ngoài.

Để phá vỡ thế bế tắc này, DeepSeek phối hợp cùng nhóm nghiên cứu của Bắc Kinh và Tsinghua đã đề xuất hệ thống suy luận mô hình lớn hoàn toàn mới — DualPath.

Hệ thống này giới thiệu cơ chế “tải KV-Cache hai đường” tinh tế tận dụng băng thông mạng còn dư trong cluster, nâng cao khả năng suy luận offline của mô hình Agentic lên tối đa 1.87 lần, và tăng trung bình 1.96 lần khả năng phục vụ trực tuyến.

Hiện tại, nghiên cứu này đã được xác thực quy mô lớn trên cluster gồm tới 1152 GPU, hỗ trợ các mô hình lớn hàng đầu như DeepSeek-V3.2 660B.

Tại sao lại xuất hiện nút thắt I/O nghiêm trọng?

Để hiểu điểm sáng tạo của DualPath, trước tiên cần nhìn rõ các điểm đau của kiến trúc hiện tại.

Trong các hành trình của agent điển hình, mô hình nhận một đoạn prompt chứa cả ngữ cảnh trước đó và token mới được thêm vào, rồi sinh ra hành động tiếp theo.

Mô hình này qua nhiều vòng, với các token ngắn, làm độ dài ngữ cảnh tăng nhanh, thậm chí đạt hàng triệu ký tự. Do bộ nhớ GPU (HBM) và RAM (DRAM) có giới hạn, lượng KV-Cache khổng lồ phải được lưu trữ ở bộ lưu trữ ngoài rẻ hơn nhưng chậm hơn, như SSD.

Hệ thống suy luận mô hình lớn hiện đại thường dùng kiến trúc tách biệt Pre-fill và Decode. Node pre-fill xử lý prompt và tải KV-Cache trúng, còn node decode sinh từng token.

Vấn đề chính nằm ở đây.

Như hình 1 bên trái thể hiện, trong hệ thống hiện tại, tất cả KV-Cache đều được tải trực tiếp từ bộ lưu trữ ngoài vào node pre-fill. Điều này dẫn đến mất cân đối cực đoan: băng thông của card mạng lưu trữ (SNIC) của node pre-fill bị đầy, trở thành nút thắt của toàn hệ thống; trong khi đó, node decode lại bị bỏ phí lớn về băng thông lưu trữ.

Thêm vào đó, xu hướng phát triển phần cứng cũng làm gia tăng mâu thuẫn này. Qua hình 3 bên trái về lộ trình phát triển phần cứng của NVIDIA, có thể thấy sức mạnh tính toán của GPU (FLOPS) tăng nhanh hơn nhiều so với băng thông mạng và dung lượng bộ nhớ, gây ra sự mất cân đối nghiêm trọng giữa tính toán và I/O.

DualPath: Hai đường giúp phá vỡ giới hạn băng thông

Vì sao băng thông của node decode lại bị bỏ phí? Tại sao không tận dụng nó? Đây chính là ý tưởng cốt lõi của DualPath.

Nhóm nghiên cứu đã tái cấu trúc kiến trúc tải KV-Cache, mở ra một kênh tải mới hoàn toàn “từ lưu trữ đến decode rồi đến pre-fill”, gọi là “hai đường tải” (dual-path).

  1. Đường đọc pre-fill: KV-Cache đọc từ bộ lưu trữ lâu dài vào bộ đệm của node pre-fill, rồi truyền sang GPU để tính toán, cuối cùng truyền toàn bộ KV-Cache cho node decode.

  2. Đường đọc decode: KV-Cache từ bộ lưu trữ đọc vào bộ đệm của node decode. Trong giai đoạn pre-fill, dữ liệu này được truyền qua mạng tính toán tốc độ cao giữa các node (sử dụng công nghệ RDMA), theo dạng luồng phân tầng gửi đến node pre-fill để tính toán.

Bằng cách phân bổ luồng dữ liệu của hai đường này một cách linh hoạt, DualPath biến áp lực I/O của một node thành phân phối tải toàn cục, hợp nhất băng thông lưu trữ của tất cả các node.

Vượt qua thách thức thực thi: cô lập luồng và điều phối động

Ý tưởng rất trực quan, nhưng để thực hiện trong hệ thống suy luận mô hình lớn cực kỳ nhạy cảm với độ trễ dưới mili giây, cần giải quyết các bài toán kỹ thuật phức tạp.

Thách thức đầu tiên là nhiễu loạn luồng mạng.

Việc thêm truyền KV-Cache dễ gây xung đột với các giao tiếp quan trọng trong quá trình suy luận như thao tác AllToAll trong kiến trúc MoE, làm chậm toàn bộ quá trình.

Để giải quyết, DualPath thiết kế cơ chế quản lý luồng dựa trên card mạng tính toán (CNIC). Tất cả luồng ra vào GPU (bao gồm sao chép từ CPU) đều buộc phải đi qua CNIC, và sử dụng cơ chế kênh ảo của mạng (như InfiniBand) để kiểm soát chất lượng dịch vụ (QoS) nghiêm ngặt. Giao tiếp suy luận được phân bổ vào kênh ưu tiên cao (chiếm 99% băng thông), còn truyền KV-Cache vào kênh ưu tiên thấp, chỉ truyền khi mạng tính toán rảnh rỗi, đạt được cô lập luồng hoàn hảo.

Thách thức thứ hai là cân bằng tải động.

Trước các yêu cầu phức tạp và biến đổi, hệ thống phải quyết định thời điểm thực hiện đọc từ đường nào cho từng yêu cầu, đồng thời cân nhắc độ dài hàng đợi của card mạng và tải tính toán của GPU.

DualPath giới thiệu bộ điều phối yêu cầu thích ứng (như hình 5). Bộ điều phối này không chỉ theo dõi độ dài hàng đợi đọc đĩa của từng node, mà còn dựa vào số Token để đo lường tải. Hệ thống phân chia các node thành ba loại: quá tải, đọc thấp, đọc cao, ưu tiên phân phối nhiệm vụ mới cho các node có hàng đợi ngắn và chưa quá tải.

Trong nội bộ node, hệ thống còn dựa trên dự đoán thời gian để sắp xếp các yêu cầu, gom các yêu cầu có thời gian thực thi gần nhau vào cùng một batch, giảm thiểu thời gian chờ đợi đồng bộ của GPU.

Tăng gần gấp đôi khả năng xử lý, mở rộng quy mô hàng nghìn

Nhóm nghiên cứu đã đánh giá toàn diện DualPath trên cluster NVIDIA Hopper gồm mạng InfiniBand và bộ lưu trữ phân tán 3FS. Các mô hình thử nghiệm gồm DeepSeek-V3.2 660B, DS 27B và Qwen2.5-32B, sử dụng dữ liệu hành trình môi trường tăng cường thực tế.

Hiệu suất suy luận offline theo batch (như giai đoạn Rollout trong học tăng cường):

Trong các thiết lập số agent đồng thời và độ dài ngữ cảnh tối đa khác nhau, DualPath thể hiện ưu thế vượt trội so với hệ thống cơ bản. Khi xử lý mô hình DeepSeek 660B, DualPath rút ngắn đáng kể thời gian hoàn thành nhiệm vụ, tăng tối đa 1.87 lần throughput.

Khi độ dài token thêm vào mỗi vòng hoặc độ dài sinh ra thay đổi, DualPath vẫn duy trì hiệu suất ổn định, chứng minh đã thành công loại bỏ nút thắt mạng lưu trữ.

Hiệu suất dịch vụ trực tuyến:

Trong điều kiện đảm bảo dịch vụ có độ trễ nhỏ hơn 4 giây, khả năng xử lý các yêu cầu đột xuất của hệ thống được nâng cao rõ rệt. DualPath có thể hỗ trợ số lượng yêu cầu đến cao hơn gấp 2.25 lần so với hệ thống cơ bản, đồng thời duy trì độ trễ sinh ra cuối cùng cực thấp. Các thử nghiệm loại bỏ từng phần (ablation) xác nhận rằng cơ chế tải hai đường và thuật toán điều phối thích ứng là các yếu tố then chốt giúp nâng cao hiệu năng.

Khả năng mở rộng quy mô lớn:

Hệ thống không chỉ thể hiện xuất sắc trên cluster nhỏ, mà còn có khả năng mở rộng cực cao khi đối mặt với lượng tính toán khổng lồ. Trong thử nghiệm với cluster gồm 1152 GPU (48 node pre-fill, 96 node decode), DualPath vẫn duy trì khả năng mở rộng gần như tuyến tính.

Bằng cách định hình lại luồng dữ liệu nền tảng, DualPath mở đường cho kỷ nguyên mô hình Agentic sắp tới, xây dựng nền tảng hạ tầng cho suy luận siêu tốc.

Nguồn bài viết: AI Cambrian

Lời cảnh báo rủi ro và điều khoản miễn trừ trách nhiệm

        Thị trường có rủi ro, đầu tư thận trọng. Bài viết này không phải là đề xuất đầu tư cá nhân, cũng chưa xem xét các mục tiêu, tình hình tài chính hoặc nhu cầu đặc biệt của từng người dùng. Người dùng cần tự chịu trách nhiệm khi cân nhắc các ý kiến, quan điểm hoặc kết luận trong bài viết phù hợp với tình hình của mình. Đầu tư theo đó, trách nhiệm thuộc về chính bạn.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
0/400
Không có bình luận
  • Ghim