Yifan Zhang Công Bố Thông Số Kỹ Thuật Đầy Đủ của DeepSeek V4: 1,6T Tham Số, 384 Chuyên Gia với 6 Kích Hoạt

Tin cổng, ngày 22 tháng 4 — Nghiên cứu sinh Princeton Yifan Zhang đã công bố đầy đủ thông số kỹ thuật của DeepSeek V4 trên X, sau một bản xem trước vào ngày 19 tháng 4. V4 có tổng cộng 1,6 nghìn tỷ tham số và một biến thể nhẹ, V4-Lite, với 285 tỷ tham số.

Mô hình sử dụng cơ chế chú ý DSA2, kết hợp (DeepSeek Sparse Attention) trước đó của DeepSeek từ V3.2 và (Native Sparse Attention) NSA với các phần nhúng đầu có chiều 512, đi kèm (Sparse Multi-Query Attention)MQA( và )Sliding Window Attention(SWA). Lớp MoE (Mixture of Experts) chứa 384 chuyên gia với 6 chuyên gia được kích hoạt cho mỗi lượt truyền xuôi, sử dụng Fused MoE Mega-Kernel. Các kết nối tắt (residual) dùng kiến trúc Hyper-Connections.

Các chi tiết huấn luyện được tiết lộ lần đầu bao gồm việc sử dụng bộ tối ưu Muon (applying Newton-Schulz orthogonalization to momentum updates), cửa sổ ngữ cảnh tiền huấn luyện 32K token và GRPO Group Relative Policy Optimization với hiệu chỉnh KL divergence trong quá trình học tăng cường. Cửa sổ ngữ cảnh cuối cùng mở rộng đến 1 triệu token. Mô hình chỉ xử lý văn bản.

Zhang không làm việc cho DeepSeek, và công ty cũng chưa bình luận chính thức về các thông tin được công bố.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bài viết liên quan

Alibaba Qwen mở dịch vụ AI cho đối tác bên ngoài, China Eastern Airlines là đơn vị đầu tiên tích hợp

Alibaba mở dịch vụ AI Qwen cho các đối tác bên ngoài; China Eastern Airlines trở thành đơn vị đầu tiên nằm ngoài Alibaba triển khai dịch vụ đặt vé bay AI đầu cuối, cho phép người dùng yêu cầu các lựa chọn như chuyến bay thẳng giá phải chăng hoặc chỗ ngồi rộng rãi.

GateNews4phút trước

Microsoft tích hợp Claude Mythos Preview của Anthropic để phát hiện lỗ hổng phần mềm

Tin tức từ Gate, ngày 23 tháng 4 — Microsoft đang tích hợp mô hình AI Claude Mythos Preview của Anthropic vào Vòng đời Phát triển An ninh của mình để phát hiện lỗi phần mềm sớm hơn và đẩy nhanh việc khắc phục. Thử nghiệm của công ty trên các bộ điểm chuẩn mã nguồn mở cho thấy Mythos vượt trội hơn các mô hình trước đó trong

GateNews4phút trước

Google Ra Mắt Các Chip AI Riêng Cho Huấn Luyện Và Suy Luận, Nâng Hiệu Suất Lên Tới 2,8 Lần

Tin tức Cổng, ngày 23 tháng 4 — Google đã công bố vào ngày 22 tháng 4 rằng họ sẽ phát hành các chip TPU thế hệ thứ tám tách riêng cho huấn luyện và suy luận vào cuối năm nay, thay thế thiết kế gộp trước đó. Động thái này nhắm đến khối lượng công việc tác nhân AI và mang đến cho khách hàng Google Cloud một lựa chọn thay thế cho phần cứng của Nvidia

GateNews24phút trước

Người sáng lập Liquid Capital: Thất bại của crypto VC bắt nguồn từ sự lệch pha với Web2; AI + Tài chính mang đến cơ hội mới

Tin từ Gate News, 23 tháng 4 — Jack Yi, người sáng lập Liquid Capital, cho biết trên X rằng những thất bại trước đây của crypto VC và các dự án chủ yếu xuất phát từ việc các nhóm lãng phí vốn để phát triển các sản phẩm Web3 không cần thiết bằng cách đánh giá sai bằng mốc của Web2. Yi lập luận rằng Web3 về bản chất là một ngành công nghiệp tài chính

GateNews36phút trước

FTX Sẽ Nắm Giữ $114B Tỷ USD Tài Sản Nếu Quỹ Phá Sản Chưa Bán Các Phần Đầu Tư Anthropic, Solana, SpaceX

Giá trị phần vốn chưa được thanh lý của FTX sẽ vào khoảng $114B tính đến hôm nay, với Anthropic 82,3 tỷ USD, SpaceX 15 tỷ USD, Solana 5,1 tỷ USD, Cursor 3 tỷ USD, Robinhood 4,9 tỷ USD và Genesis Digital 3,5 tỷ USD, theo Cointelegraph. Tóm tắt: Nếu quỹ phá sản của FTX đã giữ lại các khoản đầu tư của mình, thì quỹ sẽ nắm giữ khoảng $114 tỷ USD tài sản, được dẫn dắt bởi Anthropic và SpaceX, qua đó nêu bật các khoản lãi chưa hiện thực lớn trong toàn danh mục, theo Cointelegraph.

GateNews37phút trước

Lô hàng Nvidia H200 tới Trung Quốc bị trì hoãn do phê duyệt, bất đồng về điều khoản

Bộ trưởng Thương mại Mỹ Howard Lutnick cho biết vào ngày 22 tháng 4 rằng Nvidia chưa bán các chip AI H200 của mình cho khách hàng Trung Quốc, viện dẫn việc thiếu phê duyệt của Bắc Kinh và việc Trung Quốc ưu tiên đầu tư cho các nhà cung cấp trong nước, theo Reuters. Chính quyền Trump đã thông qua một số lô H200 dành cho Trung Quốc

CryptoFrontier50phút trước
Bình luận
0/400
Không có bình luận