Tin cổng, ngày 22 tháng 4 — Nghiên cứu sinh Princeton Yifan Zhang đã công bố đầy đủ thông số kỹ thuật của DeepSeek V4 trên X, sau một bản xem trước vào ngày 19 tháng 4. V4 có tổng cộng 1,6 nghìn tỷ tham số và một biến thể nhẹ, V4-Lite, với 285 tỷ tham số.
Mô hình sử dụng cơ chế chú ý DSA2, kết hợp (DeepSeek Sparse Attention) trước đó của DeepSeek từ V3.2 và (Native Sparse Attention) NSA với các phần nhúng đầu có chiều 512, đi kèm (Sparse Multi-Query Attention)MQA( và )Sliding Window Attention(SWA). Lớp MoE (Mixture of Experts) chứa 384 chuyên gia với 6 chuyên gia được kích hoạt cho mỗi lượt truyền xuôi, sử dụng Fused MoE Mega-Kernel. Các kết nối tắt (residual) dùng kiến trúc Hyper-Connections.
Các chi tiết huấn luyện được tiết lộ lần đầu bao gồm việc sử dụng bộ tối ưu Muon (applying Newton-Schulz orthogonalization to momentum updates), cửa sổ ngữ cảnh tiền huấn luyện 32K token và GRPO Group Relative Policy Optimization với hiệu chỉnh KL divergence trong quá trình học tăng cường. Cửa sổ ngữ cảnh cuối cùng mở rộng đến 1 triệu token. Mô hình chỉ xử lý văn bản.
Zhang không làm việc cho DeepSeek, và công ty cũng chưa bình luận chính thức về các thông tin được công bố.
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo
Tuyên bố miễn trừ trách nhiệm.
Bài viết liên quan
Alibaba Qwen mở dịch vụ AI cho đối tác bên ngoài, China Eastern Airlines là đơn vị đầu tiên tích hợp
Alibaba mở dịch vụ AI Qwen cho các đối tác bên ngoài; China Eastern Airlines trở thành đơn vị đầu tiên nằm ngoài Alibaba triển khai dịch vụ đặt vé bay AI đầu cuối, cho phép người dùng yêu cầu các lựa chọn như chuyến bay thẳng giá phải chăng hoặc chỗ ngồi rộng rãi.
GateNews4phút trước
Microsoft tích hợp Claude Mythos Preview của Anthropic để phát hiện lỗ hổng phần mềm
Tin tức từ Gate, ngày 23 tháng 4 — Microsoft đang tích hợp mô hình AI Claude Mythos Preview của Anthropic vào Vòng đời Phát triển An ninh của mình để phát hiện lỗi phần mềm sớm hơn và đẩy nhanh việc khắc phục. Thử nghiệm của công ty trên các bộ điểm chuẩn mã nguồn mở cho thấy Mythos vượt trội hơn các mô hình trước đó trong
GateNews4phút trước
Google Ra Mắt Các Chip AI Riêng Cho Huấn Luyện Và Suy Luận, Nâng Hiệu Suất Lên Tới 2,8 Lần
Tin tức Cổng, ngày 23 tháng 4 — Google đã công bố vào ngày 22 tháng 4 rằng họ sẽ phát hành các chip TPU thế hệ thứ tám tách riêng cho huấn luyện và suy luận vào cuối năm nay, thay thế thiết kế gộp trước đó. Động thái này nhắm đến khối lượng công việc tác nhân AI và mang đến cho khách hàng Google Cloud một lựa chọn thay thế cho phần cứng của Nvidia
GateNews24phút trước
Người sáng lập Liquid Capital: Thất bại của crypto VC bắt nguồn từ sự lệch pha với Web2; AI + Tài chính mang đến cơ hội mới
Tin từ Gate News, 23 tháng 4 — Jack Yi, người sáng lập Liquid Capital, cho biết trên X rằng những thất bại trước đây của crypto VC và các dự án chủ yếu xuất phát từ việc các nhóm lãng phí vốn để phát triển các sản phẩm Web3 không cần thiết bằng cách đánh giá sai bằng mốc của Web2. Yi lập luận rằng Web3 về bản chất là một ngành công nghiệp tài chính
GateNews36phút trước
FTX Sẽ Nắm Giữ $114B Tỷ USD Tài Sản Nếu Quỹ Phá Sản Chưa Bán Các Phần Đầu Tư Anthropic, Solana, SpaceX
Giá trị phần vốn chưa được thanh lý của FTX sẽ vào khoảng $114B tính đến hôm nay, với Anthropic 82,3 tỷ USD, SpaceX 15 tỷ USD, Solana 5,1 tỷ USD, Cursor 3 tỷ USD, Robinhood 4,9 tỷ USD và Genesis Digital 3,5 tỷ USD, theo Cointelegraph.
Tóm tắt: Nếu quỹ phá sản của FTX đã giữ lại các khoản đầu tư của mình, thì quỹ sẽ nắm giữ khoảng $114 tỷ USD tài sản, được dẫn dắt bởi Anthropic và SpaceX, qua đó nêu bật các khoản lãi chưa hiện thực lớn trong toàn danh mục, theo Cointelegraph.
GateNews37phút trước
Lô hàng Nvidia H200 tới Trung Quốc bị trì hoãn do phê duyệt, bất đồng về điều khoản
Bộ trưởng Thương mại Mỹ Howard Lutnick cho biết vào ngày 22 tháng 4 rằng Nvidia chưa bán các chip AI H200 của mình cho khách hàng Trung Quốc, viện dẫn việc thiếu phê duyệt của Bắc Kinh và việc Trung Quốc ưu tiên đầu tư cho các nhà cung cấp trong nước, theo Reuters.
Chính quyền Trump đã thông qua một số lô H200 dành cho Trung Quốc
CryptoFrontier50phút trước