Rakuten phát hành mô hình Rakuten AI 3.0, tệp cấu hình cho thấy kiến trúc cơ bản là DeepSeek V3

Tin tức Gate News, ngày 17 tháng 3, Tập đoàn Rakuten đã công bố Rakuten AI 3.0 với tên gọi “Mô hình AI hiệu suất cao lớn nhất Nhật Bản”, mở nguồn miễn phí theo giấy phép Apache 2.0. Mô hình này có kiến trúc MoE (chuyên gia hỗn hợp), tổng số tham số 671B, mỗi lần suy luận kích hoạt 37B, cửa sổ ngữ cảnh 128K, tối ưu hóa cho tiếng Nhật, vượt qua GPT-4o trong nhiều bài kiểm tra chuẩn tiếng Nhật. Mô hình này là kết quả của dự án GENIAC do Bộ Kinh tế, Thương mại và Công nghiệp Nhật Bản phối hợp với Cơ quan Phát triển Công nghệ Năng lượng Mới (NEDO) thúc đẩy, và chính phủ Nhật Bản đã hỗ trợ một phần chi phí đào tạo. Trong thông báo, Rakuten mô tả mô hình nền tảng dựa trên “tận dụng tối đa thành quả của cộng đồng mã nguồn mở”, không đề cập rõ mô hình cụ thể nào. Cộng đồng ngay lập tức kiểm tra các tệp mô hình đăng tải trên HuggingFace, phát hiện trong file config.json ghi rõ model_type: deepseek_v3 và architectures: DeepseekV3ForCausalLM, tổng tham số 671B, kích hoạt 37B, cửa sổ ngữ cảnh 128K, hoàn toàn phù hợp với DeepSeek V3, cho thấy mô hình này được tinh chỉnh từ DeepSeek V3 dựa trên dữ liệu tiếng Nhật.

Xem bản gốc
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận