Gemini 3.1 Pro ra mắt: Từ suy luận trừu tượng đến lập trình cấp độ thi đấu, Google đặt ra tiêu chuẩn AI cao cấp mới

ChainNewsAbmedia

2026-02-20 04:03:53

Khi cuộc thi các mô hình ngôn ngữ lớn chuyển từ “ai trả lời nhanh” sang “ai suy nghĩ sâu sắc”, Google lại ra mắt thế hệ công cụ cốt lõi mới. Vào ngày 19 tháng 2, Google chính thức công bố Gemini 3.1 Pro, không chỉ là bản cập nhật của dòng Gemini 3 mà còn là một nâng cấp toàn diện về khả năng suy luận cao cấp. Chính thức, họ nói rằng 3.1 Pro được thiết kế đặc biệt cho các nhiệm vụ phức tạp không có đáp án chuẩn, hướng tới nghiên cứu khoa học, phát triển kỹ thuật và các tình huống quyết định chuỗi dài.

Dựa trên dữ liệu thử nghiệm công khai, lần nâng cấp này không chỉ là lý thuyết suông mà đã đạt bước đột phá trong nhiều bài kiểm tra khó khăn cao.

Nâng cấp cốt lõi dành cho nhiệm vụ phức tạp

Trong tuyên bố, Google định vị Gemini 3.1 Pro là “mô hình nền thông minh hơn, có khả năng hơn”, nhấn mạnh bước nhảy vọt về khả năng suy luận cốt lõi. Mô hình này kế thừa kết quả nghiên cứu của Gemini 3 Deep Think trước đó, tiếp tục củng cố trí tuệ nền tảng, giúp nó thể hiện tốt hơn trong suy luận logic nhiều bước, tư duy trừu tượng và phân tích các vấn đề chuyên môn.

So với Gemini 3 Pro ra mắt vào tháng 11 năm 2025, 3.1 Pro không chỉ tối ưu hiệu năng mà còn có sự phát triển cấu trúc về khả năng suy luận.

ARC-AGI-2 đạt 77.1%: khả năng suy luận trừu tượng tăng gấp đôi

Thành tích nổi bật nhất đến từ bài kiểm tra ARC-AGI-2, được xem là chỉ số suy luận cao cấp của AI. Đề thi này đặc biệt kiểm tra khả năng mô hình giải quyết “mô hình logic mới” mà không dựa vào kiến thức đã có.

Theo dữ liệu công khai:

Gemini 3.1 Pro: 77.1% (xác nhận qua ARC Prize)

Gemini 3 Pro: 31.1%

Sonnet 4.6: 58.3%

Opus 4.6: 68.8%

GPT-5.2: 52.9%

So với thành tích 31.1% của thế hệ trước, 3.1 Pro gần như đã tăng gấp đôi. Thành tích này cho thấy mô hình có khả năng suy luận trừu tượng và tổng quát hóa mẫu tốt hơn khi đối mặt với vấn đề chưa biết.

Cập nhật kiến thức chuyên môn và suy luận khoa học cùng lúc

Trong bài kiểm tra kiến thức khoa học GPQA Diamond, Gemini 3.1 Pro đạt 94.3%, cao hơn GPT-5.2 với 92.4%, Opus 4.6 với 91.3% và Sonnet 4.6 với 89.9%.

Điều này cho thấy 3.1 Pro không chỉ xử lý logic trừu tượng mà còn duy trì trình độ hàng đầu trong tích hợp kiến thức chuyên môn và suy luận khoa học.

Tiến bộ rõ rệt về khả năng lập trình: thể hiện thi đấu cạnh tranh

Trong các bài kiểm tra lập trình và nhiệm vụ đại diện, Gemini 3.1 Pro cũng thể hiện xuất sắc.

LiveCodeBench Pro: Elo 2887 (GPT-5.2 là 2393, Gemini 3 Pro là 2439)

SWE-Bench Verified: 80.6% (GPT-5.2 là 80.0%, Opus 4.6 là 80.8%)

Terminal-Bench 2.0: 68.5% (GPT-5.2 là 54.0%, Sonnet 4.6 là 59.1%)

SciCode: 59% (GPT-5.2 là 52%, Sonnet 4.6 là 47%)

Đặc biệt trong các bài thi lập trình thi đấu, điểm Elo 2887 cho thấy lợi thế rõ ràng của mô hình trong các thuật toán phức tạp và logic lập trình nhiều bước.

Khả năng đa mô thức và xử lý văn bản dài duy trì ở mức cao

Trong hiểu đa mô thức và xử lý văn bản dài, Gemini 3.1 Pro cũng thể hiện ổn định:

MMMU Pro: 80.5%

MMLU: 92.6%

MRCR v2 (128k): 84.9%

Điểm trên 1 triệu token văn bản dài: 26.3%

Điều này có nghĩa là mô hình không chỉ có thể suy luận mà còn duy trì tính nhất quán và độ chính xác trong bối cảnh lớn.

Từ trả lời câu hỏi đến trực tiếp tạo ra kết quả

Google nhấn mạnh rằng giá trị của 3.1 Pro không chỉ nằm ở điểm số mà còn ở khả năng ứng dụng thực tế.

Ví dụ, mô hình có thể trực tiếp sinh mã SVG hoạt hình có thể triển khai. Các đầu ra này dựa trên mã lập trình thuần túy chứ không phải pixel hình ảnh, không chỉ có thể phóng to vô hạn và giữ rõ nét, mà dung lượng tệp còn nhỏ hơn nhiều so với định dạng video truyền thống, có thể nhúng trực tiếp vào website.

Khả năng này cho thấy mô hình đang chuyển từ “công cụ phản hồi” sang “công cụ sáng tạo và phát triển”.

Phổ biến trên nhiều nền tảng, doanh nghiệp và nhà phát triển trải nghiệm trước

Hiện tại, Gemini 3.1 Pro đã mở thử nghiệm dưới dạng xem trước:

Nhà phát triển

Gemini API (Google AI Studio)

Gemini CLI

Google Antigravity

Android Studio

Doanh nghiệp

Vertex AI

Gemini Enterprise

Người tiêu dùng

Ứng dụng Gemini (dành cho người dùng Pro và Ultra có giới hạn cao hơn)

NotebookLM (chỉ dành cho người dùng Pro và Ultra)

Google cho biết, giai đoạn xem trước sẽ tiếp tục tối ưu, đặc biệt trong các quy trình làm việc dựa trên tác nhân (agentic workflows), và sau đó sẽ chính thức ra mắt toàn diện.

Cuộc thi AI bước vào thời kỳ “suy nghĩ sâu”

Dựa trên các bài kiểm tra tiêu chuẩn, Gemini 3.1 Pro rõ ràng tập trung vào khả năng suy luận cao cấp và ứng dụng chuyên môn. Thành tích 77.1% trong ARC-AGI-2 đặc biệt quan trọng, tượng trưng cho bước đột phá của mô hình khi đối mặt với các vấn đề logic chưa biết.

Trong bối cảnh cạnh tranh các mô hình lớn ngày càng gay gắt, Google rõ ràng đã chọn đặt cược vào “trí tuệ sâu hơn”, thay vì chỉ nâng cao tốc độ sinh hoặc độ mượt của hội thoại.

Khi doanh nghiệp và nhà phát triển bắt đầu thử nghiệm mô hình này, giá trị thực sự của nó sẽ dần lộ diện trong ứng dụng thực tế. Cuộc đua AI có thể đang chuyển từ khả năng sinh ra nội dung sang khả năng suy nghĩ toàn diện hơn.

Bài viết này giới thiệu Gemini 3.1 Pro: Từ suy luận trừu tượng đến lập trình thi đấu, Google đẩy chuẩn AI cao cấp mới nhất Xuất hiện lần đầu trên Chain News ABMedia.

Xem bản gốc

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bình luận

0/400

Không có bình luận