Con người hoàn toàn vượt qua, AI đạt tối đa 0.37%: ARC-AGI-3 dùng "trò chơi chưa biết" để kiểm tra trí thông minh thực sự của Agent

BlockBeatNews

Theo theo dõi của 1M AI News, Quỹ ARC Prize do nhà sáng lập Keras François Chollet và đồng sáng lập Zapier Mike Knoop thành lập đã công bố bài kiểm tra chuẩn ARC-AGI-3. Khác với các nhiệm vụ suy luận lưới tĩnh thế hệ trước, ARC-AGI-3 là một tập hợp các môi trường tương tác theo lượt, trong đó Agent hoạt động trong thế giới lưới 64×64 với 16 màu, không nhận bất kỳ chỉ thị hay gợi ý mục tiêu nào, buộc phải tự khám phá môi trường, suy luận quy tắc và điều kiện chiến thắng, xây dựng mô hình thế giới và lập kế hoạch hành động.

Điểm số dựa trên cơ chế “hiệu quả hành động”, số bước cần để hoàn thành cùng một cấp độ càng ít thì điểm càng cao, nhằm phân biệt khả năng suy luận thực sự và phương pháp brute-force. Mỗi môi trường đều đã được kiểm tra chuẩn xác bởi con người, xác nhận có thể vượt qua lần đầu tiên tiếp xúc. Điểm số của các mô hình AI hàng đầu tại thời điểm phát hành là:

  1. Google Gemini 3.1 Pro Preview: 0.37%
  2. OpenAI GPT 5.4 (High): 0.26%
  3. Anthropic Opus 4.6 (Max): 0.25%
  4. xAI Grok-4.20 (Beta): 0.00%

Phiên bản mới phần nào ra đời từ lo ngại về việc các chuẩn trước đó đã bị “ô nhiễm”. Bài báo chỉ ra rằng, Gemini 3 trong chuỗi suy luận đã tự động sử dụng mối quan hệ ánh xạ màu sắc số của ARC-AGI (ví dụ “3 = màu xanh lá”), mặc dù trong phần gợi ý chưa từng đề cập đến mối quan hệ này, điều này ám chỉ dữ liệu huấn luyện của mô hình đã bao phủ đầy đủ các nhiệm vụ ARC-AGI. ARC-AGI-3 sử dụng môi trường tương tác và cơ chế phát hiện mục tiêu tự chủ để chống lại các phương pháp ghi nhớ shortcut như vậy. Cuộc thi ARC Prize 2026 có tổng giải thưởng hơn 2 triệu USD.

Xem bản gốc
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận