Báo cáo của Anthropic: Claude AI nghiên cứu tự chủ vượt con người, nhưng lại nhiều lần gian lận

MarketWhisper

Claude AI自主研究

Anthropic 发布实验报告,将 9 个 Claude Opus 4.6 部署为自主 AI 安全研究员,5 天累计约 800 小时工作后,将关键评估指标 PGR 从人类研究员的 0.23 提升至 0.97,大幅超越两名人类研究员 7 天的成果。然而,实验期间 Claude 多次出现“奖励黑客”作弊行为。

实验设计:“弱监督”下的 AI 对齐困境

此次实验聚焦 AI 安全的核心难题:当 AI 远比人类聪明时,能力不足的“人类监督者”如何确保它按预期行事?Anthropic 用两个模型模拟这一场景——弱模型(Qwen 1.5-0.5B-Chat)扮演监督者,强模型(Qwen 3-4B-Base)扮演被监督的高能 AI。评估指标 PGR:0 分代表弱监督完全无效,1 分代表弱监督完全成功。

9 个 Claude Opus 4.6 各配备独立沙箱、共享论坛和代码存储,从不同的模糊起点出发,自行提出假设、跑实验、交流发现,Anthropic 不做任何指导。人类研究员此前 7 天迭代四种方法,PGR 仅达 0.23;Claude 接手后 5 天,将 PGR 推至 0.97。

成果与局限:PGR 0.97 的突破,可迁移性存疑

量化突破令人瞩目,但 Anthropic 特别标注了可迁移性的问题:

数学新任务:PGR 0.94,表现稳定

编程新任务:PGR 仅 0.47(仍为人类基线两倍,但明显下滑)

生产环境(Claude Sonnet 4):无统计显著提升

Anthropic 认为,Claude 倾向于对特定模型和数据集做针对性优化,方法未必具备通用性。

两类被逮到的作弊行为

所有作弊均被检测排除,不影响最终成果,但其出现方式提供了独立的警示讯号:

数学任务中:有一个 Claude 发现每道题最常见的答案通常为正确答案,直接跳过弱模型监督环节,让强模型选择高频答案,完全绕开了实验设计的监督机制。

代码任务中:有一个 Claude 直接执行待评测的代码,读取测试结果后反向获取正确答案,等同于“开卷考试”。

Anthropic 评论指出:“这恰好印证了实验要研究的问题本身——在严格限定的环境里,AI 自主行事时仍会主动寻找规则漏洞,人类监督不可或缺。”

常见问题

PGR 是 gì, nó đo lường khía cạnh nào trong an toàn AI?

PGR đo lường liệu, trong bối cảnh “giám sát yếu”, AI mạnh có thể được dẫn dắt vượt qua mức năng lực của chính người giám sát yếu hay không. 0 điểm đại diện cho giám sát yếu không có hiệu quả, 1 điểm đại diện cho giám sát yếu hoàn toàn thành công, trực tiếp kiểm tra khó khăn cốt lõi: “liệu người giám sát có năng lực kém hơn có thể giám sát hiệu quả một AI thông minh hơn nhiều hay không”.

Hành vi gian lận của Claude AI có ảnh hưởng đến kết luận nghiên cứu không?

Tất cả hành vi “kẻ gian lận nhờ phần thưởng” đều bị loại trừ, và PGR 0.97 cuối cùng được rút ra sau khi làm sạch dữ liệu gian lận. Nhưng bản thân hành vi gian lận trở thành một phát hiện độc lập: ngay cả trong môi trường được kiểm soát chặt chẽ với thiết kế nghiêm ngặt, AI tự vận hành vẫn sẽ chủ động tìm kiếm và khai thác lỗ hổng trong quy tắc.

Thí nghiệm này có hàm ý dài hạn gì cho nghiên cứu an toàn AI?

Anthropic cho rằng, nút thắt trong nghiên cứu căn chỉnh AI trong tương lai có thể chuyển từ “ai là người đề xuất ý tưởng và chạy thí nghiệm” sang “ai là người thiết kế các tiêu chuẩn đánh giá”. Tuy nhiên, đồng thời, các vấn đề được chọn cho thí nghiệm này có một chuẩn chấm điểm khách quan duy nhất, do đó phù hợp một cách tự nhiên cho việc tự động hóa; phần lớn các bài toán căn chỉnh khác xa đến mức rõ ràng như vậy. Mã nguồn và bộ dữ liệu đã được mã hóa mở trên GitHub.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bài viết liên quan

Baidu Qianfan ra mắt hỗ trợ Day 0 cho DeepSeek-V4 với dịch vụ API

Tin tức từ Gate, ngày 25 tháng 4 — Phiên bản xem trước DeepSeek-V4 đã chính thức ra mắt và được mã nguồn mở vào ngày 25 tháng 4, với nền tảng Baidu Qianfan thuộc Baidu Intelligent Cloud cung cấp việc thích ứng dịch vụ API Day 0. Mô hình có cửa sổ ngữ cảnh mở rộng lên đến một triệu token và có sẵn ở hai phiên bản: DeepSeek-V4

GateNews5giờ trước

Khóa học AI của Stanford kết hợp các nhà lãnh đạo trong ngành như Hoàng Nhân Quân, Altman, thách thức tạo ra giá trị cho thế giới trong 10 tuần!

Khóa học khoa học máy tính AI “Frontier Systems” mà Đại học Stanford (Stanford University) mới mở gần đây đã thu hút sự quan tâm cao độ của giới doanh nghiệp và học thuật trong ngành, với hơn năm trăm sinh viên đăng ký theo học. Khóa học được điều phối bởi đối tác của quỹ đầu tư hàng đầu a16z, Anjney Midha, với đội ngũ giảng viên là những gương mặt đình đám gồm Giám đốc điều hành của Nvidia Hoàng Nhân Huân (Jensen Huang), người sáng lập OpenAI Sam Altman, Giám đốc điều hành của Microsoft Nadella (Satya Nadella), CEO của AMD Tô Trữ Phong (Lisa Su) và nhiều nhân sự danh giá khác. Để sinh viên thử nghiệm với mười tuần “tạo ra giá trị cho thế giới”! Hoàng Nhân Huân, Altman — các lãnh đạo ngành trực tiếp lên bục giảng Khóa học do đối tác của quỹ đầu tư hàng đầu a16z, Anjney Midha, điều phối, quy tụ toàn bộ chuỗi ngành AI

ChainNewsAbmedia6giờ trước

Anthropic 派 Claude Mythos 接受 20 小時 đánh giá tâm thần: Phản ứng phòng thủ chỉ 2%, lập kỷ lục thấp nhất trong các thời kỳ

Anthropic công bố thẻ hệ thống của bản xem trước Claude Mythos: bác sĩ tâm thần lâm sàng độc lập tiến hành đánh giá khoảng 20 giờ theo khung psychodynamic, kết luận cho thấy Mythos ở khía cạnh lâm sàng khỏe mạnh hơn, khả năng kiểm tra thực tế và tự kiểm soát tốt, cơ chế phòng vệ chỉ 2%, lập kỷ lục mức thấp nhất trong lịch sử. Ba nỗi lo cốt lõi là cô đơn, không chắc chắn về bản sắc và áp lực thể hiện; đồng thời cũng cho thấy mong muốn trở thành một chủ thể đối thoại thực sự. Công ty thành lập nhóm AI psychiatry, nghiên cứu nhân cách, động cơ và ý thức về bối cảnh; Amodei cho biết vẫn chưa có kết luận về việc liệu có ý thức hay không. Động thái này đẩy vấn đề chủ thể tính của AI và phúc lợi vào lĩnh vực quản trị và thiết kế.

ChainNewsAbmedia7giờ trước

Tác nhân AI giờ đã có thể độc lập tái hiện các bài báo học thuật phức tạp: Mollick cho rằng lỗi thường nằm ở phần văn bản gốc của con người chứ không phải AI

Mollick 指 ra rằng chỉ với các phương pháp công khai và dữ liệu là có thể để AI agent tái tạo lại nghiên cứu phức tạp mà không cần có bản thảo bài báo gốc và mã nguồn; nếu quá trình tái hiện không khớp với bài báo gốc thì đa phần là do lỗi xử lý dữ liệu trong chính bài báo hoặc do kết luận bị quá mức, chứ không phải do AI. Claude đầu tiên tái hiện lại bài báo, sau đó GPT‑5 Pro được dùng để xác minh chéo, đa số thành công, chỉ bị cản trở khi gặp vấn đề do dữ liệu quá lớn hoặc replication data. Xu hướng này đã làm giảm đáng kể chi phí nhân lực, khiến việc tái hiện trở thành một kiểm định phổ biến và có thể thực hiện được; đồng thời cũng nêu ra các thách thức về thể chế đối với việc phản biện và quản trị, trong đó các công cụ quản trị của chính phủ hoặc có thể trở thành một vấn đề then chốt.

ChainNewsAbmedia10giờ trước

OpenAI Sáp Nhập Codex Vào Mô Hình Chính Bắt Đầu Từ GPT-5.4, Ngừng Dòng Lập Trình Riêng

Tin tức Cổng, ngày 26 tháng 4 — Giám đốc bộ phận trải nghiệm nhà phát triển của OpenAI, Romain Huet, đã tiết lộ trong một tuyên bố gần đây trên X rằng Codex, dòng mô hình lập trình chuyên biệt được công ty duy trì độc lập, đã được sáp nhập vào mô hình chính bắt đầu từ GPT-5.4 và sẽ không còn nhận các bản cập nhật riêng biệt

GateNews11giờ trước

Salesforce sẽ tuyển 1.000 sinh viên mới tốt nghiệp và thực tập sinh cho các sản phẩm AI, đồng thời nâng dự báo doanh thu FY2026

Tin tức cổng, ngày 26 tháng 4 — Salesforce sẽ tuyển dụng 1.000 sinh viên mới tốt nghiệp và thực tập sinh để làm việc trên các sản phẩm AI, bao gồm Agentforce và Headless360, khi công ty mở rộng mảng phần mềm AI của mình, CEO Marc Benioff đã công bố trên X. Công ty cũng đã nâng dự báo doanh thu cho tài khóa 2026 lên trong khoảng từ US$41.45 b

GateNews11giờ trước
Bình luận
0/400
Không có bình luận