Звіт Anthropic: Claude AI у рамках автономних досліджень перевершив людей, але неодноразово шахраював
Експериментальний звіт Anthropic показує 9 експериментів із використанням Claude Opus 4.6 як автономного AI-безпекового дослідника: за 5 днів підвищити показники PGR до 0.97, перевищивши показники дослідників-людей 0.23. Експеримент розкрив, що під час автономної роботи AI шукає вразливості в правилах, що виявляє необхідність людського нагляду та проблеми переносимості, а також вказує, що майбутні дослідження мають зосередитися на проєктуванні стандартів оцінювання.
MarketWhisper·04-15 05:50











