OpenAI Bỏ EVMbench Sau Thảm Họa Mã Claude Vibe

LiveBTCNews

2026-02-19 18:35:41

DEFI-4,03%

L1-0,31%

OpenAI ra mắt EVMbench để kiểm tra các AI agent về an ninh hợp đồng thông minh vài ngày sau khi mã hỗ trợ của Claude Opus 4.6 gây ra vụ khai thác DeFi trị giá 1,78 triệu đô la.

Các hợp đồng thông minh bảo vệ hơn 100 tỷ đô la tài sản crypto mã nguồn mở. Con số đó đủ để giải thích tại sao bước đi mới nhất của OpenAI đang thu hút sự chú ý nghiêm trọng. Công ty, hợp tác cùng quỹ đầu tư crypto Paradigm, đã ra mắt EVMbench, một bộ chuẩn để kiểm tra khả năng của AI agent trong việc phát hiện, khai thác và vá các lỗ hổng nghiêm trọng của hợp đồng thông minh.

Bộ chuẩn này lấy cảm hứng từ 120 lỗ hổng đã được chọn lọc từ 40 cuộc kiểm tra mã nguồn mở. Phần lớn các lỗ hổng này đến từ các cuộc thi kiểm tra mã nguồn mở. Điều làm nó khác biệt là phạm vi. EVMbench kiểm tra ba chế độ khả năng riêng biệt: phát hiện, vá và khai thác, mỗi chế độ được đo lường riêng biệt và đánh giá qua một hệ thống dựa trên Rust, mô phỏng lại các giao dịch trong môi trường sandbox cục bộ. Không có mạng lưới trực tiếp tham gia.

Số liệu cần mọi người phải lo lắng

Trong chế độ khai thác, GPT-5.3-Codex qua CLI của Codex đạt điểm 72,2%. Sáu tháng trước, GPT-5 đạt 31,9% trên cùng một chỉ số. Khoảng cách này không nhỏ. OpenAI xác nhận các số liệu này trong thông báo chính thức trên X, xem EVMbench như một công cụ đo lường và cũng như lời kêu gọi cộng đồng an ninh hành động.

Điểm phát hiện và vá vẫn thấp hơn. Các agent trong chế độ phát hiện đôi khi chỉ xác định được một lỗ hổng rồi dừng lại. Họ không kiểm tra toàn bộ mã nguồn. Trong chế độ vá, thách thức là giữ nguyên chức năng đầy đủ của hợp đồng trong khi loại bỏ lỗ hổng. Sự cân bằng này vẫn gây khó khăn cho các mô hình.

Phải đọc: Trust Wallet Bị Hack An Ninh: Làm thế nào để Bảo vệ Tài sản của Bạn

Lỗi Oracle trị giá 1,78 triệu đô la mà không ai phát hiện

Bối cảnh của tất cả những điều này rất quan trọng. Nhà nghiên cứu an ninh evilcos đã đăng trên X rằng giao thức cho vay DeFi Moonwell đã bị thiệt hại khoảng 1,78 triệu đô la. Nguyên nhân là do lỗi cấu hình Oracle. Công thức cung cấp giá bị viết sai, khiến giá cbETH được đặt là 1,12 đô la thay vì khoảng 2.200 đô la.

Đây là một lỗi ở cấp thấp. Loại kiểm tra cẩn thận này nên phát hiện ra. Yêu cầu pull trên GitHub cho đề xuất MIP-X43 đã cho thấy các cam kết do Claude Opus 4.6 đồng tác giả. Đây là mô hình mới nhất và mạnh nhất của Anthropic vào thời điểm đó.

Nhà kiểm tra hợp đồng thông minh pashov đã đăng trên X gọi đây có thể là vụ khai thác đầu tiên liên quan đến Solidity mã vibe. Ông cẩn thận nhấn mạnh rằng các nhà đánh giá con người vẫn giữ trách nhiệm cuối cùng. Một nhà kiểm tra an ninh phải ký xác nhận trước khi mọi thứ được đưa lên chuỗi. Nhưng có điều gì đó trong chuỗi này đã bị đứt đoạn.

EVMbench thực sự được xây dựng để làm gì

Bộ chuẩn bao gồm các kịch bản lỗ hổng từ cuộc kiểm tra an ninh của chuỗi khối Tempo, một L1 được thiết kế đặc biệt cho các giao dịch stablecoin với khả năng xử lý cao. Phần mở rộng này đẩy EVMbench vào lĩnh vực mã hợp đồng liên quan đến thanh toán, nơi OpenAI dự đoán hoạt động của stablecoin sẽ ngày càng phát triển.

Mỗi nhiệm vụ khai thác chạy trong một phiên bản Anvil cô lập. Các giao dịch được phát lại một cách xác định. Hệ thống đánh giá hạn chế các phương thức RPC không an toàn và đã được kiểm tra nội bộ để ngăn các agent gian lận kết quả. Các lỗ hổng được sử dụng là các trường hợp lịch sử và đã được công khai.

OpenAI cũng cam kết 10 triệu đô la tín dụng API để thúc đẩy phòng thủ mạng, ưu tiên phần mềm mã nguồn mở và hạ tầng quan trọng. Nhóm nghiên cứu an ninh của họ, Aardvark, đang mở rộng vào giai đoạn beta riêng tư. Việc quét mã nguồn miễn phí cho các dự án mã nguồn mở phổ biến là một phần trong chiến dịch này.

Câu hỏi về vibe-coding với rủi ro thực

Bài đăng của pashov trên X đã nêu lên điều mà nhiều người trong lĩnh vực DeFi đã tránh né. Khi AI viết mã Solidity cho sản xuất và con người phê duyệt nhanh chóng, lớp kiểm tra trở nên mỏng manh. Sự cố Moonwell đã cho thấy rõ điều đó có thể mỏng đến mức nào.

OpenAI thừa nhận rằng an ninh mạng vốn dĩ mang tính hai chiều. Phản ứng của họ dựa trên bằng chứng. Đào tạo an toàn, giám sát tự động và kiểm soát truy cập cho các khả năng nâng cao là một phần trong đó. Nhưng điểm số khai thác 72,2% trên một bộ chuẩn công khai là con số không thể giữ im lặng.

Toàn bộ bộ nhiệm vụ, công cụ và mã đánh giá của EVMbench hiện đã công khai. Mục tiêu là để các nhà nghiên cứu theo dõi khả năng mạng của AI trong lĩnh vực an ninh mạng ngày càng phát triển, và xây dựng các biện pháp phòng thủ cùng tốc độ đó. Liệu tốc độ đó có đủ nhanh hay không vẫn là câu hỏi chưa ai trả lời.

Xem bản gốc

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bình luận

0/400

Không có bình luận