OpenAI và Paradigm đã xây dựng EVMbench dựa trên 120 lỗ hổng thực tế trong các cuộc kiểm toán.
Thử nghiệm đánh giá AI trong các chế độ phát hiện, vá lỗi và khai thác sử dụng môi trường sandbox EVM.
GPT-5.3-Codex đạt điểm 72,2% trong chế độ khai thác, vượt xa kết quả của GPT-5 trước đó.
OpenAI, hợp tác với Paradigm, đã giới thiệu một tiêu chuẩn mới để kiểm tra hiệu suất của AI trong an ninh hợp đồng thông minh Ethereum. Phiên bản ra mắt trong tuần này giới thiệu EVMbench như một phương pháp đo lường khả năng của các AI trong việc phát hiện, vá lỗi và khai thác các điểm yếu của hợp đồng. Nỗ lực này nhằm đối phó với các rủi ro ngày càng tăng, khi các hợp đồng thông minh bảo vệ hơn 100 tỷ đô la tài sản crypto trên các mạng EVM.
Theo OpenAI, EVMbench lấy dữ liệu từ 120 lỗ hổng nghiêm trọng cao được xác định qua 40 cuộc kiểm toán hợp đồng thông minh chuyên nghiệp. Đáng chú ý, nhiều vấn đề này bắt nguồn từ các cuộc thi kiểm toán mở, bao gồm Code4rena. Tiêu chuẩn tập trung vào các lỗi thực tế thay vì các ví dụ tổng hợp.
Ngoài ra, OpenAI cho biết bộ dữ liệu còn bao gồm các tình huống liên quan đến công tác bảo mật trên chuỗi Tempo. Tempo hoạt động như một mạng Layer-1 tập trung vào thanh toán, được xây dựng để chuyển tiền stablecoin. Vì vậy, các trường hợp này mang lại các rủi ro liên quan đến logic thanh toán vào môi trường thử nghiệm.
Để hỗ trợ kiểm tra thực tế, các kỹ sư đã tái sử dụng các script chứng minh khai thác khi có sẵn. Tuy nhiên, họ đã tự xây dựng các thành phần thiếu khi tài liệu không đầy đủ. OpenAI cho biết đã giữ nguyên khả năng khai thác trong khi đảm bảo các bản vá có thể biên dịch chính xác.
EVMbench đánh giá các agent trong các chế độ phát hiện, vá lỗi và khai thác. Trong chế độ phát hiện, các agent quét các kho lưu trữ và nhận điểm dựa trên khả năng phát hiện các lỗ hổng đã xác nhận. Trong chế độ vá lỗi, các agent phải sửa các lỗi trong khi giữ nguyên hành vi của hợp đồng gốc.
Chế độ khai thác, tuy nhiên, mô phỏng các cuộc tấn công rút hết tiền trong một blockchain sandbox. OpenAI cho biết các giám khảo xác nhận kết quả thông qua phát lại giao dịch và kiểm tra trạng thái trên chuỗi. Để đảm bảo tính nhất quán, công ty đã xây dựng một bộ công cụ dựa trên Rust để triển khai xác định.
Các thử nghiệm khai thác chạy trong môi trường Anvil cục bộ, không phải mạng lưới trực tiếp. OpenAI lưu ý rằng tất cả các lỗ hổng đều là lịch sử và đã được công khai. Ngoài ra, bộ công cụ hạn chế các cuộc gọi RPC không an toàn để giảm thiểu rủi ro sử dụng sai.
Trong kết quả được báo cáo, GPT-5.3-Codex đạt điểm 72,2% trong chế độ khai thác. So sánh, GPT-5 đạt 31,9%, mặc dù ra mắt trước đó vài tháng. Tuy nhiên, OpenAI cho biết khả năng phát hiện và vá lỗi vẫn chưa hoàn thiện đầy đủ.
Cùng với EVMbench, OpenAI xác nhận đã tuyển dụng một nhân sự quan trọng. Peter Steinberger, sáng lập của OpenClaw, đã gia nhập công ty để làm việc về phát triển agent. Sam Altman xác nhận thông tin này trên X, cho biết Steinberger sẽ dẫn dắt các dự án agent cá nhân thế hệ tiếp theo.
Bài viết liên quan
Dữ liệu: Trong 24 giờ qua, toàn bộ mạng đã bị thanh lý 274 triệu USD, thanh lý vị thế mua 189 triệu USD, thanh lý vị thế bán 85,946.9 nghìn USD
Dữ liệu: Nếu ETH vượt qua 2.168 USD, cường độ thanh lý vị thế bán tổng hợp trên các sàn CEX chính sẽ đạt 624 triệu USD
Dự đoán giá Bitcoin chuyển sang tích cực, nhưng Ethereum vẫn còn mắc kẹt
Crypto tốt nhất để mua ngay bây giờ: SOL và LINK tăng giá, nhưng Pepeto hướng tới 100x trong khi Quỹ Ethereum dự định biến ETH thành lớp tin cậy cho AI
Dữ liệu: Trong 24 giờ qua, toàn bộ mạng đã bị thanh lý 339 triệu USD, trong đó thanh lý vị thế mua 182 triệu USD, thanh lý vị thế bán 157 triệu USD