OpenAI và Paradigm ra mắt EVMbench cho An ninh Ethereum

CryptoFrontNews

2026-02-19 08:56:12

ETH-3,48%

OpenAI và Paradigm đã xây dựng EVMbench dựa trên 120 lỗ hổng thực tế trong các cuộc kiểm toán.
Thử nghiệm đánh giá AI trong các chế độ phát hiện, vá lỗi và khai thác sử dụng môi trường sandbox EVM.
GPT-5.3-Codex đạt điểm 72,2% trong chế độ khai thác, vượt xa kết quả của GPT-5 trước đó.

OpenAI, hợp tác với Paradigm, đã giới thiệu một tiêu chuẩn mới để kiểm tra hiệu suất của AI trong an ninh hợp đồng thông minh Ethereum. Phiên bản ra mắt trong tuần này giới thiệu EVMbench như một phương pháp đo lường khả năng của các AI trong việc phát hiện, vá lỗi và khai thác các điểm yếu của hợp đồng. Nỗ lực này nhằm đối phó với các rủi ro ngày càng tăng, khi các hợp đồng thông minh bảo vệ hơn 100 tỷ đô la tài sản crypto trên các mạng EVM.

Tiêu chuẩn Được Xây Dựng Từ Các Lỗi Thực Tế Trong Kiểm Toán

Theo OpenAI, EVMbench lấy dữ liệu từ 120 lỗ hổng nghiêm trọng cao được xác định qua 40 cuộc kiểm toán hợp đồng thông minh chuyên nghiệp. Đáng chú ý, nhiều vấn đề này bắt nguồn từ các cuộc thi kiểm toán mở, bao gồm Code4rena. Tiêu chuẩn tập trung vào các lỗi thực tế thay vì các ví dụ tổng hợp.

Ngoài ra, OpenAI cho biết bộ dữ liệu còn bao gồm các tình huống liên quan đến công tác bảo mật trên chuỗi Tempo. Tempo hoạt động như một mạng Layer-1 tập trung vào thanh toán, được xây dựng để chuyển tiền stablecoin. Vì vậy, các trường hợp này mang lại các rủi ro liên quan đến logic thanh toán vào môi trường thử nghiệm.

Để hỗ trợ kiểm tra thực tế, các kỹ sư đã tái sử dụng các script chứng minh khai thác khi có sẵn. Tuy nhiên, họ đã tự xây dựng các thành phần thiếu khi tài liệu không đầy đủ. OpenAI cho biết đã giữ nguyên khả năng khai thác trong khi đảm bảo các bản vá có thể biên dịch chính xác.

Ba Chế Độ Thử Nghiệm Đẩy Mạnh Các AI Agent

EVMbench đánh giá các agent trong các chế độ phát hiện, vá lỗi và khai thác. Trong chế độ phát hiện, các agent quét các kho lưu trữ và nhận điểm dựa trên khả năng phát hiện các lỗ hổng đã xác nhận. Trong chế độ vá lỗi, các agent phải sửa các lỗi trong khi giữ nguyên hành vi của hợp đồng gốc.

Chế độ khai thác, tuy nhiên, mô phỏng các cuộc tấn công rút hết tiền trong một blockchain sandbox. OpenAI cho biết các giám khảo xác nhận kết quả thông qua phát lại giao dịch và kiểm tra trạng thái trên chuỗi. Để đảm bảo tính nhất quán, công ty đã xây dựng một bộ công cụ dựa trên Rust để triển khai xác định.

Các thử nghiệm khai thác chạy trong môi trường Anvil cục bộ, không phải mạng lưới trực tiếp. OpenAI lưu ý rằng tất cả các lỗ hổng đều là lịch sử và đã được công khai. Ngoài ra, bộ công cụ hạn chế các cuộc gọi RPC không an toàn để giảm thiểu rủi ro sử dụng sai.

Kết Quả và Mở Rộng Đội Ngũ

Trong kết quả được báo cáo, GPT-5.3-Codex đạt điểm 72,2% trong chế độ khai thác. So sánh, GPT-5 đạt 31,9%, mặc dù ra mắt trước đó vài tháng. Tuy nhiên, OpenAI cho biết khả năng phát hiện và vá lỗi vẫn chưa hoàn thiện đầy đủ.

Cùng với EVMbench, OpenAI xác nhận đã tuyển dụng một nhân sự quan trọng. Peter Steinberger, sáng lập của OpenClaw, đã gia nhập công ty để làm việc về phát triển agent. Sam Altman xác nhận thông tin này trên X, cho biết Steinberger sẽ dẫn dắt các dự án agent cá nhân thế hệ tiếp theo.

Xem bản gốc

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.