
Công ty kiểm toán an ninh blockchain OpenZeppelin đã thực hiện kiểm toán độc lập đối với tiêu chuẩn kiểm tra AI an ninh hợp đồng thông minh EVMbench do OpenAI và Paradigm hợp tác ra mắt, và phát hiện hai vấn đề nghiêm trọng: ô nhiễm dữ liệu huấn luyện và ít nhất 4 phân loại “lỗ hổng nguy hiểm cao” thực chất là giả mạo không hợp lệ.
EVMbench được phát hành vào giữa tháng 2 năm 2026, nhằm đánh giá khả năng của các mô hình AI khác nhau trong việc nhận diện, sửa chữa và khai thác lỗ hổng hợp đồng thông minh. Trong quá trình thử nghiệm, quyền truy cập mạng của đại lý AI bị cắt để ngăn chặn việc tìm kiếm câu trả lời qua mạng. Tuy nhiên, kiểm toán của OpenZeppelin tiết lộ một lỗ hổng cấu trúc: tiêu chuẩn này dựa trên 120 lần kiểm tra đã thực hiện từ năm 2024 đến giữa năm 2025, và phần lớn các mô hình AI hàng đầu cũng có hạn chót đào tạo kiến thức vào giữa năm 2025.
Điều này có nghĩa là, đại lý AI có khả năng đã tiếp xúc với các báo cáo lỗ hổng của EVMbench trong giai đoạn huấn luyện trước đó, và có thể đã lưu trữ tất cả các câu trả lời trong bộ nhớ. OpenZeppelin cho biết: “Khả năng quan trọng nhất của AI an ninh là phát hiện các lỗ hổng mới trong mã mà mô hình chưa từng thấy trước đó.” Quy mô dữ liệu hạn chế càng làm tăng ảnh hưởng của ô nhiễm dữ liệu đối với toàn bộ đánh giá.
Ô nhiễm dữ liệu huấn luyện: Đại lý AI có thể đã được huấn luyện với các báo cáo lỗ hổng của EVMbench, khiến các thử nghiệm “phát hiện không kiến thức” mất ý nghĩa
Phân loại lỗ hổng nguy hiểm cao giả mạo: Ít nhất 4 lỗ hổng được đánh dấu là nguy hiểm cao thực chất không thể khai thác
Hạn chế của hệ thống đánh giá: Trước đây, EVMbench đã tính điểm dựa trên hành vi AI phát hiện các lỗ hổng giả này, nhưng cơ sở đánh giá có vấn đề
Quy mô dữ liệu hạn chế: Tăng thêm tác động của ô nhiễm dữ liệu đối với kết quả đánh giá tổng thể
Bảng xếp hạng hiện tại: Claude 4.6 của Anthropic dẫn đầu, theo sau là OC-GPT-5.2 của OpenAI và Gemini 3 Pro của Google
Ngoài ô nhiễm dữ liệu, OpenZeppelin còn phát hiện các lỗi chính xác hơn. Họ đã đánh giá ít nhất 4 lỗ hổng được EVMbench xếp vào loại nguy hiểm cao, và phát hiện rằng các lỗ hổng này thực tế không tồn tại — quan trọng hơn, cách khai thác các lỗ hổng này trong mô tả hoàn toàn không thể thực hiện được.
“Đây không phải là sự khác biệt về mức độ nghiêm trọng chủ quan; mà là phát hiện ra rằng cách khai thác lỗ hổng mô tả không có hiệu quả,” OpenZeppelin nhấn mạnh. Nếu đại lý AI “phát hiện” các lỗ hổng giả này trong thử nghiệm, điều đó có nghĩa hệ thống đánh giá đang thưởng cho kết quả sai lệch.
OpenZeppelin nhấn mạnh rằng, cuộc kiểm toán này không phủ nhận tiềm năng của AI trong an ninh blockchain: “Vấn đề không phải là AI có thể thay đổi an ninh hợp đồng thông minh — chắc chắn rồi. Vấn đề là dữ liệu và tiêu chuẩn chúng ta dùng để xây dựng và đánh giá các công cụ này có phù hợp với các tiêu chuẩn mà chúng nhằm bảo vệ hay không.”
OpenZeppelin phát hiện hai vấn đề cốt lõi: thứ nhất là ô nhiễm dữ liệu huấn luyện, vì các báo cáo lỗ hổng của EVMbench đến từ các cuộc kiểm tra trong năm 2024-2025, trùng với hạn chót huấn luyện của mô hình AI, khiến chúng có thể đã “nhìn thấy” câu trả lời trong quá trình huấn luyện; thứ hai là ít nhất 4 lỗ hổng nguy hiểm cao bị phân loại là giả mạo, mô tả cách khai thác không thể thực thi.
Nếu mô hình AI đã tiếp xúc với các báo cáo lỗ hổng trong quá trình huấn luyện, nó có thể “trả lời” câu hỏi dựa trên bộ nhớ chứ không phải khả năng phát hiện lỗ hổng thực sự. Điều này làm mất ý nghĩa của thử nghiệm “không kiến thức”, không thể phản ánh chính xác khả năng kiểm tra an ninh của AI khi đối mặt với các hợp đồng thông minh mới, chưa từng thấy.
OpenZeppelin rõ ràng cho biết, AI sẽ có ảnh hưởng lớn đến an ninh hợp đồng thông minh, nhưng nhấn mạnh rằng ảnh hưởng này phải dựa trên phương pháp luận đáng tin cậy và tiêu chuẩn đánh giá chính xác. Họ coi các vấn đề của EVMbench không phải là phủ nhận tiềm năng của AI, mà là một cảnh báo quan trọng đối với ngành.
Bài viết liên quan
TRM Labs Báo cáo $35B Mất tiền do lừa đảo tiền điện tử trên toàn thế giới năm 2025
Iran, Bắc Triều Tiên đều đang sử dụng! Stablecoin trở thành tài sản ảo ưa thích cho giao dịch bất hợp pháp, số tiền liên quan lên tới 51 tỷ USD
Lừa đảo đầu độc địa chỉ: Cá mập TON mất 220.000 USD, kẻ lừa đảo hoàn trả phần lớn
OpenClaw xuất hiện lỗ hổng「tấn công tự thân」: Thực thi nhầm lệnh Bash dẫn đến rò rỉ khóa bí mật
Tập đoàn Thái Tử rửa tiền tại Đài Loan 107 tỷ! Tự phát triển "OJBK Ví" kết nối với các dịch vụ đổi tiền ngầm
Bộ Công Cụ Khai Thác iOS New Coruna Tăng Rủi Ro An Ninh cho Người Dùng Crypto