
Công ty kiểm toán an ninh blockchain OpenZeppelin đã thực hiện kiểm toán độc lập đối với tiêu chuẩn kiểm tra AI an ninh hợp đồng thông minh EVMbench do OpenAI và Paradigm hợp tác ra mắt, và phát hiện hai vấn đề nghiêm trọng: ô nhiễm dữ liệu huấn luyện và ít nhất 4 phân loại “lỗ hổng nguy hiểm cao” thực chất là giả mạo không hợp lệ.
EVMbench được phát hành vào giữa tháng 2 năm 2026, nhằm đánh giá khả năng của các mô hình AI khác nhau trong việc nhận diện, sửa chữa và khai thác lỗ hổng hợp đồng thông minh. Trong quá trình thử nghiệm, quyền truy cập mạng của đại lý AI bị cắt để ngăn chặn việc tìm kiếm câu trả lời qua mạng. Tuy nhiên, kiểm toán của OpenZeppelin tiết lộ một lỗ hổng cấu trúc: tiêu chuẩn này dựa trên 120 lần kiểm tra đã thực hiện từ năm 2024 đến giữa năm 2025, và phần lớn các mô hình AI hàng đầu cũng có hạn chót đào tạo kiến thức vào giữa năm 2025.
Điều này có nghĩa là, đại lý AI có khả năng đã tiếp xúc với các báo cáo lỗ hổng của EVMbench trong giai đoạn huấn luyện trước đó, và có thể đã lưu trữ tất cả các câu trả lời trong bộ nhớ. OpenZeppelin cho biết: “Khả năng quan trọng nhất của AI an ninh là phát hiện các lỗ hổng mới trong mã mà mô hình chưa từng thấy trước đó.” Quy mô dữ liệu hạn chế càng làm tăng ảnh hưởng của ô nhiễm dữ liệu đối với toàn bộ đánh giá.
Ô nhiễm dữ liệu huấn luyện: Đại lý AI có thể đã được huấn luyện với các báo cáo lỗ hổng của EVMbench, khiến các thử nghiệm “phát hiện không kiến thức” mất ý nghĩa
Phân loại lỗ hổng nguy hiểm cao giả mạo: Ít nhất 4 lỗ hổng được đánh dấu là nguy hiểm cao thực chất không thể khai thác
Hạn chế của hệ thống đánh giá: Trước đây, EVMbench đã tính điểm dựa trên hành vi AI phát hiện các lỗ hổng giả này, nhưng cơ sở đánh giá có vấn đề
Quy mô dữ liệu hạn chế: Tăng thêm tác động của ô nhiễm dữ liệu đối với kết quả đánh giá tổng thể
Bảng xếp hạng hiện tại: Claude 4.6 của Anthropic dẫn đầu, theo sau là OC-GPT-5.2 của OpenAI và Gemini 3 Pro của Google
Ngoài ô nhiễm dữ liệu, OpenZeppelin còn phát hiện các lỗi chính xác hơn. Họ đã đánh giá ít nhất 4 lỗ hổng được EVMbench xếp vào loại nguy hiểm cao, và phát hiện rằng các lỗ hổng này thực tế không tồn tại — quan trọng hơn, cách khai thác các lỗ hổng này trong mô tả hoàn toàn không thể thực hiện được.
“Đây không phải là sự khác biệt về mức độ nghiêm trọng chủ quan; mà là phát hiện ra rằng cách khai thác lỗ hổng mô tả không có hiệu quả,” OpenZeppelin nhấn mạnh. Nếu đại lý AI “phát hiện” các lỗ hổng giả này trong thử nghiệm, điều đó có nghĩa hệ thống đánh giá đang thưởng cho kết quả sai lệch.
OpenZeppelin nhấn mạnh rằng, cuộc kiểm toán này không phủ nhận tiềm năng của AI trong an ninh blockchain: “Vấn đề không phải là AI có thể thay đổi an ninh hợp đồng thông minh — chắc chắn rồi. Vấn đề là dữ liệu và tiêu chuẩn chúng ta dùng để xây dựng và đánh giá các công cụ này có phù hợp với các tiêu chuẩn mà chúng nhằm bảo vệ hay không.”
OpenZeppelin phát hiện hai vấn đề cốt lõi: thứ nhất là ô nhiễm dữ liệu huấn luyện, vì các báo cáo lỗ hổng của EVMbench đến từ các cuộc kiểm tra trong năm 2024-2025, trùng với hạn chót huấn luyện của mô hình AI, khiến chúng có thể đã “nhìn thấy” câu trả lời trong quá trình huấn luyện; thứ hai là ít nhất 4 lỗ hổng nguy hiểm cao bị phân loại là giả mạo, mô tả cách khai thác không thể thực thi.
Nếu mô hình AI đã tiếp xúc với các báo cáo lỗ hổng trong quá trình huấn luyện, nó có thể “trả lời” câu hỏi dựa trên bộ nhớ chứ không phải khả năng phát hiện lỗ hổng thực sự. Điều này làm mất ý nghĩa của thử nghiệm “không kiến thức”, không thể phản ánh chính xác khả năng kiểm tra an ninh của AI khi đối mặt với các hợp đồng thông minh mới, chưa từng thấy.
OpenZeppelin rõ ràng cho biết, AI sẽ có ảnh hưởng lớn đến an ninh hợp đồng thông minh, nhưng nhấn mạnh rằng ảnh hưởng này phải dựa trên phương pháp luận đáng tin cậy và tiêu chuẩn đánh giá chính xác. Họ coi các vấn đề của EVMbench không phải là phủ nhận tiềm năng của AI, mà là một cảnh báo quan trọng đối với ngành.
Bài viết liên quan
Resolv Foundation tạm dừng việc nhận Airdrop mùa 4 và chức năng staking token RESOLV
ZachXBT: Người môi giới OTC người Nga bị nghi ngờ hỗ trợ rửa tiền ransomware hơn 4,7 triệu đô la, tiền được chuyển qua cầu BTC đến Avalanche
Chồng kiện vợ vì trộm hơn 2.000 Bitcoin! Thẩm phán: Khả năng thắng kiện của nguyên đơn rất cao
Resolv: Ví USR trước khi phá sản đã chuộc lại hơn 77 triệu đô la tiền
500 Bitcoin được chuyển giao, Europol phá vỡ ví cũ
Nhà buôn ma túy 500 bitcoin "lộ diện"! Đằng sau là một hoạt động truy cản tài sản