OpenZeppelin 審計 EVMbench 發現資料污染

Market Whisper

2026-03-03 06:12:00

區塊鏈安全審計公司 OpenZeppelin 對 OpenAI 與 Paradigm 合作推出的智能合約安全 AI 基準測試 EVMbench 進行了獨立審計，並發現兩大嚴重問題：訓練資料污染以及至少 4 個被標記為「高危漏洞」的分類實際上屬於無效偽造。

EVMbench 的資料污染問題：AI 訓練截止日期的關鍵漏洞

EVMbench 於 2026 年 2 月中旬發布，旨在評估不同 AI 模型識別、修復和利用智能合約漏洞的能力，測試期間 AI 代理的網路存取權限被切斷，防止其從網路搜尋答案。然而，OpenZeppelin 的審計揭示了一個結構性漏洞：該基準測試是基於 2024 年至 2025 年年中期間開展的 120 次審計中篩選的漏洞，而多數頂尖 AI 模型的知識訓練截止日期同樣設定在 2025 年年中。

這意味著，AI 代理很可能在預訓練期間已接觸過 EVMbench 的漏洞報告，其記憶體中可能已儲存了所有問題的答案。OpenZeppelin 表示：「AI 安全最重要的能力是發現模型以前從未見過的程式碼中的新漏洞。」資料集規模有限進一步放大了污染對整體評估的影響。

EVMbench 審計發現的關鍵問題

訓練資料污染：AI 代理的預訓練可能已包含 EVMbench 的漏洞報告，使「零知識發現」測試失去意義

無效高危漏洞分類：至少 4 個被標記為高危的漏洞實際上無法被利用

評分系統缺陷：EVMbench 此前對 AI 發現這些偽漏洞的行為給予積分，評分基礎存在問題

資料集規模有限：進一步放大了污染對整體評估結果的影響

當前排行榜：Anthropic 的 Claude 4.6 領先，OpenAI 的 OC-GPT-5.2 和 Google 的 Gemini 3 Pro 緊隨其後

偽漏洞危機：至少 4 個高危分類被證實無效

除資料污染外，OpenZeppelin 還發現了更具體的事實錯誤。他們評估了至少 4 個被 EVMbench 歸類為高危的漏洞，發現這些漏洞實際上不存在——更關鍵的是，其描述的漏洞利用方式根本無法奏效。

「這些並非主觀上的嚴重性分歧；而是發現所描述的漏洞利用方式並未奏效，」OpenZeppelin 指出。若 AI 代理在測試中「發現」了這些偽漏洞，意味著評分系統在獎勵錯誤的結果。

OpenZeppelin 強調，這次審計並非否定 AI 在區塊鏈安全中的潛力：「問題不在於 AI 是否會改變智能合約的安全性——它肯定會。問題在於，我們用來建構和評估這些工具的資料和基準，是否與它們旨在保護的合約遵循相同的標準。」

常見問題

OpenZeppelin 對 EVMbench 的審計發現了什麼問題？

OpenZeppelin 發現兩大核心問題：一是訓練資料污染，EVMbench 的測試漏洞來自 2024 至 2025 年中的審計報告，與 AI 模型訓練截止日期重疊，這些模型可能在預訓練中已「見過」答案；二是至少 4 個高危漏洞分類屬於無效偽造，其描述的攻擊方式實際上無法執行。

資料污染為何對 AI 安全評測如此危險？

如果 AI 模型在預訓練中已接觸過基準測試的漏洞報告，它可能透過記憶體「回答」問題，而非真正的漏洞發現能力。這使整個評測失去「零知識測試」的意義，無法真實反映 AI 面對全新未知智能合約時的實際安全審計能力。

OpenZeppelin 對 AI 在區塊鏈安全領域的前景持何種態度？

OpenZeppelin 明確表示，AI 將對智能合約安全產生重大影響，但強調這種影響必須建立在可信的方法論和準確評測基礎之上。他們認為 EVMbench 的問題不是否定 AI 的信號，而是對行業標準的一次重要警示。

免責聲明：本頁面資訊可能來自第三方，不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考，不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證，對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為，價格波動劇烈，您可能損失全部投資本金。請充分了解相關風險，並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明。

甘肅天水法院審理虛擬貨幣洗錢案：被告人「跑腿取現」獲刑二年四個月

執法行動安全事件

甘肅天水秦州區法院審理一起虛擬貨幣洗錢案件，被告人利用「高薪跑腿」兼職，知情情況下提領39萬餘元並兌換為虛擬貨幣，獲利2.15萬元。法院判處其有期徒刑二年四個月及罰款，法官提醒公眾警惕相關行為，以防助長犯罪。

GateNews1小時前

以下是「量子電腦在 9 分鐘內破解比特幣」實際意味著什麼

比特币新聞地緣政治安全事件

Google 的 Quantum AI 團隊本週早些時候表示，未來的量子電腦可能在大約九分鐘內，從公鑰推導出一組比特幣私鑰。這個消息在社群媒體上快速擴散，並嚇壞了市場。但在實務上，這到底意味著什麼呢？讓我們從比特幣的方式開始

CoinDesk7小時前

Drift遭黑客攻击初步調查：团隊成员曾在會議上被朝鲜中間人接触

執法行動安全事件

Gate 新聞消息，根據 X 平台消息，針對 Drift 駭客攻擊事件的初步調查顯示，該專案團隊成員先前在加密貨幣產業會議上曾被北韓中介人當面接觸。此次調查揭示了攻擊方與團隊成員之間存在線下接觸的情況。

GateNews7小時前

CertiK：3 月記錄 46 起安全事件，總損失約 3980 萬美元

安全事件

CertiK 報告指出，2026 年 3 月記錄了 46 起安全事件，總損失約 3980 萬美元，為自 2024 年 11 月以來的最高月度數量。安全事件在 2025 年第四季度與 2026 年第一季度有所增加，程式碼漏洞利用情況與人工智慧興起相關。

GateNews19小時前

ZachXBT：Circle 合規執行不力，多起安全事件涉及金額超過 4.2 億美元

執法行動安全事件鏈上數據

鏈上偵探 ZachXBT 發布報告指出，Circle 自 2022 年以來在多起非法資金事件中合規執行不力，涉及金額超過 4.2 億美元。報告提及多起安全事件中，Circle 未及時凍結可疑帳戶，導致嚴重損失。儘管具備相關機制，Circle 在面對攻擊與資金洗錢調查時反應遲緩，影響產業安全。

GateNews20小時前

留言

0/400

暫無留言