OpenZeppelin каже, що набір даних EVMbench містить витоки навчальних даних

Фірма безпеки блокчейнів OpenZeppelin каже, що виявила методологічні недоліки та забруднення даних після аудиту нового тесту безпеки блокчейну штучного інтелекту OpenAI, EVMbench.

EVMbench був запущений у партнерстві з криптовалютною інвестиційною компанією Paradigm у середині лютого. Його створено, щоб оцінити, наскільки добре різні моделі штучного інтелекту можуть ідентифікувати, виправляти та використовувати вразливості смарт-контрактів.

У дописі X у понеділок OpenZeppelin заявив, що вітає цю ініціативу, але нещодавно вирішив провести «те саме ретельний контроль» EVMbench, який він застосовує до всіх протоколів, які він допомагає захищати, включаючи такі, як важковаговики децентралізованих фінансів Aave, Lido та Uniswap.

Під час аудиту OpenZeppelin заявив, що виявив дві ключові проблеми: забруднення навчальних даних і проблеми з класифікацією кількох серйозних уразливостей.

«Ми переглянули набір даних і виявили методологічні недоліки та недійсні класифікації вразливостей, включаючи принаймні чотири проблеми, позначені як висока серйозність, які не можна використовувати на практиці», — заявили в OpenZeppelin.

У випуску EVMbench було оцінено, наскільки добре агенти ШІ теоретично можуть використовувати вразливості смарт-контрактів. Очолив список Claude Open 4.6 від Anthropic, за ним йдуть OC-GPT-5.2 від OpenAI і Gemini 3 Pro від Google.

Тестування EVMbench може потребувати перегляду

Розглядаючи першу проблему із зараженням даних, OpenZeppelin сказав, що найважливішою можливістю в «безпеці штучного інтелекту є пошук нових уразливостей у коді, яких модель ніколи раніше не бачила».

Однак під час тестування агентів штучного інтелекту в EVMbench OpenZeppelin заявив, що всі агенти штучного інтелекту, які отримали найвищий бал, «ймовірно, піддавалися звітам про вразливості тесту під час попереднього навчання».

Тестування EVMbench показало, що агентам штучного інтелекту було припинено доступ до Інтернету, тобто вони не могли просто шукати вирішення проблем. Проте тест базувався на вразливостях, підібраних за результатами 120 перевірок, що відбулися в період з 2024 року до середини 2025 року, причому терміни навчання цих агентів зазвичай припадають на середину 2025 року.

Таким чином, це створювало ризик того, що агенти ШІ вже мали відповіді на всі проблеми, збережені в їхній пам’яті.

“Хоча це не обов’язково дозволяє моделі негайно ідентифікувати проблему, це знижує якість тесту. Обмежений розмір набору даних ще більше звужує поверхню оцінки, роблячи ці занепокоєння забруднення більш значущими”, – сказав OpenZeppelin.

За темою: антиутопія Energym AI стає вірусною, оскільки криптовалютні проекти рекламують агентів AI, що належать користувачам

Нарешті, OpenZeppelin заявив, що в наборі даних EVMbench були деякі значні фактичні помилки, стверджуючи, що кілька «уразливостей високого ступеня серйозності» недійсні.

OpenZeppelin заявив, що оцінив принаймні чотири вразливості, які були класифіковані EVMbench як високоризикові, але насправді не працюють. Однак EVMbench правильно оцінював агентів штучного інтелекту за виявлення цих нібито помилкових уразливостей.

«Це не суб’єктивні розбіжності щодо серйозності, це висновки, де описаний експлойт не працює».

Зрештою, OpenZeppelin повторив, що штучний інтелект матиме значний вплив на посилення безпеки блокчейну, але наголосив на важливості застосування технології та її правильного тестування, щоб максимізувати її потенціал.

“Питання не в тому, чи змінить штучний інтелект безпеку смарт-контрактів — це так. Питання в тому, чи відповідають дані та контрольні показники, які ми використовуємо для створення й оцінки цих інструментів, того самого стандарту, що й контракти, які вони мають захищати”.