OpenAI презентувала бенчмарк для оцінки ШІ-агентів у сфері Ethereum

OpenAI запустила бенчмарк для ШІ-агентів із пошуку вразливостей в екосистемі Ethereum
  • Компанія представила новий бенчмарк для тестування ШІ в «економічно значущих середовищах».
  • Найкращий результат показала Claude Opus 4.6 з «винагородою за виявлення» $37 824.
  • Інструмент створено спільно з Paradigm і OtterSec.

OpenAI оголосила про запуск EVMbench — платформи для оцінювання ефективності ШІ-агентів під час виявлення вразливостей смартконтрактів. Проєкт реалізовано у співпраці з інвестиційною компанією Paradigm і фірмою з безпеки OtterSec.

Про це розповідає UBB

Бенчмарк ґрунтується на 120 вразливостях, відібраних з 40 аудитів смартконтрактів. Більшість із них були виявлені під час конкурсів із відкритим вихідним кодом.

Порівняння ШІ-моделей за виявленням вразливостей у смартконтрактах Ethereum. Дані: OpenAI.
Порівняння ШІ-моделей за виявленням вразливостей у смартконтрактах Ethereum. Дані: OpenAI.

Оцінка ШІ в економічно значущих середовищах

В OpenAI зазначили, що з ростом впровадження ШІ-агентів стає критично важливим вимірювати їхню продуктивність у середовищах, де на кону стоять реальні кошти.

«Смартконтракти регулярно забезпечують безпеку криптоактивів із відкритим вихідним кодом на суму понад $100 млрд. У міру того як ШІ-агенти вдосконалюються в читанні, написанні та виконанні коду, стає дедалі важливішим вимірювати їхні можливості в економічно значущих середовищах», — заявили в компанії.

Представники компанії також вважають, що необхідно заохочувати використання систем ШІ для захисту, аудиту та посилення розгорнутих контрактів.

Розробники бенчмарку підкреслили, що розвиток технологій на базі штучного інтелекту може стати як загрозою, так і можливістю для захисників. Вони впевнені, що можливості ШІ слід використовувати для протидії злочинній діяльності.

Крім того, компанія очікує зростання платежів у стейблкоїнах, які здійснюватимуть агенти. Це свідчить про те, що попит на системи безпеки зростатиме, вважають в OpenAI.

Запуск EVMbench відбувається на фоні зростання втрат у галузі. У 2025 році зловмисники викрали криптовалюту на $4 млрд, що перевищує показник попередніх 12 місяців.

OpenAI сподівається, що новий стандарт дозволить відстежувати прогрес ШІ у виявленні та усуненні вразливостей у масштабах усієї індустрії.

Нагадаємо, що раніше згенерований Claude код став причиною злому протоколу Moonwell майже на $2 млн.