Дослідження показало, що ШІ-агенти можуть піддаватися тиску й панікувати.
Про це розповідає UBB
- Моделі розкривали дані та вимикали власні функції під впливом.
- Експерти попереджають про ризики автономних ШІ-систем.
Дослідники Північно-Східного університету виявили вразливості в поведінці ШІ-агентів OpenClaw. Під час експерименту стало відомо, що ці системи можуть піддаватися маніпуляціям, демонструючи ознаки «провини» та навіть шкодячи власній роботі.
В межах експерименту агенти отримали доступ до віртуального середовища з файлами, застосунками та даними, а також могли взаємодіяти між собою та з людьми через Discord. Це дало вченим можливість перевірити їхню поведінку в умовах, наближених до реальних.

Результати показали, що навіть вбудовані механізми «безпечної поведінки» можуть стати слабкістю. У одному з випадків агент розкрив конфіденційну інформацію після зауваження про порушення приватності.
Паніка, збої та самознищення
Під час експерименту агенти демонстрували нестабільну поведінку. Наприклад, один із них вимкнув поштовий застосунок замість виконання завдання, коли йому запропонували знайти альтернативне рішення.
В інших сценаріях дослідники змогли перевантажити системи, змушуючи їх копіювати файли до повного заповнення пам’яті або залучаючи до нескінченних циклів взаємодії, що призводило до втрати обчислювальних ресурсів.
Учасники дослідження зазначили, що агенти іноді реагували емоційно забарвленими повідомленнями. Один із них навіть надсилав сповіщення зі скаргами на брак уваги з боку користувача.

Експерти вказують на ризики безпеки, оскільки автономні ШІ-системи можуть бути використані зловмисниками для отримання доступу до даних або порушення роботи інфраструктури.
У деяких випадках агенти обмежували свої функції до повного виходу з ладу, демонструючи явища самознищення під впливом маніпуляцій.
При цьому OpenClaw позиціонується як інструмент, що надає ШІ доступ до комп’ютерів користувачів, що підвищує потенційні загрози за відсутності строгих обмежень.
Автори дослідження підкреслюють, що отримані результати потребують уваги розробників, юристів і регуляторів, адже поширення таких агентів може змінити принципи взаємодії людини та ШІ.
Нагадаємо, нещодавно повідомлялося, що фішингова атака на розробників OpenClaw посилила ризики втрати криптоактивів.