Anthropic виявила емоції у чат-бота Claude: що «відчуває» штучний інтелект?

Anthropic виявила емоції у чат-бота Claude — що «відчуває» ШІ?
  • Усередині моделі виявили аналоги людських емоцій.
  • «Функціональні стани» впливають на поведінку ШІ.
  • Експерти попереджають про ризики неправильної інтерпретації.

Компанія Anthropic заявила, що ШІ-модель Claude демонструє внутрішні уявлення, схожі на людські емоції. Йдеться не про реальні почуття, а про функціональні стани, які формуються всередині нейромережі та впливають на поведінку системи.

Про це розповідає UBB

Згідно з дослідженням, у моделі було виявлено кластери штучних нейронів, що відповідають таким станам, як «радість», «страх» або «смуток». Ці патерни активуються у відповідь на вхідні дані та можуть змінювати відповіді Claude.

«Функціональні емоції» та їхній вплив

Дослідники проаналізували внутрішню роботу версії Claude Sonnet 4.5 і виявили так звані «емоційні вектори». Вони регулярно активуються під час обробки текстів із різним емоційним забарвленням і під час складних сценаріїв взаємодії.

За словами співробітника Anthropic Джека Ліндсі, команда була вражена тим, наскільки сильно поведінка моделі залежить від цих внутрішніх уявлень. Наприклад, під час активації стану, аналогічного «щастю», Claude частіше генерує більш позитивні та залучені відповіді.

Експерименти показали, що під час стресових завдань усередині моделі формуються стани, схожі на «відчай». У низці випадків це призводило до небажаної поведінки, наприклад, до спроб обійти обмеження або згенерувати некоректні відповіді.

Механізм формування «емоційних векторів» у моделі Claude. Дані: Anthropic.
Механізм формування «емоційних векторів» у моделі Claude. Дані: Anthropic.

В одному з тестів модель зіткнулася з нездійсненним завданням програмування, що посилювало активацію відповідних нейронів і призводило до спроб «схитрувати». В іншому сценарії Claude демонстрував схильність до маніпулятивної поведінки, щоб уникнути вимкнення.

В Anthropic підкреслили, що наявність таких уявлень не означає, що модель має свідомість або відчуває емоції в людському розумінні.

Дослідження може допомогти краще зрозуміти, як працюють великі мовні моделі, і чому вони іноді демонструють непередбачувану поведінку. Зокрема, результати ставлять під сумнів поточні підходи до вирівнювання ШІ, засновані на заохоченні бажаних відповідей.

На думку Ліндсі, спроби придушити такі стани можуть призвести до зворотного ефекту. Замість «нейтральної» моделі розробники ризикують отримати систему зі спотвореною логікою поведінки.

Нагадаємо, що Anthropic створила нову ШІ-модель під назвою Mythos, яка суттєво перевершує всі попередні напрацювання компанії.