- Дослідники з Університету Арізони стверджують, що моделі з «ланцюжком думок» не мають справжніх навичок узагальнення міркувань.
- Експерименти продемонстрували, що навіть незначні відхилення від навчальних даних призводять до різкого падіння точності таких моделей.
- Вчені наголошують, що не слід порівнювати роботу великих мовних моделей (LLM) із людським мисленням, особливо у важливих сферах.
Дослідження, проведене Університетом Арізони, поставило під сумнів реальні можливості ШІ-моделей у логічному мисленні. Автори роботи зазначають, що такі проєкти частіше імітують знайомі шаблони, аніж формують осмислені висновки.
Про це розповідає UBB
Для перевірки цих припущень дослідники створили тестове середовище DataAlchemy, де невеликі LLM навчалися простим текстовим перетворенням, включаючи ROT-шифр та циклічні зсуви. Після цього ШІ мали комбінувати їх у нові послідовності, яких не було в навчальному наборі.
Результати дослідження показали, що при зіткненні з незнайомими комбінаціями функцій моделі часто давали або правильну відповідь із помилковим «обґрунтуванням», або навпаки — правильні міркування, але неправильний результат. Навіть незначні зміни формату завдання, такі як довжина тексту або символи, призводили до різкого зниження точності.
Науковці підкреслили, що додавання невеликої частки релевантних даних під час контрольованого доналаштування (SFT) дійсно покращує результати. Проте це не вирішує основну проблему — відсутність у LLM здатності до абстрактного мислення. Такий підхід вони охарактеризували як «латку», а не справжнє рішення.
За словами дослідників, ланцюги думок у їхньому теперішньому вигляді є «структурованим зіставленням зі зразком», яке ламається за найменших змін умов. У той же час, здатність моделі генерувати зв’язний, але помилковий текст створює «ілюзію надійності», яка може ввести в оману користувачів.
Дослідники вважають, що поточні бенчмарки та тестування повинні більше уваги приділяти завданням «поза областю» навчання, щоб виявляти слабкі місця таких систем.
Вони також застерегли, що прирівнювання CoT-висновків до людського мислення є особливо небезпечним у сферах медицини, фінансів і юриспруденції. На їхню думку, наступні моделі повинні вийти за межі простого розпізнавання шаблонів, щоб продемонструвати справжні можливості до міркувань.
Нагадаємо, раніше підприємець Марк Цукерберг заявив про плани Meta створити «персональний суперінтелект».