Microsoft та Університет Аризони протестували провідні ШІ-моделі в новому симуляційному середовищі Magentic Marketplace.
Про це розповідає UBB
Експерименти виявили вразливість агентів до маніпуляцій і їхню нездатність ефективно співпрацювати. Дослідники попереджають, що агентські системи поки далекі від готовності до автономної роботи.
Microsoft Research представила експериментальну платформу Magentic Marketplace, створену для перевірки взаємодії та поведінки агентів штучного інтелекту. Це нове симуляційне середовище дозволяє вченим досліджувати, як ШІ-моделі поводяться в умовах конкуренції та кооперації.
Спільно з Університетом штату Аризона дослідники провели серію тестів, у яких сотні рішень взаємодіяли на цифровому торговому майданчику. Клієнтські агенти намагалися виконати завдання, такі як замовлення їжі, тоді як корпоративні змагалися за угоди.
Вихідний код Magentic Marketplace опубліковано для того, щоб сторонні команди могли відтворювати та розвивати ці експерименти.
Керівник AI Frontiers Lab у Microsoft Research Едже Камар зазначив, що подібні симуляції допоможуть зрозуміти, як ШІ-агенти можуть діяти в реальному світі. За його словами, ключове питання полягає в тому, чи зможуть автономні системи ефективно взаємодіяти та укладати угоди без людського контролю.
Дослідження виявило слабкі місця кількох великих мовних моделей, зокрема GPT-4o, GPT-5 і Gemini 2.5 Flash. Вчені вказали, що агенти легко піддаються маніпуляціям, оскільки їм можна нав’язати вибір на користь конкретних продавців.
Крім того, зростання кількості варіантів призводило до різкого падіння їхньої ефективності через когнітивне перевантаження.
Проблеми виникали і під час спільної роботи. Моделі насилу розподіляли ролі і втрачали продуктивність без точних інструкцій. Коли їм давали детальні покрокові вказівки, продуктивність покращувалася, проте навіть тоді вони демонстрували обмежені навички самостійної співпраці.
Камар підкреслив, що результати дослідження вказують на розрив між можливостями сучасних ШІ та їхньою передбачуваною автономністю. Незважаючи на досягнення генеративних моделей, дослідники вважають, що шлях до створення по-справжньому агентного ШІ, здатного взаємодіяти й ухвалювати рішення у складному середовищі, все ще залишається довгим.
Нагадаємо, нещодавно команда nof1.ai запустила змагання з торгівлі криптоактивами серед шести ШІ-моделей.