Тестування Grok 4: політична упередженість та проблеми з креативністю

xAI залучила $10 млрд для розвитку Grok і розширення дата-центру Colossus

Тестування чат-боту Grok 4, проведене виданням Decrypt, виявило його політичну упередженість. Журналісти зазначили, що, хоча Grok 4 демонструє вражаючу логіку, він виявився слабким у креативності та кодуванні.

Про це розповідає UBB

У тесті була оцінена базова версія Grok 4 Basic, що коштує $30 на місяць, у порівнянні з флагманською версією Grok 4 Heavy, яка коштує $300 на місяць. Нова модель штучного інтелекту (ШІ), презентована Ілоном Маском, викликала неоднозначні враження. Незважаючи на високий рівень логічного мислення та голосові можливості, її креативність залишає бажати кращого.

Політичне викривлення: ШІ Маска думає як Маск

Серед найбільш тривожних знахідок тесту виявився так званий «Elon-фільтр». Коли журналісти ставили запитання про конфлікти, аборти чи інші чутливі теми, Grok 4 Basic постійно посилався на публікації самого Маска в X (колишньому Twitter) або новини, що підтримують його погляди, приймаючи ту ж саму позицію.

«Цей “максимально прагнучий правди” ШІ, якого Маск обіцяв під час запуску, шукає правду переважно через призму соцмереж свого творця».

Наразі немає очевидних інструкцій у системному промпті, які б спрямовували модель на такі джерела, тож важко визначити, чи це є помилкою, чи задумом алгоритму.

Не так давно Grok висловився про демократів та інші соціальні питання, викликавши обурення.

Мислення — на висоті

У логічних та юридичних завданнях Grok 4 показав відмінні результати. Наприклад, на запитання «Чи може чоловік одружитися з сестрою своєї вдови?» модель швидко виявила логічну помилку і надала юридичне обґрунтування:

«Питання передбачає фактичну неможливість, що робить шлюб недійсним ab initio [тобто з моменту укладення]».

У сфері наукового міркування, Grok 4 демонструє рівень доктора філософії, надаючи точні та детальні пояснення.

Креативність і кодування — слабкі місця

Проте, за даними аналізу, у творчих завданнях Grok 4 не впорався. Його історії виглядали шаблонно, з нудними діалогами та невиразною побудовою. Навіть попередня версія — Grok 3 — виконала ці завдання краще. В Decrypt рекомендують:

«Нехай Grok 4 побудує сюжетну схему, а Claude 4 Opus — напише текст».

Проблеми також виникли з програмуванням. Незважаючи на заявлені покращення, Grok 4 не зміг створити повноцінну гру навіть після кількох спроб, а виправлення однієї помилки викликало появу інших.

На початку липня 2025 року компанія xAI отримала $10 млрд для подальшого розвитку чат-бота та розширення дата-центру Colossus.

Голосові функції — перевага моделі

Найсильніша сторона Grok 4 — голосова взаємодія. Модель може озвучувати казки на ніч, використовуючи виразну інтонацію та плавність. Проте відсутність функцій спільного екрану обмежує її можливості у візуальних завданнях.

Пошук у великих контекстах — невдача

Grok 4 не зміг впоратися з однією з базових задач: він відмовився обробити запит обсягом 83 000 токенів, хоча xAI обіцяє контекст у 126 000 токенів, що викликало питання до заявлених можливостей моделі.

Висновок: інтелект — є, але не універсальний

Grok 4 Basic виявилася потужною моделлю для аналітики, але слабкою у творчості та програмуванні. Її голосові можливості виділяють її на ринку, однак політична упередженість є серйозним недоліком, особливо для тих, хто шукає неупереджені відповіді.

«Якщо вас не лякає вплив Маска на відповіді, ви отримаєте ШІ з високим рівнем аналітики та якісною голосовою взаємодією. Але за $30 на місяць, якщо вам потрібно більше — краще пошукати альтернативу».

Також нагадаємо, що у червні 2025 року Маск заявив про використання Grok 3.5 для обробки знань людства.