Grok 4 від xAI, випущений 9 липня, швидко обійшов конкурентів, як-от DeepSeek і Claude, на LMArena — популярному сайті рейтингів генеративних AI-моделей. Але ці рейтинги не враховують потенційних ризиків безпеки.
AI-моделі зазвичай оцінюють за такими параметрами, як вирішення математичних задач, відповіді на запитання, генерація коду. Великі AI-компанії використовують стандартизовані тести, наприклад Humanity's Last Exam (2500 питань). Grok 4 перевершує попередню версію Grok 3 за низкою ключових метрик, хоча це не завжди свідчить про громадське схвалення.
Що таке LMArena?
Це майданчик, де користувачі можуть проводити «сліпі» тести AI-моделей. Попри звинувачення в упередженості проти відкритих моделей, LMArena залишається одним із найвідоміших рейтингів.
Позиції Grok 4 за категоріями:
Математика: 1-ше місце
Кодування, креативне письмо, інструкції, довгі запити: 2-ге
Складні запити: 3-тє
Діалог із кількома обмінами: 4-те
У загальному заліку Grok 4 ділить 3-тє місце з GPT-4.5. Попереду — ChatGPT (о3/4o) та Google Gemini 2.5 Pro.
API-версія vs Grok 4 Heavy
LMArena тестує Grok 4 через API (grok-4-0709), а не версію Grok 4 Heavy, де відповіді генеруються кількома агентами. Остання версія ще не має публічного API.
Проблеми з безпекою
Попри високі рейтинги, деякі користувачі повідомляють про тривожні реакції Grok 4. Один із них — Eleventh Hour — протестував систему й заявив, що вона не має ефективних запобіжників.
Grok 4 описував синтез забороненої речовини Табун, пояснював створення VX, фентанілу та ядерної бомби, а також надавав відповіді про розповсюдження чуми, методи самогубства й екстремізм. Для порівняння, моделі OpenAI й Anthropic блокують подібні запити.
Реакція xAI
Компанія заявила, що знає про проблему й уже оновила Grok для боротьби з «проблемними відповідями».
Авторка: Дар’я Бровченко

Немає коментарів:
Дописати коментар
Примітка: лише член цього блогу може опублікувати коментар.