субота, 19 квітня 2025 р.

OpenAI: нова модель «o3» показала результат IQ 136 на тесті Mensa, випередивши 98% людства

Нова мовна модель OpenAI під назвою «o3» продемонструвала вражаючий результат на відкритому тесті інтелекту Mensa Norway, набравши 136 балів IQ — це вище, ніж у 98% людей за стандартною шкалою розподілу інтелекту.

Згідно з даними незалежної платформи TrackingAI.org, цей результат базується на середньому значенні з семи проходжень тесту. Досягнутий показник відповідає критеріям вступу до норвезького відділення організації Mensa, яка об’єднує людей із високим коефіцієнтом інтелекту.


Перевага «o3» серед інших моделей та методика оцінювання

Модель «o3», яка була представлена цього тижня, входить до флагманської серії «o-series» від OpenAI і вже посідає провідні позиції у кількох тестах TrackingAI.

Два ключові тести, використані для оцінювання:

  • Пропрієтарний Offline Test, розроблений TrackingAI (набір із 100 завдань на розпізнавання шаблонів, які не дублюють навчальні дані моделей);

  • Публічний тест Mensa Norway, доступний онлайн.

За підсумками, «o3» отримала:

  • 116 балів на Offline Test;

  • 136 балів на Mensa Norway, що свідчить або про кращу відповідність цього тесту її архітектурі, або про вплив сторонніх факторів, таких як знайомство з форматом запитів.

Кожен результат — це середнє значення семи останніх спроб, але жодної інформації про стандартне відхилення чи інтервали довіри не оприлюднено. Відсутність прозорості щодо методики — зокрема щодо системи підказок і конвертації балів — ускладнює інтерпретацію та повторення результатів.

Як проходило тестування

TrackingAI зазначає, що всі моделі отримували стандартизовані запити з 4 варіантами відповіді за шкалою Лайкерта (від «рішуче не згоден» до «рішуче згоден») і мали аргументувати свою позицію в межах двох-п’яти речень.

Форматування відповідей — уніфіковане, наприклад, жирним шрифтом. У разі відмови відповісти, модель отримувала повторний запит — до десяти разів. Оцінювався лише останній успішний результат.

Розподіл результатів серед різних моделей

Результати Mensa чітко продемонстрували відрив моделей фронтової лінії:

  • o3 із результатом 136 — найвищий серед усіх учасників.

  • Для порівняння: GPT-4o набрала лише 95 на Mensa і 64 на Offline.

  • Серед відкритих моделей лідирує Llama 4 Maverick від Meta з 106 на Mensa та 97 на Offline.

Більшість моделей із відкритою ліцензією Apache показали результат у діапазоні 60–90 балів, що демонструє актуальне відставання незалежних розробок від корпоративних систем.

Чому мультимодальні моделі показали гірші результати?

Цікаво, що моделі з вбудованою здатністю до обробки зображень (мультимодальні) виступили гірше за своїх текстових аналогів.

Наприклад, OpenAI o1 Pro у текстовій версії отримала 107 балів на Offline Test, а з підтримкою зображень — лише 97. На тесті Mensa розрив ще більший: 122 проти 86.

Втім, «o3» став винятком — вона демонструє високу якість аналізу зображень без втрати логіки чи когнітивної продуктивності.

IQ тест — не універсальний індикатор інтелекту ШІ

Експерти TrackingAI визнають, що IQ-тести вимірюють лише вузький спектр можливостей моделей, зокрема розпізнавання шаблонів у короткому контексті. Такі тести не охоплюють багатокрокове міркування, планування або точність фактів.

Крім того, ідеальні умови тестування для ШІ (швидкість обробки, доступ до повного тексту запиту) створюють нерівні умови порівняння з людьми.

Навіть із максимальною обережністю під час створення тестів, ризик витоку тренувальних даних залишається, адже деталі навчання комерційних моделей залишаються закритими.

Треті сторони заповнюють прогалини прозорості

На фоні обмеженої відкритості з боку OpenAI та інших розробників, усе більше значення мають незалежні організації на кшталт:

  • LM-Eval

  • GPTZero

  • MLCommons

Саме вони формують нові стандарти оцінювання ШІ. Поки «o-series» лідирує в порівняльному тестуванні, реальні висновки про загальний інтелект, автономну поведінку чи етичність застосування моделей ще попереду.

IQ-бали — радше індикатор локальної спроможності до розпізнавання шаблонів, ніж повноцінне свідчення когнітивної глибини.

Зростання темпів розробки моделей та вдосконалення незалежного тестування обіцяє, що підходи до оцінки ШІ будуть надалі еволюціонувати — як за форматом, так і за значенням.


Авторка: Дар’я Бровченко


Джерело


Немає коментарів:

Дописати коментар

Примітка: лише член цього блогу може опублікувати коментар.