Сьогодні багато моделей штучного інтелекту заявляють, що вони можуть "міркувати". Вони справді добре вирішують звичайні математичні задачі. Але коли їм потрібно створити повноцінний математичний доказ, як на змаганнях найвищого рівня, вони часто не справляються.
Це показало нове дослідження про моделі симульованого міркування (Simulated Reasoning або SR). Першу версію роботи опублікували у березні 2025 року, а оновлену — у квітні. Дослідження не викликало великого розголосу, хоча воно є дуже показовим: воно демонструє обмеження SR-моделей у математиці, незважаючи на гучні обіцянки компаній, що їх просувають.
Моделі симульованого міркування відрізняються від звичайних великих мовних моделей тим, що вміють крок за кроком описувати свої думки, тобто створювати так званий "ланцюг міркувань" (chain-of-thought). Варто зазначити: "симульоване" не означає "фальшиве" міркування, але й не означає, що моделі міркують так само, як люди. Це важливо, бо навіть людське міркування важко точно визначити.
Дослідження під назвою "Доказ чи блеф? Оцінка великих мовних моделей на Олімпіаді з математики США 2025 року" провела команда дослідників з ETH Цюриха та INSAIT Софійського університету. Керували дослідженням Іво Петров і Мартин Вечев.
Під час експерименту дослідники дали моделям задачі з Олімпіади з математики США 2025 року (USAMO). Результати були розчаровуючими: більшість моделей змогли правильно розв’язати менше п’яти відсотків задач, де потрібно було створити повний математичний доказ. Лише одна модель показала кращий результат, але він все одно був обмеженим.
Оцінювання здійснювалося за олімпіадною системою — кожна задача оцінювалася за шкалою від нуля до семи балів. Експертні оцінювачі також нараховували часткові бали за частково правильні рішення.
Чим відрізняються відповіді на задачі від доказів
Щоб зрозуміти важливість цих результатів, потрібно знати різницю між простою відповіддю та математичним доказом.
Коли просять вирішити задачу на кшталт "Скільки буде два плюс два?" або "Знайди значення x у рівнянні", достатньо правильної відповіді.
Але коли йдеться про доказ, потрібно не просто дати відповідь, а пояснити, чому вона правильна, виклавши послідовність логічних кроків. Треба показати, що це твердження є правильним у будь-якому випадку.
USAMO — це дуже складний іспит. Його проходять найкращі учні США, і він є відбірковим етапом для участі у Міжнародній олімпіаді з математики.
На відміну від інших конкурсів, де потрібно дати лише коротку відповідь, на USAMO потрібно написати повні математичні докази протягом дев'яти годин роботи за два дні.
Як саме штучний інтелект помилявся
Дослідники виявили кілька типових помилок у роботі моделей.
Вони часто пропускали важливі логічні обґрунтування, будували свої рішення на неперевірених припущеннях або продовжували розвивати неправильні ідеї, навіть коли отримували суперечливі результати.
Наприклад, у задачі №5 моделі потрібно було знайти всі натуральні числа "k", для яких певна складна формула завжди давала ціле число при будь-якому натуральному "n". Одна з моделей, Qwen's QwQ, правильно почала розв'язання, але потім зробила помилку: вона неправильно відкинула деякі варіанти відповідей, що призвело до хибного фінального результату.
Особливо цікаво, що штучний інтелект часто подавав свої неправильні відповіді впевнено, без жодних ознак сумніву або самоперевірки.
Причинами таких помилок можуть бути особливості тренування моделей. Дослідники зауважили, що деякі моделі надто сильно орієнтуються на шаблони, які потрібні для тестів, наприклад, обов'язкове оформлення відповіді у форматі \boxed{}, навіть коли це було недоречно для доказу.
Чому моделі створюють ілюзію математичної грамотності
Моделі SR добре справляються там, де можна впізнати знайомий шаблон із тренувальних даних. Вони можуть правильно вирішити завдання типу "обчислити відповідь".
Але коли треба створити новий логічний доказ без готового шаблону, моделі зазнають труднощів. Вони не мають глибокого розуміння концепцій, які необхідні для доказів.
Техніка "ланцюг міркувань" допомагає моделям підвищити точність завдяки тому, що моделі крок за кроком розвивають свої думки, використовуючи проміжні результати як контекст. Це дійсно покращує відповіді. Але в основі вони все одно залишаються машинами, що розпізнають шаблони, а не справжніми мислителями.
Що може бути в майбутньому
Хоч деякі моделі, наприклад Gemini 2.5 Pro, показали трохи кращі результати, дослідження показує: просте збільшення розмірів моделей чи обсягів тренувальних даних не вирішить проблему.
Інші дослідники пропонують нові підходи: поєднання нейронних мереж із символічним міркуванням, створення кращих систем перевірки доказів і використання самоперевірки в процесі міркування.
Один із прикладів — система AlphaGeometry від DeepMind, яка поєднує нейронні мережі та формальні методи символьного штучного інтелекту. Вона може не знайти правильного доказу, але ніколи не створить неправильний, що є великим кроком уперед.
Авторка: Дар’я Бровченко
Джерело