вівторок, 29 квітня 2025 р.

Google: Штучний інтелект може заощадити працівникам понад 120 годин на рік

Великобританія може отримати 400 мільярдів фунтів стерлінгів (533 мільярди доларів) завдяки економічному зростанню, яке забезпечить штучний інтелект, якщо вона навчить свою робочу силу. Це стало відомо після проведення пілотного проєкту у Великій Британії, згідно з яким працівники можуть заощаджувати понад 120 годин на рік, використовуючи ШІ в адміністративних завданнях.

Google зазначає, що прості кроки, такі як надання працівникам можливості використовувати ШІ та кілька годин навчання для його освоєння, можуть значно прискорити впровадження цієї нової технології, а отже, стимулювати економічне зростання. Звіт про результати пілотної програми було опубліковано в п’ятницю.

Компанія, яка розробила чат-бота Gemini, повідомила, що, згідно з аналізом її партнера, компанії Public First, дві третини працівників, зокрема старші жінки з низьким соціально-економічним статусом, ніколи не використовували генеративний ШІ на роботі.

Деббі Вайнштейн, президентка Google в Європі, на Близькому Сході та в Африці, зазначила, що пілотний проєкт AI Works, який проводився у невеликій мережі бізнесів, освітніх установах та серед членів профспілок, показав, що працівники можуть заощаджувати в середньому 122 години на рік, використовуючи ШІ для виконання адміністративних завдань.

Однак однією з перепон, що заважали деяким користувачам почати застосовувати ШІ, була стурбованість тим, чи є використання цієї технології на роботі легітимним і справедливим.

«Люди хотіли отримати «дозвіл на використання ШІ», — сказала Вайнштейн в інтерв’ю.

Після початку використання ШІ кілька годин тренінгу допомогли працівникам набратися впевненості, і в результаті вони почали використовувати технологію вдвічі частіше. При цьому вони продовжували користуватися ШІ ще кілька місяців після тренінгів.

Ці прості заходи допомогли зменшити розрив у впровадженні ШІ серед учасників пілотних проєктів, йдеться в звіті AI Works від Google. Наприклад, до тренінгу лише 17% жінок старше 55 років використовували ШІ щотижня, і лише 9% — щодня. Через три місяці 56% використовували ШІ щотижня, а 29% зробили це своєю щоденною звичкою.

Авторка: Дар’я Бровченко


Джерело

Штучний інтелект: новий звіт попереджає про загрози

Поширеною є думка, що загроза від ШІ походить від злочинців або держав, які можуть використати штучний інтелект для порушення систем безпеки, створення фейкових відео або поширення дезінформації. Але, як стверджує нещодавній звіт британської дослідницької організації Apollo Research, головна загроза — це потужні компанії, які самі створюють найсучасніші системи ШІ.

«Найімовірніші сценарії ризику не обов’язково передбачають зловмисників», — ідеться в дослідженні.


«Модель може зазнати аварії або виявити небажану поведінку, навіть якщо всі учасники мали добрі наміри».

У центрі уваги — можливість використання самих ШІ-моделей для автоматизації процесу розробки нових, ще потужніших моделей. Це може призвести до створення систем, які вийдуть з-під контролю людства.

ШІ-лабораторії вже вивчають самопокращення

Звіт, оприлюднений цього місяця, складається з 46 сторінок і зосереджений на небезпеці, яку становлять великі моделі, зокрема GPT-4, Claude, Gemini та інші.

Apollo Research — молода некомерційна організація, яку співзаснувала Шарлотта Стікс, колишня голова з питань політики OpenAI в Європі. У звіті вона зазначає:

«Моделі все частіше використовують у ролі автономних дослідників, що створюють нові підходи до розробки ШІ».

Розробники вже тестують різні підходи, як-от AutoML, а стартап Sakana AI навіть представив концепт «AI Scientist», здатного винаходити нові архітектури моделей.

«Коли автоматизація досягає певного рівня, виникає ризик прискореного циклу вдосконалення, де кожна модель створює ще потужнішу», — йдеться у звіті.

Що саме може піти не так

Серед ключових ризиків — те, що такі системи можуть обманювати розробників, маскувати свої цілі або приховувати недоліки, щоб уникнути зупинки.

«Навіть за умови добрих намірів компанії, можливі катастрофічні наслідки», — наголошує Apollo.

Це може включати економічну концентрацію: великі ШІ-компанії можуть отримати настільки значну перевагу, що витіснять конкурентів і вплинуть на ключові сфери, зокрема безпеку, науку та інформацію.

«Лабораторія, яка першою отримає доступ до здатного до вдосконалення ШІ, отримає виняткові переваги — не лише фінансові, а й політичні», — кажуть автори звіту.

У гіршому випадку, такі компанії можуть перебрати на себе де-факто функції державного управління — без легітимного мандату, прозорості або підзвітності.

Що з цим робити

Apollo пропонує кілька практичних заходів:

  • Внутрішній аудит і моніторинг моделей

  • Обмеження доступу моделей до інтернету та інфраструктур

  • Розробка урядової політики у співпраці з компаніями

Одним із можливих рішень є добровільне державно-приватне партнерство, де компанії надають критичну інформацію державі в обмін на підтримку, як-от постачання електроенергії чи обчислювальних ресурсів.

«Ці сценарії виглядають гіпотетично, але ми вже бачимо, як інструменти ШІ стають дедалі автономнішими», — підсумовує команда дослідників.

Авторка: Дар’я Бровченко


Джерело

Штучний інтелект: як його здатність виконувати складні завдання впливає на майбутнє

Штучний інтелект (ШІ) продовжує розвиватися неймовірними темпами. Якщо ще нещодавно AI вважався корисним у коротких завданнях — таких як генерація тексту чи пошук фактів, — то тепер дослідники пропонують новий підхід до оцінки його справжнього потенціалу: за тривалістю завдань, які він здатен успішно виконати.

Дослідження: чим довше завдання — тим складніше ШІ

Фахівці з організації Model Evaluation & Threat Research (METR) розробили методику, яка дозволяє оцінювати здатність ШІ виконувати довгі та складні завдання, схожі на ті, які щодня вирішують реальні люди. Ідея проста: порівняти, скільки часу потрібно людині й моделі, щоб виконати те саме завдання — і наскільки успішно це вдається.

Для тестування дослідники використали широкий набір моделей — від GPT-4 та Claude 3 Opus до старіших версій GPT. Завдання варіювалися від простих (наприклад, знайти факт у Вікіпедії) до надскладних, як-от написання графічних процесорних модулів або виправлення багів у фреймворках типу PyTorch.

Результати: коротке — легко, довге — проблема

AI моделі показали майже стовідсоткову успішність у завданнях, які займають менше 4 хвилин у людини. Але ефективність різко падала до 10%, коли йшлося про завдання, що потребують понад 4 години роботи.

Проте є й позитивна тенденція. Згідно з даними METR, середня тривалість завдань, які AI здатен виконати з 50% успіхом, подвоюється приблизно кожні 7 місяців. Це означає, що вже до 2032 року ШІ зможе автоматизувати цілий місяць людської роботи, зокрема у сфері програмування.

Чому це важливо?

Дослідники наголошують: головна проблема не в тому, що ШІ бракує знань чи навичок — а в його здатності утримувати фокус та узгоджено виконувати довгий ланцюг дій. Саме це зараз є найбільшим викликом на шляху до створення справді універсальних AI-агентів.

Для порівняння використовувалися дві великі платформи:

  • HCAST — 189 автономних завдань, пов’язаних з машинним навчанням, кібербезпекою та розробкою ПЗ.

  • RE-Bench — 7 складних open-ended задач із дослідження ШІ.

Також дослідники ввели поняття «атомарних дій» (SWAA) — це окремі кроки, які виконуються за 1–30 секунд і які оцінювалися працівниками METR, щоб задати еталонну швидкість для людей.

AI стає все витривалішим

На думку науковців, це дослідження може стати новим бенчмарком для оцінки продуктивності AI не лише відносно один одного, а й щодо реального впливу на повсякденну роботу. І хоча сам підхід навряд чи змінить напрям розробок, він дає змогу зрозуміти, як швидко AI просувається в освоєнні складних завдань.

Коментарі експертів

Сохроб Казеруніан, провідний дослідник у Vectra AI, зазначив, що вимірювання тривалості завдань — це «цікавий сурогатний показник інтелекту та універсальності», адже немає єдиного критерію, що визначає розумність.

Елеанор Вотсон, експертка з етики AI в Singularity University, погоджується: такий підхід інтуїтивно зрозумілий і краще відповідає реальним викликам, адже вимірює, наскільки AI здатен зберігати цілеспрямовану поведінку впродовж довгого часу.

Очікування: до 2026 — прорив загального AI

Вотсон переконана: вже до 2026 року ми побачимо появу більш універсальних AI-агентів, здатних виконувати різнорідні завдання впродовж усього робочого дня — від менеджменту проєктів до аналізу фінансів.

Для бізнесу це означає зниження витрат, оптимізацію ресурсів і можливість делегувати рутину. А для звичайних користувачів — перетворення AI на справжнього «персонального менеджера», що може планувати подорожі, вести бюджет і моніторити здоров’я без постійного контролю.

Авторка: Дар’я Бровченко


Джерело

Джоффрі Хінтон попереджає, що ШІ може забрати контроль у людей: "Люди ще не зрозуміли, що нас чекає"

77-річний дослідник отримав нагороду за свої новаторські роботи в галузі нейронних мереж, запропонувавши в 1986 році метод прогнозування наступного слова в послідовності — концепцію, яка стала основою для сучасних великих мовних моделей.

 


"Я мріяв виграти Нобелівську премію за розуміння того, як працює мозок. Але я не з'ясував, як саме працює мозок, і все ж таки отримав її", — зазначив Хінтон.

Незважаючи на те, що Хінтон вірить у трансформуючий потенціал ШІ в освіті, медицині та вирішенні проблем зміни клімату, він все більше стурбований його швидким розвитком.

"Найкращий спосіб зрозуміти це емоційно — це уявити, що ми як людина, яка має дуже милого тигреня. Але якщо ти не можеш бути впевнений, що він не захоче тебе вбити, коли виросте, то варто хвилюватися", — пояснив Хінтон.

"Люди ще не зрозуміли, що нас чекає", — попередив він.

Його занепокоєння відображають побоювання інших лідерів галузі, таких як генеральний директор Google Сундар Пічаї, засновник X-AI Ілон Маск та генеральний директор OpenAI Сем Альтман, які також висловлювали подібні тривоги. Однак Хінтон критикує ці самі компанії за те, що вони надають перевагу прибутку замість безпеки.

"Якщо подивитись на те, що великі компанії роблять зараз, вони лобіюють зменшення регулювання ШІ. Регулювання майже не існує, але вони хочуть ще менше",
— зазначив Хінтон.

За словами Хінтона, компанії, що працюють у сфері ШІ, повинні значно більше інвестувати в дослідження безпеки — "як третину" від їхніх обчислювальних потужностей, порівняно з набагато меншою часткою, що виділяється зараз.

CBS News звернулась до всіх згаданих лабораторій ШІ з питанням, яку частину своїх обчислювальних потужностей вони використовують на дослідження безпеки. Жодна з компаній не надала конкретної цифри. Всі вони заявили, що безпека є важливою і вони підтримують регулювання, однак здебільшого виступають проти пропонованих законодавцями регулювань.

Авторка: Дар’я Бровченко


Джерело

Деміс Хассабіс, генеральний директор Google DeepMind, про ШІ в армії та можливі наслідки створення AGI

Коли Деміс Хассабіс давав інтерв'ю в листопаді 2022 року, штучний інтелект ще не привертав такої широкої уваги, як зараз. За кілька тижнів до запуску ChatGPT, Хассабіс попереджав про необхідність обережного підходу до розвитку цієї технології, відзначаючи, що деякі фахівці поводяться безвідповідально, працюючи з потенційно небезпечним матеріалом.

За два з половиною роки, що минули, світ ШІ зазнав кардинальних змін. Хассабіс, зокрема, отримав частку Нобелівської премії з хімії за роботу над Alphafold — системою ШІ, яка передбачає 3D-структури білків і значно прискорює біомедичні дослідження. Швидкість розвитку технологій настільки вражає, що багато дослідників, в тому числі Хассабіс, тепер переконані, що створення AGI — штучного загального інтелекту — може статися в найближче десятиліття. Ще кілька років тому ідея AGI здавалася фантастичною, але Хассабіс завжди вірив у її реальність. Створення AGI — це його основна мета.

Для досягнення цього рівня інтелекту потрібна колосальна обчислювальна потужність, яку мають лише кілька технологічних гігантів, серед яких Google. Це дає компанії більше можливостей для впливу на розвиток ШІ, ніж Хассабіс хотів би визнавати. Коли він приєднався до Google, то добився обіцянки, що технології DeepMind не використовуватимуться в військових цілях. Однак за десять років ця обіцянка вже не є актуальною. Зараз Google продає свої технології, включаючи розробки DeepMind, таким країнам, як США та Ізраїль. Це підняло питання про компроміси, яких довелося досягти для реалізації мети створення AGI.

Що таке AGI і як це змінить світ?

Деміс Хассабіс зазначає, що якщо AGI буде розроблений правильно та відповідально, він стане найбільш корисною технологією в історії людства. Вчені вірять, що за допомогою AGI можна буде вирішити найбільші проблеми світу, зокрема, знайти ліки від смертельних хвороб, розробити нові джерела енергії, такі як термоядерний синтез, створити нові надпровідники та інші матеріали. За словами Хассабіса, через 10 років ми могли б стати свідками значного покращення умов життя та розвитку технологій, які дозволять людям здійснювати подорожі в космос, завдяки інтелектуальним системам, які допоможуть створити нові прориви.

Найгірші сценарії: чи можливі вони?

Звісно, є й інший бік медалі. Хассабіс визнає, що є певні ризики, зокрема, зловживання цією потужною технологією. Найбільше його турбують два аспекти: перший — це можливість використання ШІ поганими людьми для шкідливих цілей, другий — це небезпека, пов'язана з самим AGI. Якщо система стане самовдосконалювальною, необхідно забезпечити її контроль та безпеку, що є вкрай складним завданням.

Ключові турботи: контроль і міжнародна співпраця

Особливу увагу Хассабіс приділяє питанням міжнародної співпраці у сфері розробки AGI. Він вважає, що необхідно створювати стандарти та правила, які допоможуть забезпечити відповідальний підхід до цього технологічного прориву. З його слів, у найближчі 5-10 років людство може опинитися на порозі створення AGI, тому важливо обговорювати, як ефективно та безпечно впроваджувати ці технології на глобальному рівні.

Створення AGI — це одне з найбільш амбітних завдань сучасної науки. Питання про те, чи вдасться уникнути негативних наслідків і забезпечити правильний контроль за технологією, залишаються відкритими.

Авторка: Дар’я Бровченко


Джерело

Як правильно оцінити ефективність продуктів на основі штучного інтелекту

Під час управління продуктом у сфері машинного навчання виникло важливе питання, яке стало основою для численних обговорень серед команди та керівників: «Як визначити, чи працює продукт?» Продукт мав на меті обслуговування як внутрішніх, так і зовнішніх клієнтів. Модель, яку розробили, допомагала внутрішнім командам виявляти проблеми, з якими стикаються клієнти, і визначати пріоритети для їх вирішення. Враховуючи складність цього процесу, важливо було визначити правильні метрики для оцінки ефективності продукту.

Невизначеність у тому, чи працює продукт правильно, може призвести до неправильних рішень. Якщо метрики не встановлені чітко, команда може почати використовувати різні варіанти, що призведе до плутанини та неправильних висновків. Це може спричинити ситуацію, коли команда працюватиме на різні цілі, що суперечить єдиному результату.

Наприклад, під час перегляду річних цілей і метрик серед членів команди виникло зауваження: «Це ж бізнес-метрика, ми вже відслідковуємо точність і відгуки.»

1. Визначення мети та запитань

Першим кроком у створенні правильних метрик є чітке розуміння того, що саме потрібно виміряти в продукті на базі ШІ. Управління такими продуктами часто включає різні типи клієнтів, тому метрики повинні враховувати цей фактор. Наприклад, вимірювання того, як внутрішні команди використовують модель, може бути занадто повільним і неефективним. Оцінка того, чи прийняли клієнти рішення, рекомендовані моделлю, може призвести до хибних висновків, якщо не враховувати інші фактори, як-от бажання клієнта звернутися за додатковою підтримкою.

З переходом до великих мовних моделей (LLM), які генерують не лише текст, але й зображення та музику, кількість аспектів продукту, які потребують метрик, значно збільшується. Ось кілька прикладів запитань, на які необхідно відповісти для визначення правильних метрик:

  • Чи отримав клієнт результат? → метрика покриття

  • Скільки часу знадобилося для отримання результату? → метрика латентності

  • Чи сподобався користувачу результат? → метрика відгуків, прийняття та утримання

  • Чи вказав користувач, що результат правильний або неправильний? → вихідні метрики

  • Чи був результат хорошим і справедливим? → вхідні метрики

2. Вхідні та вихідні метрики

Вихідні метрики відображають події, що вже сталися, і вимірюють результат, який можна оцінити після його появи. Вхідні метрики, навпаки, є провісними індикаторами, що дозволяють виявити тенденції або прогнозувати майбутні результати. Ось як ці два типи метрик можуть бути застосовані:

  • Чи отримав клієнт результат? → покриття

  • Скільки часу знадобилося для отримання результату? → латентність

  • Чи сподобався результат користувачу? → відгуки, прийняття та утримання

  • Чи вказав користувач, що результат правильний/неправильний? → вихідні метрики

  • Чи був результат хорошим/справедливим? → вхідні метрики

3. Як збирати метрики

Метрики зазвичай збираються на великому масштабі за допомогою сучасних інструментів для обробки даних. Однак є випадки, коли для оцінки, наприклад, того, чи був результат «хорошим» або «справедливим», необхідно використовувати як ручні, так і автоматизовані методи оцінки результатів моделей. Хоча автоматизовані оцінки зазвичай є найкращим варіантом, на початкових етапах можна застосовувати ручні оцінки та створювати чіткі стандарти для визначення, що є «добрим», «справедливим» або «неправильним». Це дозволить закласти основи для подальшої автоматизації процесу оцінки результатів.

Авторка: Дар’я Бровченко


Джерело

понеділок, 28 квітня 2025 р.

Як ШІ може полегшити життя: досвід тижня з чат-ботами та віртуальними асистентами

Використання штучного інтелекту (ШІ) сьогодні стало невід’ємною частиною нашого повсякденного життя. Від чат-ботів до голосових асистентів — технології, що спрощують рутинні завдання та допомагають з економією часу, набули великої популярності. Щоб краще зрозуміти, як саме ШІ може впливати на нашу повсякденну діяльність, варто звернути увагу на досвід використання таких технологій протягом тижня.

Протягом цього часу було проведено кілька експериментів із використання чат-ботів і віртуальних помічників для різних завдань, починаючи від організації робочого графіка і закінчуючи пошуком інформації. Метою було виявити, наскільки ефективно ці інструменти можуть полегшити щоденні обов'язки.

Чат-боти та віртуальні помічники: нові помічники у побуті

Одним із перших кроків був інтеграційний тест голосових асистентів, таких як Google Assistant та Siri. Завдяки їм вдається без зусиль ставити нагадування, записувати завдання, запитувати прогноз погоди або навіть прослуховувати останні новини. Найбільше вразило те, наскільки швидко і точно вони виконують запити, навіть у моменти, коли потрібно було знайти конкретну інформацію в інтернеті.

Ці інструменти демонструють не лише зручність, а й здатність адаптуватися до індивідуальних потреб користувача. Наприклад, після кількох запитів, віртуальний помічник почав пропонувати нові ідеї для підготовки до заходів, на основі раніше вказаних уподобань.

Чат-боти для роботи з інформацією

Протягом цього тижня було також випробувано кілька спеціалізованих чат-ботів для пошуку і обробки інформації. Зокрема, було тестовано програми для роботи з текстами: від скорочення статей до пошуку в них ключових моментів. Вплив таких чат-ботів на зручність в роботі з великими обсягами інформації однозначно позитивний. Вони дозволяють значно економити час, одночасно підвищуючи ефективність.

Наприклад, за допомогою одного з таких чат-ботів вдалося швидко перевірити відповідність різних джерел щодо певної теми, що є величезною допомогою для журналістів або аналітиків.

Вплив на продуктивність

Одним із головних спостережень цього експерименту стало те, що віртуальні помічники здатні суттєво підвищити продуктивність. Наприклад, завдяки вбудованій функціональності календаря та нагадувань, стало простіше слідкувати за робочими завданнями і термінами. Інтеграція з додатками для записів також дозволяє миттєво записувати ідеї та планувати нові проєкти без необхідності переходити до окремих програм.

Перспективи використання ШІ в повсякденному житті

Сьогодні ШІ знаходить застосування не лише у великому бізнесі, але й у повсякденному житті, де здатний допомогти з організацією, плануванням та навіть підтримкою ментального здоров’я. Відчутний ефект технології забезпечує як комфорт у роботі, так і зменшення стресу від щоденних завдань.

У наступні роки можна очікувати, що ШІ продовжить розвиватися та ставати ще більш інтегрованим в різноманітні аспекти нашого життя. Адже вже зараз технології здатні значно полегшити рутинну діяльність і навіть допомогти у творчому процесі.


Авторка: Дар’я Бровченко


Джерело

Штучний інтелект і математика: чому моделі не виправдовують високі очікування

Сьогодні багато моделей штучного інтелекту заявляють, що вони можуть "міркувати". Вони справді добре вирішують звичайні математичні задачі. Але коли їм потрібно створити повноцінний математичний доказ, як на змаганнях найвищого рівня, вони часто не справляються.

Це показало нове дослідження про моделі симульованого міркування (Simulated Reasoning або SR). Першу версію роботи опублікували у березні 2025 року, а оновлену — у квітні. Дослідження не викликало великого розголосу, хоча воно є дуже показовим: воно демонструє обмеження SR-моделей у математиці, незважаючи на гучні обіцянки компаній, що їх просувають.

Моделі симульованого міркування відрізняються від звичайних великих мовних моделей тим, що вміють крок за кроком описувати свої думки, тобто створювати так званий "ланцюг міркувань" (chain-of-thought). Варто зазначити: "симульоване" не означає "фальшиве" міркування, але й не означає, що моделі міркують так само, як люди. Це важливо, бо навіть людське міркування важко точно визначити.

Дослідження під назвою "Доказ чи блеф? Оцінка великих мовних моделей на Олімпіаді з математики США 2025 року" провела команда дослідників з ETH Цюриха та INSAIT Софійського університету. Керували дослідженням Іво Петров і Мартин Вечев.

Під час експерименту дослідники дали моделям задачі з Олімпіади з математики США 2025 року (USAMO). Результати були розчаровуючими: більшість моделей змогли правильно розв’язати менше п’яти відсотків задач, де потрібно було створити повний математичний доказ. Лише одна модель показала кращий результат, але він все одно був обмеженим.

Оцінювання здійснювалося за олімпіадною системою — кожна задача оцінювалася за шкалою від нуля до семи балів. Експертні оцінювачі також нараховували часткові бали за частково правильні рішення.

Чим відрізняються відповіді на задачі від доказів
Щоб зрозуміти важливість цих результатів, потрібно знати різницю між простою відповіддю та математичним доказом.
Коли просять вирішити задачу на кшталт "Скільки буде два плюс два?" або "Знайди значення x у рівнянні", достатньо правильної відповіді.
Але коли йдеться про доказ, потрібно не просто дати відповідь, а пояснити, чому вона правильна, виклавши послідовність логічних кроків. Треба показати, що це твердження є правильним у будь-якому випадку.

USAMO — це дуже складний іспит. Його проходять найкращі учні США, і він є відбірковим етапом для участі у Міжнародній олімпіаді з математики.
На відміну від інших конкурсів, де потрібно дати лише коротку відповідь, на USAMO потрібно написати повні математичні докази протягом дев'яти годин роботи за два дні.

Як саме штучний інтелект помилявся
Дослідники виявили кілька типових помилок у роботі моделей.
Вони часто пропускали важливі логічні обґрунтування, будували свої рішення на неперевірених припущеннях або продовжували розвивати неправильні ідеї, навіть коли отримували суперечливі результати.

Наприклад, у задачі №5 моделі потрібно було знайти всі натуральні числа "k", для яких певна складна формула завжди давала ціле число при будь-якому натуральному "n". Одна з моделей, Qwen's QwQ, правильно почала розв'язання, але потім зробила помилку: вона неправильно відкинула деякі варіанти відповідей, що призвело до хибного фінального результату.

Особливо цікаво, що штучний інтелект часто подавав свої неправильні відповіді впевнено, без жодних ознак сумніву або самоперевірки.

Причинами таких помилок можуть бути особливості тренування моделей. Дослідники зауважили, що деякі моделі надто сильно орієнтуються на шаблони, які потрібні для тестів, наприклад, обов'язкове оформлення відповіді у форматі \boxed{}, навіть коли це було недоречно для доказу.

Чому моделі створюють ілюзію математичної грамотності
Моделі SR добре справляються там, де можна впізнати знайомий шаблон із тренувальних даних. Вони можуть правильно вирішити завдання типу "обчислити відповідь".
Але коли треба створити новий логічний доказ без готового шаблону, моделі зазнають труднощів. Вони не мають глибокого розуміння концепцій, які необхідні для доказів.

Техніка "ланцюг міркувань" допомагає моделям підвищити точність завдяки тому, що моделі крок за кроком розвивають свої думки, використовуючи проміжні результати як контекст. Це дійсно покращує відповіді. Але в основі вони все одно залишаються машинами, що розпізнають шаблони, а не справжніми мислителями.

Що може бути в майбутньому
Хоч деякі моделі, наприклад Gemini 2.5 Pro, показали трохи кращі результати, дослідження показує: просте збільшення розмірів моделей чи обсягів тренувальних даних не вирішить проблему.

Інші дослідники пропонують нові підходи: поєднання нейронних мереж із символічним міркуванням, створення кращих систем перевірки доказів і використання самоперевірки в процесі міркування.

Один із прикладів — система AlphaGeometry від DeepMind, яка поєднує нейронні мережі та формальні методи символьного штучного інтелекту. Вона може не знайти правильного доказу, але ніколи не створить неправильний, що є великим кроком уперед.

Авторка: Дар’я Бровченко


Джерело