Незважаючи на здатність створювати код, генерувати реалістичні зображення та писати тексти, штучний інтелект (ШІ) демонструє несподівані проблеми з розпізнаванням часу на аналогових годинах і визначенням дня тижня за датою.
Дослідники виявили, що ШІ-системи лише у 38,7% випадків правильно читають годинники, а календарі — лише у 26,3%.
Нові дослідження, представлені на Міжнародній конференції з навчальних репрезентацій (ICLR) у 2025 році, показали, що ШІ суттєво помиляється, читаючи позиції стрілок на звичайних годинниках або виконуючи базові арифметичні дії для календарних дат. Публікація результатів на arXiv поки що не пройшла рецензування.
«Більшість людей вміють визначати час і користуватися календарями з дитинства. Наші результати вказують на суттєвий пробіл у цих базових навичках у ШІ», — зазначив Рохіт Саксена, провідний автор дослідження з Единбурзького університету. За його словами, ці недоліки потрібно усунути, щоб впроваджувати ШІ у задачі, що потребують точного часу, зокрема в плануванні, автоматизації та технологіях підтримки.
Для перевірки здібностей ШІ у визначенні часу вчені створили спеціальний набір зображень годинників і календарів та подали їх на вхід кільком мультимодальним великим мовним моделям (MLLM), які працюють із текстом і зображеннями одночасно. У дослідженні взяли участь моделі Meta Llama 3.2-Vision, Anthropic Claude-3.5 Sonnet, Google Gemini 2.0 та OpenAI GPT-4o.
Результати виявилися невтішними: моделі більше ніж у половині випадків не змогли правильно визначити час на годиннику або день тижня для певної дати.
Як пояснив Саксена, причина криється у специфіці навчання моделей:
«Ранні системи навчалися на підписаних прикладах. Однак читання годинника потребує просторового мислення: треба розпізнати накладення стрілок, виміряти кути, розібратися з різними дизайнами — римськими цифрами або стилізованими циферблатами. Визначити, що це годинник — легше, ніж прочитати час», — пояснив він.
Аналогічні труднощі виникають із датами. Наприклад, на запитання: «Який день тижня припадає на 153-й день року?» — ШІ відповідає неправильно у більшості випадків.
Цей недолік є особливо дивним, адже арифметика — основа обчислень. Проте, як пояснив автор, ШІ працює інакше:
«Арифметика для традиційних комп’ютерів — тривіальна, але для великих мовних моделей — ні. Вони не виконують математичні алгоритми, а прогнозують відповіді на основі знайдених у тренувальних даних патернів. Тож хоч іноді ШІ і дає правильні відповіді, його логіка непослідовна й не базується на правилах», — наголосив Саксена.
Цей проєкт — частина великої серії досліджень, що показують різницю між тим, як ШІ «розуміє» світ, і як це роблять люди. Моделі добре працюють, коли у них достатньо прикладів, але часто зазнають невдач, коли потрібно застосувати абстрактне мислення або узагальнення.
«Те, що для нас дуже проста задача для них може бути надскладною, і навпаки», — підсумував Саксена.
Вчені також підкреслюють проблему обмеженості тренувальних даних щодо рідкісних явищ — наприклад, високосних років або складних календарних обчислень. Навіть маючи багато прикладів описів, моделі не завжди роблять необхідні зв’язки, щоб правильно виконати візуальну задачу.
Результати дослідження наголошують на потребі в більш цілеспрямованих тренувальних даних і переосмисленні підходів до поєднання логіки та просторового мислення у ШІ.
Найголовніше — це ще один сигнал, що надмірна довіра до ШІ може бути ризикованою.
«ШІ — потужний інструмент, але там, де завдання поєднують сприйняття та точну логіку, потрібні ретельні тести, резервні механізми й, у багатьох випадках, людський контроль», — підсумував Рохіт Саксена.
Авторка: Дар’я Бровченко
Немає коментарів:
Дописати коментар
Примітка: лише член цього блогу може опублікувати коментар.