вівторок, 13 травня 2025 р.

Галюцинації у ШІ: чому нові моделі не стають точнішими


Рейтинг ШІ показує, що новітні моделі дають менш точні результати через високий рівень галюцинацій. Експерти вважають, що проблема глибша.


Чат-боти від компаній, як OpenAI та Google, отримували оновлення «розмірковування», щоб покращити точність, але останні тести показують, що деякі нові моделі працюють гірше. Галюцинації — помилки, коли ШІ генерує неправдиву або неактуальну інформацію — залишаються постійною проблемою і, ймовірно, не зникнуть найближчим часом.

Галюцинація означає, що великі мовні моделі (LLM), як ChatGPT від OpenAI або Gemini від Google, дають відповіді, які або є неправдивими, або не мають відношення до заданого питання. Вона також може позначати фактично правильні відповіді, але не відповідні до питання чи які не відповідають іншим вимогам.

Технічний звіт OpenAI оцінив останні моделі, o3 та o4-mini, випущені в квітні. Ці моделі показали значно вищі рівні галюцинацій порівняно з попередником, моделлю o1 з кінця 2024 року. Наприклад, o3 галюцинує 33% часу, o4-mini — 48%, а o1 мав лише 16%.

Ця проблема не обмежується OpenAI. Рейтинг від Vectara, який слідкує за рівнем галюцинацій, також виявив, що деякі «моделі з розмірковуванням», як DeepSeek-R1, мали значне зростання рівня галюцинацій порівняно з попередніми версіями. Ці моделі проходять кілька етапів розмірковування перед відповіддю.

OpenAI відповідає, що моделі з розмірковуванням не є більш схильними до галюцинацій.

«Ми працюємо над зниженням рівня галюцинацій в o3 та o4-mini і продовжимо дослідження, щоб покращити точність», — сказав представник OpenAI.

Високий рівень галюцинацій може ускладнити використання ШІ. Модель, що постійно генерує неправду або потребує перевірки фактів, не буде корисною для таких завдань, як дослідження, право чи обслуговування клієнтів.

Спочатку компанії обіцяли, що галюцинації з часом зменшуватимуться, і ранні моделі справді покращувалися в цьому відношенні. Однак високі рівні галюцинацій у нових версіях ускладнюють виконання цієї обіцянки.

Рейтинг Vectara оцінює моделі за їх фактичною узгодженістю в підсумовуванні документів, і він показав, що рівні галюцинацій подібні для моделей з розмірковуванням і без нього. Google не надало додаткових коментарів.

Цей спосіб оцінки, однак, має обмеження. Він не враховує різні типи галюцинацій, наприклад, ті, що логічно підтримані, але не зустрічаються в оригінальному тексті. Крім того, тестування на підсумовуванні не показує, як ці моделі працюють у інших завданнях, таких як відповіді на конкретні запитання.


Лінгвістка Емілі Бендер з Університету Вашингтона вважає, що термін «галюцинація» може вводити в оману. Він створює враження, ніби помилки — це рідкісні винятки в надійному процесі. Насправді ж великі мовні моделі не сприймають і не розуміють текст, як це робить людина, — вони просто передбачають, яке слово ймовірніше буде наступним.

На думку Арвінда Нараяни з Принстонського університету, проблема значно ширша. ШІ не лише «галюцинує», але й часто покладається на ненадійні джерела або застарілі дані. І навіть збільшення обсягу тренувальних даних чи потужностей не гарантує точніших результатів.

Що з цього випливає? Можливо, з помилками ШІ доведеться просто змиритися. Нараяна радить використовувати чат-боти лише для тих завдань, де навіть з урахуванням перевірки фактів це швидше, ніж робити все вручну. А Бендер узагалі не радить покладатися на ШІ, коли йдеться про фактичну інформацію.

Авторка: Дар’я Бровченко


Джерело

Немає коментарів:

Дописати коментар

Примітка: лише член цього блогу може опублікувати коментар.