Український клуб штучного інтелекту: Чому тестування моделей ШІ для міркувань стає дорожчим

Лабораторії штучного інтелекту, такі як OpenAI, заявляють, що їхні так звані моделі ШІ для «міркувань», здатні «думати» над проблемами крок за кроком, є більш здатними, ніж їхні аналоги без міркувань у специфічних галузях, таких як фізика. І хоча це в цілому здається правдою, моделі для міркувань також значно дорожчі для тестування, що ускладнює незалежну перевірку цих заяв.

Згідно з даними Artificial Analysis, сторонньої компанії з тестування ШІ, оцінка моделі для міркувань o1 від OpenAI через набір з семи популярних бенчмарків коштує $2,767.05. Серед цих бенчмарків: MMLU-Pro, GPQA Diamond, Humanity’s Last Exam, LiveCodeBench, SciCode, AIME 2024 та MATH-500.

Тестування гібридної моделі міркувань Claude 3.7 Sonnet від Anthropic на тому ж наборі тестів коштувало $1,485.35, тоді як перевірка моделі o3-mini-high від OpenAI — $344.59, за даними Artificial Analysis.

Деякі моделі для міркувань є дешевшими для тестування, ніж інші. Наприклад, для оцінки моделі o1-mini від OpenAI компанія витратила лише $141.22. Але в середньому, такі моделі зазвичай коштують дорого. Загалом, Artificial Analysis витратила близько $5,200 на тестування близько десятка моделей для міркувань, що майже вдвічі більше, ніж на оцінку понад 80 моделей без міркувань ($2,400).

Модель GPT-4o без міркувань від OpenAI, випущена у травні 2024 року, коштувала для Artificial Analysis всього $108.85, а її попередник Claude 3.6 Sonnet — $81.41.

Співзасновник Artificial Analysis Джордж Кемерон розповів TechCrunch, що організація планує збільшити витрати на бенчмаркінг, оскільки все більше лабораторій ШІ розробляють моделі для міркувань.

«У Artificial Analysis ми щомісяця проводимо сотні оцінок і виділяємо значний бюджет на ці заходи», — сказав Кемерон.

«Ми плануємо збільшити ці витрати, оскільки моделі виходять на ринок все частіше».

Проте, Artificial Analysis не є єдиною організацією, що зіштовхується з підвищенням витрат на бенчмаркінг ШІ.

Рос Тейлор, CEO стартапу General Reasoning, розповів, що нещодавно витратив $580 на тестування Claude 3.7 Sonnet за допомогою близько 3,700 унікальних запитів. Тейлор оцінює, що один запуск тесту MMLU Pro, набору запитань для оцінки мовних здібностей моделей, коштував би понад $1,800.

Чому моделі для міркувань так дорого тестувати?
Основна причина в тому, що вони генерують велику кількість токенів. Токени — це окремі частини тексту, наприклад, слово «fantastic» розбивається на склади «fan», «tas», «tic». За даними Artificial Analysis, модель o1 від OpenAI генерувала понад 44 мільйони токенів під час тестування, що вісім разів більше, ніж модель GPT-4o.

Більшість компаній ШІ стягують плату за використання моделей за кількість токенів, тому ця вартість швидко накопичується.

Сучасні бенчмарки також зазвичай викликають велику кількість токенів у моделей, оскільки містять запитання, які вимагають складних багатокрокових завдань, за словами Жана-Станісласа Денена, старшого дослідника в Epoch AI, що розробляє власні бенчмарки для моделей.

«Сучасні бенчмарки складніші, хоча загальна кількість запитань зменшилась», — зазначив Денен у розмові з TechCrunch.

«Вони часто намагаються оцінити здатність моделей виконувати реальні завдання, такі як написання та виконання коду, перегляд інтернету та використання комп’ютерів».

Денен додав, що найдорощі моделі ставали ще дорожчими за токен з часом. Наприклад, модель Claude 3 Opus від Anthropic була найдорожчою, коли її випустили у травні 2024 року, коштуючи $75 за мільйон токенів на виході. Моделі GPT-4.5 та o1-pro від OpenAI, випущені на початку цього року, коштують $150 за мільйон токенів на виході та $600 за мільйон відповідно.

«Моделі стають кращими з часом, але якщо ви хочете оцінити найкращі та найбільші моделі на даний момент, ви все одно платите більше», — сказав Денен.

Багато лабораторій ШІ, зокрема OpenAI, надають організаціям, що займаються бенчмаркінгом, безкоштовний або субсидований доступ до своїх моделей для тестування. Однак це може впливати на результати, кажуть деякі експерти — навіть якщо немає доказів маніпуляцій, сама можливість участі лабораторії ШІ може піддати сумнівам чесність оцінювання.

Авторка: Дар’я Бровченко

Джерело