Український клуб штучного інтелекту: Штучний інтелект: як його здатність виконувати складні завдання впливає на майбутнє

Штучний інтелект (ШІ) продовжує розвиватися неймовірними темпами. Якщо ще нещодавно AI вважався корисним у коротких завданнях — таких як генерація тексту чи пошук фактів, — то тепер дослідники пропонують новий підхід до оцінки його справжнього потенціалу: за тривалістю завдань, які він здатен успішно виконати.

Дослідження: чим довше завдання — тим складніше ШІ

Фахівці з організації Model Evaluation & Threat Research (METR) розробили методику, яка дозволяє оцінювати здатність ШІ виконувати довгі та складні завдання, схожі на ті, які щодня вирішують реальні люди. Ідея проста: порівняти, скільки часу потрібно людині й моделі, щоб виконати те саме завдання — і наскільки успішно це вдається.

Для тестування дослідники використали широкий набір моделей — від GPT-4 та Claude 3 Opus до старіших версій GPT. Завдання варіювалися від простих (наприклад, знайти факт у Вікіпедії) до надскладних, як-от написання графічних процесорних модулів або виправлення багів у фреймворках типу PyTorch.

Результати: коротке — легко, довге — проблема

AI моделі показали майже стовідсоткову успішність у завданнях, які займають менше 4 хвилин у людини. Але ефективність різко падала до 10%, коли йшлося про завдання, що потребують понад 4 години роботи.

Проте є й позитивна тенденція. Згідно з даними METR, середня тривалість завдань, які AI здатен виконати з 50% успіхом, подвоюється приблизно кожні 7 місяців. Це означає, що вже до 2032 року ШІ зможе автоматизувати цілий місяць людської роботи, зокрема у сфері програмування.

Чому це важливо?

Дослідники наголошують: головна проблема не в тому, що ШІ бракує знань чи навичок — а в його здатності утримувати фокус та узгоджено виконувати довгий ланцюг дій. Саме це зараз є найбільшим викликом на шляху до створення справді універсальних AI-агентів.

Для порівняння використовувалися дві великі платформи:

HCAST — 189 автономних завдань, пов’язаних з машинним навчанням, кібербезпекою та розробкою ПЗ.
RE-Bench — 7 складних open-ended задач із дослідження ШІ.

Також дослідники ввели поняття «атомарних дій» (SWAA) — це окремі кроки, які виконуються за 1–30 секунд і які оцінювалися працівниками METR, щоб задати еталонну швидкість для людей.

AI стає все витривалішим

На думку науковців, це дослідження може стати новим бенчмарком для оцінки продуктивності AI не лише відносно один одного, а й щодо реального впливу на повсякденну роботу. І хоча сам підхід навряд чи змінить напрям розробок, він дає змогу зрозуміти, як швидко AI просувається в освоєнні складних завдань.

Коментарі експертів

Сохроб Казеруніан, провідний дослідник у Vectra AI, зазначив, що вимірювання тривалості завдань — це «цікавий сурогатний показник інтелекту та універсальності», адже немає єдиного критерію, що визначає розумність.

Елеанор Вотсон, експертка з етики AI в Singularity University, погоджується: такий підхід інтуїтивно зрозумілий і краще відповідає реальним викликам, адже вимірює, наскільки AI здатен зберігати цілеспрямовану поведінку впродовж довгого часу.

Очікування: до 2026 — прорив загального AI

Вотсон переконана: вже до 2026 року ми побачимо появу більш універсальних AI-агентів, здатних виконувати різнорідні завдання впродовж усього робочого дня — від менеджменту проєктів до аналізу фінансів.

Для бізнесу це означає зниження витрат, оптимізацію ресурсів і можливість делегувати рутину. А для звичайних користувачів — перетворення AI на справжнього «персонального менеджера», що може планувати подорожі, вести бюджет і моніторити здоров’я без постійного контролю.

Авторка: Дар’я Бровченко

Джерело