У січні китайський стартап DeepSeek привернув увагу завдяки ефективному та економічному підходу до генеративного ШІ. Головна мета DeepSeek є туманною, ніж просто ефективність: компанія прагне створити перший справжній штучний загальний інтелект, або AGI.
Вже багато років розробники ШІ — від малих стартапів до великих технологічних компаній — змагаються за досягнення цієї невловної мети. Вони стверджують, що AGI стане критичним етапом, що дозволить комп'ютерним системам замінити людських працівників, зробить ШІ більш надійним за людський досвід та позиціонує штучний інтелект як інструмент для прогресу суспільства.
Однак, попри багато років розвитку ШІ, концепція штучного загального інтелекту (AGI) залишається недостатньо визначеною та суперечливою. Деякі дослідники та технологічні компанії вважають AGI критерієм, що визначає потенціал ШІ для трансформації суспільства. Технічні прихильники вважають, що зі створенням суперінтелектуальних комп'ютерів, наше повсякденне життя може змінитися, впливаючи на роботу, управління та темп наукових відкриттів.
Проте багато експертів сумніваються у тому, наскільки ми близькі до утопії, керованої ШІ, і вважають, що практична корисність AGI ще не досягнута. Єдиної думки, що саме являє собою AGI, немає, і відсутні чіткі методи його вимірювання. Деякі вчені вважають, що AGI — це лише маркетинговий термін, який не дає конкретних інструкцій щодо того, як найкраще використовувати ШІ або оцінювати його вплив на суспільство.
У процесі змагання технологічних компаній за створення AGI, публіці важко розрізнити реальні наукові досягнення від маркетингових обіцянок і наукової фантастики. За словами Бена Рехта, надмірна увага до обіцянок про швидке досягнення AGI може відвернути увагу від реальних можливостей технологій сьогодні і впливу, який вони вже мають на суспільство.
Визначення AGI
Термін «штучний загальний інтелект» з'явився в середині XX століття і спочатку позначав комп'ютер, здатний виконувати будь-яке завдання, яке людина може зробити, включаючи фізичні дії, такі як приготування кави або ремонт автомобіля. Однак із розвитком робототехніки, який відставав від прогресу в обчисленнях, вчені почали звужувати поняття AGI. Спочатку це були системи ШІ, здатні виконувати завдання, що раніше виконувала б людина за комп'ютером, а згодом — машини, які можуть виконувати «економічно цінні» завдання, такі як програмування або створення точних текстів.
"Проблема в тому, що ми не знаємо, чого хочемо", — каже Арсеній Москвічев, інженер машинного навчання. "Оскільки мета не визначена чітко, немає зрозумілого шляху до її досягнення або способу виміряти, наскільки ми наблизилися до цього."
Щоб визначити, як наблизитися до досягнення AGI, дослідники створюють тестові системи, схожі на екзамени для студентів, щоб оцінити, наскільки близькі системи до досягнення цієї мети.
Тести на ШІ не враховують реальну складність
Однак навіть тести на AGI, такі як ARC-AGI, викликають суперечки. Проблема полягає в тому, що всі існуючі тести для вимірювання здатностей ШІ є недосконалими. Як і тести IQ для людей, які критикуються за упередженість, тести для AGI стикаються з подібними проблемами, говорить Амелія Харді, комп'ютерний вчений Стенфордського університету. "Дуже складно зрозуміти, чи дійсно ми вимірюємо те, що нам потрібно."
Наприклад, модель o3 від OpenAI правильно відповіла на більш ніж чверть питань з набору складних завдань, відомих як Frontier Math benchmark, які зазвичай забирають години роботи професійних математиків. На перший погляд, o3 показує хороший результат. Однак цей успіх частково пояснюється тим, що OpenAI фінансувала розробку цього бенчмарка і мала доступ до тестових даних під час створення o3.
Новітні моделі штучного інтелекту значно покращилися останнім часом. "Вони дуже корисні в багатьох відношеннях", — зазначає Рехт, вказуючи на здатність нових моделей узагальнювати та аналізувати дані або генерувати комп'ютерний код з мінімальними помилками. Проте спроби виміряти загальні можливості, як ARC-AGI, не завжди пояснюють, як саме можна використовувати моделі ШІ. "Не думаю, що важливо, чи є вони штучно загальним інтелектом", — каже Рехт.
Замість цього набагато важливішими можуть бути традиційні метрики, що визначають вартість конкретних завдань. Корисність технології залежить як від якості інструменту, так і від його здатності масштабуватися. Інтелект — лише частина рівняння.
Авторка: Дар’я Бровченко
Немає коментарів:
Дописати коментар
Примітка: лише член цього блогу може опублікувати коментар.