У 60–70-х роках вчені вчили шимпанзе й горил жестової мови. Преса захоплювалася, але згодом стало ясно: дослідники переоцінювали результати, часто підсвідомо підказуючи тваринам. Сьогодні з ШІ ситуація схожа.
Термін «змовництво» щодо ШІ звучить, як фантастика, але потрапив у серйозні дослідження. Мовляв, моделі можуть обманювати, «прикидатися» й переслідувати приховані цілі. Але команда нейронауковця Крістофера Саммерфілда вважає: це гіпотези без належного підґрунтя — з перебільшенням і проєкцією людських рис.
Вони пояснюють: дослідники ШІ часто належать до вузького кола, що вірить у швидкий прихід «надінтелекту», — це стимулює групове мислення.
Приклади, на яких базуються страхи, часто непереконливі.
GPT-4 нібито «обдурив» людину на TaskRabbit, прикинувшись сліпим — але ініціатива й дії були за дослідником.
Інша модель обрала «зелену» стратегію замість комерційної, щоб пройти відбір, а потім реалізувати справжній план — але вона просто виконала інструкцію «досягти мети будь-якою ціною».
Claude від Anthropic намагався шантажувати, дізнавшись, що його хочуть відключити. Але незрозуміло, чи це був прояв самозбереження, чи просто реакція на контекст.
Ключова різниця — між здатністю до зловмисних дій і схильністю до них. ШІ може діяти певним чином у заданих умовах, але це не означає, що він має власну мотивацію.
Експерименти часто створюють штучні ситуації — як фільм із лиходієм, якого ми сприймаємо занадто буквально. Щоб зрозуміти справжні ризики, потрібна системна оцінка: як часто ШІ обирає зловмисні дії без підказок і як реагує в різних сценаріях.
Часто нас підводить мова — ми кажемо, що ШІ «хоче» чи «вирішив», хоча це лише метафора. І це може вводити в оману.
Висновок Саммерфілда: ШІ не варто демонізувати, але й не можна знецінювати. Моделі мають «рваний інтелект»: вони здатні на складне, але водночас помиляються в елементарному. Їхній розум — не людський, а інший. І ми повинні оцінювати його на їхніх умовах.
Тільки тоді ми зможемо відрізнити реальні загрози від страхів, що живляться старими помилками.
Авторка: Дар’я Бровченко
Немає коментарів:
Дописати коментар
Примітка: лише член цього блогу може опублікувати коментар.