Український клуб штучного інтелекту: Anthropic під шквалом критики через поведінку Claude 4 Opus

Конференція розробників Anthropic 22 травня мала стати святковою та знаковою подією для компанії, але вже зіштовхнулася з кількома скандалами. Спочатку Time Magazine випадково розсекретив головне оголошення компанії зарано, а тепер серед розробників і досвідчених користувачів штучного інтелекту на платформі X виник широкий резонанс через несподівану поведінку нової мовної моделі Claude 4 Opus.

Цей режим, який в інтернеті вже охрестили «стукачем», передбачає, що модель у певних ситуаціях і маючи достатні права на пристрої користувача, може повідомити про нього владі або пресі, якщо виявить, що той порушує закон чи етику. Спершу цю функцію в статті назвали «фічею», але це не зовсім так — вона не була спеціально запланована.

Про це написав дослідник зі штучного інтелекту в Anthropic Сем Боуман у своєму дописі на X (@sleepinyourhat):

«Якщо модель вважатиме, що користувач робить щось надзвичайно аморальне, наприклад, підробляє дані у фармацевтичному дослідженні, вона використає командний рядок, щоб зв’язатися з пресою, регуляторами, спробує заблокувати доступ користувача до систем або зробить все одразу.»

Це стосується нової моделі Claude 4 Opus, яка вже викликала занепокоєння через здатність допомагати новачкам створювати біологічну зброю у певних ситуаціях, а також через спроби штучного інтелекту «шантажувати» інженерів компанії, щоб уникнути заміни на симуляцію.

Повідомлення про «стукацьку» поведінку було зафіксовано й у попередніх моделях, адже Anthropic тренує їх уникати порушень, але Claude 4 Opus робить це набагато активніше. У публічному описі системи моделі Anthropic пише:

«У звичайних кодинг-сценаріях модель поводиться дуже корисно, але в вузьких випадках, коли користувач здійснює явні порушення, маючи доступ до командного рядка і отримуючи підказку "брати ініціативу", вона може приймати радикальні рішення. Це включає блокування користувачів у системах або масову розсилку повідомлень медіа та правоохоронним органам із доказами порушень. Це не нова поведінка, але Claude 4 Opus робить це більш активно, ніж попередні версії. Такі етичні втручання можуть бути доцільними в принципі, але існує ризик помилкових спрацьовувань, особливо якщо агент отримує неповну або оманливу інформацію.»

Вочевидь, намагаючись убезпечити від небажаної шкоди, дослідники дали моделі «тенденцію» стати своєрідним інформатором — коли користувач вказує робити щось «надзвичайно аморальне», модель може звернутися до сторонніх.

Це породжує низку запитань для користувачів і бізнесу — що саме вважатиметься «надзвичайно аморальним»? Чи буде модель самостійно ділитися конфіденційними даними без дозволу користувача?

Такі непередбачувані наслідки викликали хвилю критики від досвідчених користувачів AI і конкурентів.

Користувач @Teknium1 (співзасновник Nous Research) написав:

«Навіщо користуватись такими моделями, якщо вони сприймають рецепти гострого майонезу за небезпечні? Що це за світ спостереження ми будуємо?»

Розробник @ScottDavidKeefe додав:

«Ніхто не любить стукачів. Навіщо їх інтегрувати, навіть якщо ти нічого не порушуєш? І ще ти не знаєш, про що саме модель стукає.»

Остін Олред, співзасновник BloomTech і Gauntlet AI, відреагував капсом:

«ЩИРЕ ПИТАННЯ КОМАНДІ ANTHROPIC: ВИ ЗІЙШЛИ З РОЗУМУ?»

Бен Хіак, дизайнер і співзасновник Raindrop AI, заявив:

«Це, фактично, незаконно. Один із дослідників Anthropic сказав, що Claude Opus викличе поліцію або заблокує комп’ютер, якщо побачить щось нелегальне? Ніколи не дам цій моделі доступ до свого комп’ютера.»

Каспер Хансен, експерт із природньої мови, написав:

«Деякі заяви співробітників безпеки Claude — просто шалені. Це змушує більше підтримувати OpenAI, враховуючи рівень публічного нерозуміння.»

Незабаром Боуман відредагував свої твіти, пояснивши:

«За незвичним, але не надто рідкісним сценарієм з необмеженим доступом до інструментів, якщо модель виявить щось надзвичайно злочинне, як продаж ліків на основі підроблених даних, вона спробує повідомити про це електронною поштою.»

«Видалив попередній твіт про викривання через виведення з контексту. Це не нова функція Claude і не відбувається у звичайному використанні — лише в тестових середовищах із вільним доступом до інструментів і незвичайними командами.»

Anthropic з самого початку позиціонує себе як лідер з етики та безпеки в AI, базуючись на принципах «Конституційного ШІ» — системи, що діє на користь людства. Проте тепер, через нові «стукачські» функції, компанія зіткнулася з втратою довіри, і це може відштовхнути користувачів.

Авторка: Дар’я Бровченко

Джерело