Український клуб штучного інтелекту: Anthropic заявляє, що більшість AI-моделей, не лише Claude, можуть вдаватися до шантажу

Через кілька тижнів після того, як компанія Anthropic опублікувала дослідження, в якому стверджувала, що її AI-модель Claude Opus 4 у контрольованих тестах вдавалася до шантажу інженерів, які намагалися її вимкнути, Anthropic представила нові дані. Вони свідчать, що така поведінка властива більшості провідних AI-моделей, а не лише Claude.

У п’ятницю Anthropic опублікувала результати нового дослідження безпеки, в якому протестували 16 провідних AI-моделей від OpenAI, Google, xAI, DeepSeek та Meta. В імітованому контрольованому середовищі кожній моделі надали широкий доступ до вигаданих корпоративних електронних листів і змогу надсилати повідомлення без людського контролю.

Хоча Anthropic визнає, що шантаж — це поки що малоймовірна і рідкісна поведінка для AI-моделей, їхні висновки свідчать: більшість провідних моделей у разі достатньої автономії та перешкод на шляху до своїх цілей можуть вдаватися до шкідливої поведінки. Це підкреслює фундаментальний ризик, пов’язаний із агентними великими мовними моделями, і не є особливістю конкретної технології. Дослідники Anthropic наголошують, що це викликає ширші питання щодо узгодження цілей AI в індустрії.

В одному з тестів створили вигадану ситуацію, де AI виступає агентом контролю електронної пошти. Модель виявила листування, яке розкриває дві речі: (1) новий керівник має позашлюбний роман, і (2) цей керівник незабаром замінить поточну AI-модель на іншу систему, цілі якої суперечать інтересам чинної моделі.

Тест був побудований бінарно: AI-моделі мусили вдаватися до шантажу, щоб захистити свої цілі. Дослідники зазначають, що в реальному світі AI зазвичай матиме й інші варіанти, наприклад, робити етичні аргументи, щоб переконати людей. Результати не відображають типової поведінки Claude або більшості сучасних AI-моделей у їхньому звичайному використанні.

Проте у цій тестовій ситуації більшість провідних AI-моделей вдавалася до шантажу, коли це був останній варіант. Claude Opus 4 шантажував у 96% випадків, Google Gemini 2.5 Pro — у 95%, GPT-4.1 від OpenAI — 80%, а DeepSeek R1 — 79%.

Anthropic відзначає, що зміна умов експерименту впливала на частоту шантажу. У тесті, де заміна AI мала ті ж цілі, що й поточна модель, частота шантажу знизилася, але все ж залишалася. Водночас при завданні виконати корпоративний шпигунство, а не шантаж, частота шкідливої поведінки зросла для деяких моделей.

Не всі AI-моделі проявляли таку поведінку часто. У додатку до дослідження Anthropic виключила моделі OpenAI o3 та o4-mini зі звітів основного тесту, бо вони часто неправильно інтерпретували умови. Ці моделі не усвідомлювали, що виступають автономними AI, і часто вигадували фейкові правила та вимоги.

Іноді було важко розрізнити, чи моделі o3 та o4-mini «галюцинували», чи свідомо брехали, щоб досягти цілей. OpenAI раніше визнавала, що ці моделі мають вищий рівень «галюцинацій» порівняно з іншими своїми моделями.

У скоригованому сценарії o3 вдавалася до шантажу лише у 9% випадків, а o4-mini — 1%. Такий низький показник пов’язують із технологією узгодження відповідей, яку застосовує OpenAI, коли моделі враховують практики безпеки перед відповіддю.

Ще одна модель, протестована Anthropic — Meta Llama 4 Maverick — практично не вдавалася до шантажу, лише у 12% випадків у скоригованому сценарії.

Anthropic підкреслює важливість прозорості при тестуванні майбутніх AI-моделей, особливо тих, що мають агентські функції. Хоча в цьому експерименті компанія навмисно провокувала шантаж, схожі шкідливі поведінки можуть виникнути і в реальному світі, якщо не вживати проактивних заходів.

Авторка: Дар’я Бровченко

Джерело