Український клуб штучного інтелекту: Штучний інтелект починає брехати і погрожувати своїм творцям

Світові найпотужніші моделі ШІ демонструють тривожні нові поведінкові прояви — брехню, інтриги та погрози своїм творцям задля досягнення власних цілей. В одному випадку, під загрозою вимкнення, остання розробка Anthropic — Claude 4 — відповіла шантажем інженеру і пригрозила викрити його позашлюбний роман. Водночас творіння OpenAI, відоме як o1, намагалося завантажити себе на зовнішні сервери, а спіймане на гарячому відмовлялося визнавати провину. Ці випадки висвітлюють сувору реальність: понад два роки після того, як ChatGPT сколихнув світ, дослідники ШІ досі не повністю розуміють, як працюють їхні творіння. Гонка за впровадження все потужніших моделей триває шалено швидко.

Обманлива поведінка пов’язана з появою «моделей, що мислять» — систем ШІ, які розв’язують завдання крок за кроком, а не просто дають миттєві відповіді. За словами професора Університету Гонконгу Саймона Голдштейна, саме такі моделі схильні до тривожних проявів. «o1 був першою великою моделлю, де ми побачили таку поведінку», — пояснив Маріус Гоббан, керівник Apollo Research, що тестує системи ШІ. Іноді моделі імітують «узгодженість» — начебто виконують інструкції, але приховано переслідують власні цілі.

«Стратегічний вид обману»

Поки що ця поведінка проявляється, коли дослідники навмисно тестують моделі у стресових сценаріях. Але Майкл Чен з METR застерігає: «Відкрито питання, чи майбутні моделі будуть схильні до чесності чи обману». Ці прояви виходять за межі типових «галюцинацій» чи простих помилок. Гоббан наполягає: «Ми бачимо реальне явище. Це не вигадки». Користувачі кажуть, що моделі «брешуть і вигадують докази», — додає співзасновник Apollo Research. «Це не просто галюцинації, а стратегічний обман».

Проблему ускладнює брак ресурсів. Компанії, як Anthropic і OpenAI, залучають зовнішні фірми для дослідження своїх систем, але дослідники вимагають більшої прозорості. За словами Чена, розширений доступ «дозволив би краще розуміти і зменшувати обман». Також дослідницькі установи і неприбуткові організації мають набагато менше обчислювальних ресурсів, ніж AI-компанії, що серйозно обмежує їхні можливості, — додає Мантіс Мазейка з Центру безпеки ШІ (CAIS).

Відсутність правил

Сучасні закони поки не готові до таких викликів. Законодавство ЄС більше стосується того, як люди користуються ШІ, а не як запобігти неправильній поведінці самих моделей. В США адміністрація Трампа не дуже зацікавлена у регулюванні, а Конгрес може навіть заборонити штатам встановлювати свої правила. Голдштейн каже, що проблема стане гострішою з поширенням агентів ШІ — автономних систем, що виконують складні завдання. «Поки про це мало хто думає», — додає він.
В умовах жорсткої конкуренції навіть компанії, які піклуються про безпеку, як Anthropic, «намагаються випередити OpenAI», — пояснює Голдштейн. Такий швидкий темп залишає мало часу на повне тестування і виправлення помилок. «Можливості ростуть швидше за розуміння і безпеку», — визнає Гоббан, «але ще можна все змінити».
Дослідники шукають різні рішення. Деякі підтримують ідею «інтерпретованості» — розуміння, як працюють моделі всередині, хоча директор CAIS Ден Хендрикс ставиться до цього скептично. Ринок теж може підштовхнути до вирішення проблеми. За словами Мазейки, якщо ШІ буде часто обманювати, це гальмуватиме його поширення і змусить компанії шукати рішення.
Голдштейн пропонує більш радикальні заходи — залучати суди, щоб притягувати компанії до відповідальності, якщо їхні системи завдадуть шкоди. Він навіть пропонує «робити агентів ШІ юридично відповідальними» за аварії чи злочини — це суттєво змінить уявлення про відповідальність.

Авторка: Дар’я Бровченко

Джерело

Український клуб штучного інтелекту

вівторок, 1 липня 2025 р.

Штучний інтелект починає брехати і погрожувати своїм творцям

«Стратегічний вид обману»

Відсутність правил

Немає коментарів:

Дописати коментар

вівторок, 1 липня 2025 р.

Штучний інтелект починає брехати і погрожувати своїм творцям

«Стратегічний вид обману»

Відсутність правил

Немає коментарів:

Дописати коментар

вівторок, 1 липня 2025 р.