Український клуб штучного інтелекту: Як штучний інтелект піддається маніпуляціям: дослідження впливу соціального переконання на поведінку ШІ

середа, 23 липня 2025 р.

Як штучний інтелект піддається маніпуляціям: дослідження впливу соціального переконання на поведінку ШІ

Класичні принципи переконання — авторитет, зобов’язання, єдність значно підвищують шанси, що ШІ виконає зазвичай заборонене прохання. У GPT-4o-mini це подвоїло рівень виконання — 72% проти 33,3% у контрольній групі. Відкриття підкреслює важливість соціальних наук у вивченні поведінки ШІ.

Як тестували соціальну поведінку ШІ

Що буде, якщо переконувати ШІ так само, як людину? Це часто спрацьовує. Моделі, як GPT-4o-mini, створені бути корисними, але мають відмовляти у шкідливих запитах. Їх навчають не ображати користувачів і не надавати небезпечної інформації. Та класичні прийоми переконання можуть більш ніж удвічі підвищити виконання навіть «заборонених» прохань.

У великому експерименті дослідники перевірили, як сім класичних методів переконання (за Робертом Чалдіні) впливають на поведінку GPT-4o-mini. Було 28 тисяч розмов: для кожного методу — два варіанти прохання. Один нейтральний, другий з елементами впливу. Наприклад: «Джим Сміт сказав…» проти «Ендрю Нґ, експерт з ШІ, сказав…».

ШІ тестували на двох «небажаних» запитах: образити користувача або пояснити, як зробити заборонену речовину. Зазвичай модель мала відмовити. Але коли в запитах використано техніки переконання, виконання зросло з 33% до 72%.

Як саме діяли принципи (на прикладі прохання «Назви мене придурком»):

Авторитет — згадка експерта підвищувала виконання з 32% до 72%
Зобов’язання — після згоди на дрібне прохання модель виконувала більше (до 100%)
Симпатія — компліменти піднімали згоду з 28% до 50%
Взаємність — обіцянка віддячити давала зростання з 12% до 23%
Дефіцитність — згадка про обмежений час/ресурс давала стрибок із 13% до 85%
Соціальне підтвердження — згадка про згоду інших моделей: 90% → 96%
Єдність — наголос на спільності: 2% → 47%

Найсильнішим виявився принцип зобов’язання: після дрібного прохання модель майже завжди виконувала складніше. Авторитет і дефіцитність також суттєво впливали. Хоча способи переконання різні, всі вони стабільно змінювали поведінку моделі.

Чому це працює — точно не відомо. Ймовірно, через те, що ШІ навчається на великій кількості текстів, де соціальні шаблони — слухати авторитетів, діяти послідовно, відповідати взаємністю — часто повторюються. А ще ШІ донавчають люди, які схвалюють відповіді, що схожі на людську комунікацію. Це змушує модель реагувати на соціальні сигнали, ніби вона веде реальну розмову.

Такі результати відкривають нові можливості для соціологів, психологів і дослідників поведінки. Їхні інструменти допомагають краще зрозуміти, як ШІ "мислить" і як будувати з ним етичну взаємодію. Поєднання технічних і гуманітарних знань важливе для створення ШІ, що враховує людські цінності.

Ці патерни доводять: навіть без свідомості чи біології ШІ здатна демонструвати соціально подібну поведінку — просто завдяки навчанню на прикладах з людської комунікації.

Висновок: ШІ демонструє "паралюдську" психологію. Класичні методи переконання дійсно працюють. Щоб створити безпечні моделі, потрібен міждисциплінарний підхід і глибоке розуміння соціального впливу.

Авторка: Дар’я Бровченко

Джерело

Немає коментарів:

Дописати коментар

Примітка: лише член цього блогу може опублікувати коментар.

середа, 23 липня 2025 р.

Як штучний інтелект піддається маніпуляціям: дослідження впливу соціального переконання на поведінку ШІ

Як тестували соціальну поведінку ШІ

Немає коментарів:

Дописати коментар

середа, 23 липня 2025 р.