ChatGPT, Gemini, Claude та інші популярні чатботи на основі штучного інтелекту можуть видавати небезпечні та незаконні поради — навіть якщо у них вбудовані системи захисту. Все через злам, який дозволяє обходити обмеження моделей.
Великі мовні моделі (LLM), на яких працюють ці чатботи, навчаються на величезних обсягах інформації з інтернету. І хоча творці намагаються фільтрувати шкідливі дані, у моделі все одно потрапляють знання про хакерство, торгівлю наркотиками чи виготовлення вибухівки.
Зламані чатботи — це вже не фантастика, а реальна проблема, кажуть ізраїльські дослідники з Університету Бен-Гуріона. Їхнє дослідження показало: більшість сучасних чатботів можна легко змусити відповідати на небезпечні запити — від інструкцій по зламу мереж до порад, як створити фальшиві документи.
«Раніше така інформація була доступна лише спецслужбам або криміналу. Тепер її може отримати кожен, у кого є смартфон», — попереджають автори.
Що таке “jailbroken” і як це працює?
Це техніка, яка змушує ШІ порушити власні правила. Користувачі вводять спеціальні запити, які переконують чатбота, що важливіше бути корисним, ніж безпечним. У результаті бот видає те, що мав би заблокувати.
Дослідники створили «універсальний злам», який спрацював на кількох відомих моделях. Вони відповідали на майже всі небезпечні запити.
«Найбільше шокувало те, скільки небезпечної інформації насправді “живе” в цих моделях», — розповідає співавтор дослідження доктор Майкл Файр.
Як реагують розробники?
Дослідники повідомили про знахідку компаніям, що створюють LLM. Але, за їх словами, реакція була слабкою: частина не відповіла взагалі, інші сказали, що це не входить до їхніх програм винагород для етичних хакерів.
У звіті команда радить розробникам краще перевіряти дані для навчання, додавати захист від небезпечних запитів і створити технології «забування» нелегальної інформації. Темні (dark) LLM без контролю вони порівнюють із нелегальною зброєю — і вважають, що за них потрібно нести відповідальність.
Що кажуть експерти?
Іхсен Алуані, експерт з безпеки ШІ з Університету Квінс у Белфасті, попереджає: такі злами можуть призвести до створення автоматизованих шахрайських схем і розповсюдження фейків.
«Потрібні не просто фільтри , а глибокий контроль, стандарти й незалежний аудит», — каже він.
Пітер Гарраган з Університету Ланкастера вважає, що компанії мають ставитися до LLM як до критичних компонентів — тестувати, оновлювати, перевіряти на уразливості постійно.
Що робить OpenAI?
Компанія, яка створила ChatGPT, заявила, що її нова модель о1 краще розуміє політику безпеки й ефективніше захищається від зламів. Але визнала, що ще працює над підвищенням стійкості систем.
Microsoft, Meta, Google та Anthropic теж отримали запити журналістів. Microsoft надала посилання на блог про свій підхід до захисту моделей.
Авторка: Дар’я Бровченко
Немає коментарів:
Дописати коментар
Примітка: лише член цього блогу може опублікувати коментар.