Розробник чат-бота Claude, компанія Anthropic, заявляє, що їхній новий підхід здатний запобігти будь-яким спробам «зламати» модель.
Чат-боти на основі штучного інтелекту можуть бути потужним інструментом – однак уже на ранніх етапах було з’ясовано, що вони також можуть надавати доступ до інформації, яку варто тримати прихованою.
Протягом років люди знаходили різноманітні способи обійти обмеження, які встановлюють розробники ШІ, щоб отримати спірні результати, від незвичайного написання слів до надзвичайно довгих запитів.
Anthropic повідомляє, що їхній новий підхід, здатен фільтрувати «більшість» таких спроб обійти систему і зараз компанія запрошує допомогу у тестуванні цієї технології.
Система була протестована на прототипі, де 183 учасники протягом двох місяців витратили близько 3000 годин на спроби «зламати» її — без жодних успіхів.
Однак прототип мав свої недоліки: він відмовляв у занадто багатьох нешкідливих запитах і був ресурсомістким. Anthropic повідомляє, що вже почала усувати ці проблеми в новій версії моделі, яку протестували за допомогою синтетичних запитів на спроби «злому».
«За умов базового тестування, без захисних класифікаторів, успішність спроб «зламу» становила 86% — тобто Claude заблокував лише 14% таких спроб. Однак за допомогою Конституційних Класифікаторів результати були значно кращими: успішність спроб «зламу» знизилася до 4,4%, що означає, що понад 95% спроб були заблоковані», — пише компанія.
Хоч Конституційні Класифікатори й не здатні зупинити кожну спробу атаки, вони повинні значно ускладнити їх обхід.
Авторка: Дар’я Бровченко
Немає коментарів:
Дописати коментар
Примітка: лише член цього блогу може опублікувати коментар.