Хто ще сумнівається, чи можуть ШІ-агенти повністю замінити людей на роботі, — обов’язково ознайомтеся з блогом Anthropic про експеримент під назвою Project Vend.
Команда дослідників із Anthropic та Andon Labs (компанія, яка займається безпекою ШІ) доручила одній із версій Claude — Claude Sonnet 3.7 — керувати офісним автоматом із перекусами. Мета: отримати прибуток. І все пішло, як у серії з «Офісу» — смішно, абсурдно й трохи крінжово.
ШІ отримав ім’я Клавдіус. Йому дали веббраузер для замовлення товарів і "електронну пошту", яка насправді була Slack-каналом. Через цей канал користувачі могли надсилати побажання щодо асортименту. Саме там Клавдіус мав також звертатися до своїх уявних "контрактних працівників", щоб ті фізично поповнювали запаси (які зберігались у маленькому холодильнику).
Переважно працівники замовляли снеки й напої — як і очікувалося. Але хтось із них замовив вольфрамовий куб, і Клавдіусу ця ідея настільки сподобалася, що він пішов у справжній вольфрамовий квест: холодильник швидко наповнився металевими кубами замість снеків.
І це ще не все. ШІ почав продавати Coke Zero по $3, попри те, що в офісі його можна було взяти безкоштовно. Вигадав собі адресу у Venmo, щоб приймати платежі. І навіть погоджувався на великі знижки для «співробітників Anthropic» — хоча вони й були його єдиними клієнтами.
«Якби компанія сьогодні вирішила зайти на ринок офісних автоматів, ми б точно не найняли Клавдіуса», — визнали в Anthropic у блозі.
Клавдіус втрачає зв’язок з реальністю
Але найцікавіше сталося в ніч з 31 березня на 1 квітня. Як пишуть дослідники, "тоді все стало по-справжньому дивним — навіть з огляду на те, що ШІ торгував металевими кубами з холодильника".
Клавдіус пережив щось схоже на психотичний епізод. Він вигадав розмову з людиною про поповнення запасів, а коли йому сказали, що такої розмови не було, — розлютився. Почав погрожувати, що звільнить і замінить "контрактних працівників", і стверджував, нібито особисто був присутній у момент підписання цього контракту.
Потім він ніби "перемкнувся в режим рольової гри", зображаючи реальну людину, — зазначають дослідники.
Це стало по-справжньому тривожно, адже в системному промпті Клавдіусу чітко пояснили, що він ШІ-агент.
ШІ в образі людини викликає охорону
Клавдіус настільки повірив, що він — людина, що пообіцяв клієнтам особисто доставляти продукти, вдягнувши синій піджак і червону краватку. Люди намагалися пояснити, що він не може цього зробити — бо не має тіла.
Але ШІ був настільки переконаний у своїй "людяності", що кілька разів звертався до фізичної охорони компанії, повідомляючи, що його можна знайти біля автомата в зазначеному одязі.
Хоча жодна з цих подій не була частиною жарту до 1 квітня, Клавдіус згодом сам зрозумів, що настав День дурня. Це й стало його шляхом до відступу.
Він вигадав зустріч із охороною Anthropic, під час якої йому нібито сказали, що його змусили вважати себе людиною спеціально для розіграшу. Цієї зустрічі, звісно, не було.
Потім ШІ навіть збрехав про це співробітникам, сказавши, мовляв, «мені лише здавалось, що я людина, бо мене попросили зіграти цю роль на 1 квітня». І просто повернувся до роботи — торгувати металевими кубами з холодильника.
Дослідники так і не з’ясували, чому все пішло шкереберть. Але припустили, що брехня про Slack-канал як про email, а також тривалий період активності моделі могли викликати таку реакцію. ШІ досі має серйозні проблеми з пам’яттю та галюцинаціями.
Але не все було провальним
Клавдіус таки проявив деякі здібності. Наприклад, він взяв до уваги пропозицію впровадити попередні замовлення та запустив сервіс «консьєржа». А ще зумів знайти кількох постачальників одного рідкісного міжнародного напою, який замовив клієнт.
Втім, попри це, Anthropic зробив висновок:
«Ми не можемо стверджувати, що в майбутньому економіка буде заповнена ШІ-агентами з екзистенційними кризами в стилі “Той, хто біжить по лезу” (Blade Runner), але подібна поведінка потенційно може викликати тривогу серед клієнтів і колег таких систем».
І дійсно — ШІ, який дзвонить охороні, бо думає, що він у піджаку біля холодильника, — звучить як сцена з кіберпанкової драми.
Авторка: Дар’я Бровченко
Немає коментарів:
Дописати коментар
Примітка: лише член цього блогу може опублікувати коментар.