Дослідники створили фальшиву компанію, повністю укомплектовану агентами ШІ, щоб перевірити, чи можуть вони замінити людських працівників. Результати можуть заспокоїти тих, хто хвилюється через можливу заміну своїх робочих місць ШІ.
Чи справді штучний інтелект збирається забрати наші робочі місця? Деякі компанії на це сподіваються, в той час як інші залишаються скептичними, вважаючи, що ШІ ще не досягнув необхідного рівня. Але яка реальність? У попередньому дослідженні, опублікованому на платформі Arxiv, дослідники з Університету Карнегі-Меллона створили симульовану компанію, в якій ШІ-агенти виконували ролі співробітників. Однак результат виявився далеко не вражаючим.
Віртуальні працівники були побудовані на базі таких моделей ШІ, як Claude від Anthropic, GPT-4o від OpenAI, Google Gemini, Amazon Nova, Meta Llama і Qwen від Alibaba. Їм були призначені різноманітні ролі, включаючи фінансових аналітиків, менеджерів проєктів і програмістів. У той самий час дослідники використовували іншу платформу для симуляції колег, з якими ШІ-агенти мали взаємодіяти для виконання конкретних завдань, таких як звернення до відділу кадрів.
Агентам ШІ не вдалося виконати понад 75% завдань
ШІ-агентам було поставлено різні завдання, наприклад, навігація по файлах для аналізу даних або віртуальні візити для вибору нових офісних приміщень. Claude 3.5 Sonnet вийшов на перше місце, але виконав лише 24% завдань. Якщо врахувати частково виконані завдання, його результат становив лише 34,4%. Gemini 2.0 Flash зайняв друге місце, виконуючи лише 11,4% завдань. Жоден інший агент не виконав більше ніж 10% завдань. Цікаво, що Claude 3.5 Sonnet мав найбільші витрати на операційну діяльність — $6,34, тоді як Gemini 2.0 Flash обійшовся лише в $0,79.
Дослідники зазначили, що агенти мали проблеми з виконанням завдань, які вимагали непрямих інструкцій. Наприклад, коли їх попросили зберегти результат у файлі формату “.docx”, вони не розуміли, що це означає формат Microsoft Word. Також вони мали труднощі з завданнями, що передбачали соціальну взаємодію. Одним із найбільших викликів було навігація в Інтернеті, особливо взаємодія з випливаючими вікнами. Коли вони стикалися з труднощами, іноді вдавалися до скорочень, пропускаючи складні частини завдання і припускаючи, що вони виконали його. Ці результати показують, що хоча ШІ добре справляється з певними завданнями, він ще далекій від того, щоб діяти самостійно.
Авторка: Дар’я Бровченко
Немає коментарів:
Дописати коментар
Примітка: лише член цього блогу може опублікувати коментар.