Що саме тестувалося і як це відбувалося
Ще у січні 2023 року вперше було поставлено питання: чи можливо протидіяти плагіату, згенерованому штучним інтелектом, і як саме це працює? Тоді, лише через кілька місяців після стрімкого злету популярності генеративного ШІ, результати тестування були доволі скромними — найкращий з доступних на той час трьох детекторів виявляв ШІ-контент лише у 66% випадків.
У лютому 2025 року обсяг тестування було розширено до 10 інструментів. Три з них тоді впоралися безпомилково. За останній місяць таких інструментів стало п’ять.
Варто також згадати: плагіат — це "викрадення і видавання (ідей чи слів іншої особи) за власні; використання чужих матеріалів без посилання на джерело", згідно з Merriam-Webster. У випадку зі штучним інтелектом, користувач не краде контент у буквальному сенсі, але якщо не вказує, що використано ШІ, і приписує собі авторство — це формально підпадає під визначення плагіату.
Для оцінки інструментів було створено 5 текстових блоків: два з них написані людиною, три — згенеровані ChatGPT. Кожен блок окремо перевірявся кожним інструментом. Якщо результат був правильним, тест вважався успішним, якщо помилковим — проваленим.
Якщо інструмент вказував відсоткову ймовірність, результат понад 70% вважався переконливим для визначення, чи є текст людським, чи створеним ШІ. Це і стало підсумковим результатом.
Загальні результати
У межах серії тестів було проведено 50 перевірок (по 5 тестів для кожного з 10 інструментів). Серед перевірених сервісів: BrandWell, Copyleaks, GPT-2 Output Detector, GPTZero, Grammarly, Monica, Originality.ai, QuillBot, Undetectable.ai, Writer.com і ZeroGPT.
У новому циклі до списку було додано Copyleaks та Monica. Натомість Writefull вилучено, оскільки він припинив підтримку інструмента визначення GPT-контенту. Також був запит від Content Guardian щодо включення, але на момент тестування не вдалося отримати доступу до акаунту.
П’ять інструментів із десяти змогли правильно визначити всі 5 текстів — і людські, і згенеровані ШІ.
Хоча деякі інструменти демонстрували досконалі результати, покладатися виключно на них не варто. Наприклад, тексти, написані людьми, для яких англійська не є рідною, часто визначаються як такі, що створені ШІ.
Навіть ті фрагменти, які було написано вручну й раніше визначено як людські, у цьому циклі деякі інструменти класифікували як створені ШІ (наприклад, GPTZero заявив про невизначеність, а Copyleaks — що текст належить ШІ).
Загалом, результати демонструють велику варіативність — і вказують на необхідність обережності у використанні цих інструментів.
Як показав себе кожен інструмент
BrandWell AI Content Detection (Точність: 40%)
Раніше належав платформі Content at Scale, згодом став частиною BrandWell.ai — компанії з фокусом на AI-маркетинг.
На жаль, інструмент показав низьку точність: зокрема, не зміг класифікувати ШІ-текст у другому тесті.
Copyleaks (Точність: 80%)
Попри заяву про "99% точності", понад половина інших інструментів показали кращі результати. Copyleaks орієнтований на освітні установи та видавництва.
В одному з випадків неправильно визначив людський текст як згенерований ШІ.
GPT-2 Output Detector (Точність: 60%)
Створений із використанням бібліотек Hugging Face. Ймовірно, є аматорським продуктом на базі моделі GPT-2.
Точність — посередня.
GPTZero (Точність: 80%)
Починався як скромний проєкт, зараз — повноцінна компанія з командою. Має на меті "захистити людське".
Втім, цього разу неправильно класифікував один із текстів.
Grammarly (Точність: 40%)
Відомий граматичний сервіс також має функцію визначення AI-контенту. Проте результати були слабкими.
Хоча інструмент виявив, що текст раніше публікувався, щодо ШІ-перевірки — похибки.
Monica (Точність: 100%)
Новий сервіс з широким функціоналом та підтримкою кількох мовних моделей.
Ймовірно, використовує результати інших інструментів (ZeroGPT, GPTZero, Copyleaks), але при цьому показав ідеальний результат.
Originality.ai (Точність: 100%)
Комерційний сервіс для перевірки плагіату та ШІ-контенту. Пропонує систему кредитів.
Усі тести пройдено успішно.
QuillBot (Точність: 100%)
Попередні тести виявляли нестабільність. У новому циклі — стабільні та точні результати.
Отримав високу оцінку, але потребує подальших перевірок.
Undetectable.ai (Точність: 100%)
Компанія відома інструментом, що "олюднює" текст ШІ. Але й детектор контенту також демонструє високу точність.
Модель базується на комбінованому аналізі різних підходів. Попри дивну згадку про OpenAI (чий детектор припинив роботу ще в 2023), точність — ідеальна.
Writer.com AI Content Detector (Точність: 40%)
Інструмент для корпоративних команд. На жаль, визначив усі тексти як людські, навіть ті, що були згенеровані ШІ.
Оцінка — низька.
ZeroGPT (Точність: 100%)
Інструмент значно вдосконалився. Раніше виглядав сумнівно через рекламу і відсутність верифікації.
Зараз — повноцінний SaaS-сервіс із високою точністю.
Авторка: Дар’я Бровченко
Немає коментарів:
Дописати коментар
Примітка: лише член цього блогу може опублікувати коментар.