пʼятниця, 2 травня 2025 р.

Тестування 10 інструментів для виявлення контенту, створеного ШІ: ці 5 показали найкращі результат

Що саме тестувалося і як це відбувалося

Ще у січні 2023 року вперше було поставлено питання: чи можливо протидіяти плагіату, згенерованому штучним інтелектом, і як саме це працює? Тоді, лише через кілька місяців після стрімкого злету популярності генеративного ШІ, результати тестування були доволі скромними — найкращий з доступних на той час трьох детекторів виявляв ШІ-контент лише у 66% випадків.

У лютому 2025 року обсяг тестування було розширено до 10 інструментів. Три з них тоді впоралися безпомилково. За останній місяць таких інструментів стало п’ять.

Варто також згадати: плагіат — це "викрадення і видавання (ідей чи слів іншої особи) за власні; використання чужих матеріалів без посилання на джерело", згідно з Merriam-Webster. У випадку зі штучним інтелектом, користувач не краде контент у буквальному сенсі, але якщо не вказує, що використано ШІ, і приписує собі авторство — це формально підпадає під визначення плагіату.

Для оцінки інструментів було створено 5 текстових блоків: два з них написані людиною, три — згенеровані ChatGPT. Кожен блок окремо перевірявся кожним інструментом. Якщо результат був правильним, тест вважався успішним, якщо помилковим — проваленим.

Якщо інструмент вказував відсоткову ймовірність, результат понад 70% вважався переконливим для визначення, чи є текст людським, чи створеним ШІ. Це і стало підсумковим результатом.

Загальні результати

У межах серії тестів було проведено 50 перевірок (по 5 тестів для кожного з 10 інструментів). Серед перевірених сервісів: BrandWell, Copyleaks, GPT-2 Output Detector, GPTZero, Grammarly, Monica, Originality.ai, QuillBot, Undetectable.ai, Writer.com і ZeroGPT.

У новому циклі до списку було додано Copyleaks та Monica. Натомість Writefull вилучено, оскільки він припинив підтримку інструмента визначення GPT-контенту. Також був запит від Content Guardian щодо включення, але на момент тестування не вдалося отримати доступу до акаунту.

П’ять інструментів із десяти змогли правильно визначити всі 5 текстів — і людські, і згенеровані ШІ.

Хоча деякі інструменти демонстрували досконалі результати, покладатися виключно на них не варто. Наприклад, тексти, написані людьми, для яких англійська не є рідною, часто визначаються як такі, що створені ШІ.

Навіть ті фрагменти, які було написано вручну й раніше визначено як людські, у цьому циклі деякі інструменти класифікували як створені ШІ (наприклад, GPTZero заявив про невизначеність, а Copyleaks — що текст належить ШІ).

Загалом, результати демонструють велику варіативність — і вказують на необхідність обережності у використанні цих інструментів.

Як показав себе кожен інструмент

BrandWell AI Content Detection (Точність: 40%)

Раніше належав платформі Content at Scale, згодом став частиною BrandWell.ai — компанії з фокусом на AI-маркетинг.
На жаль, інструмент показав низьку точність: зокрема, не зміг класифікувати ШІ-текст у другому тесті.

Copyleaks (Точність: 80%)

Попри заяву про "99% точності", понад половина інших інструментів показали кращі результати. Copyleaks орієнтований на освітні установи та видавництва.
В одному з випадків неправильно визначив людський текст як згенерований ШІ.

GPT-2 Output Detector (Точність: 60%)

Створений із використанням бібліотек Hugging Face. Ймовірно, є аматорським продуктом на базі моделі GPT-2.
Точність — посередня.

GPTZero (Точність: 80%)

Починався як скромний проєкт, зараз — повноцінна компанія з командою. Має на меті "захистити людське".
Втім, цього разу неправильно класифікував один із текстів.

Grammarly (Точність: 40%)

Відомий граматичний сервіс також має функцію визначення AI-контенту. Проте результати були слабкими.
Хоча інструмент виявив, що текст раніше публікувався, щодо ШІ-перевірки — похибки.

Monica (Точність: 100%)

Новий сервіс з широким функціоналом та підтримкою кількох мовних моделей.
Ймовірно, використовує результати інших інструментів (ZeroGPT, GPTZero, Copyleaks), але при цьому показав ідеальний результат.

Originality.ai (Точність: 100%)

Комерційний сервіс для перевірки плагіату та ШІ-контенту. Пропонує систему кредитів.
Усі тести пройдено успішно.

QuillBot (Точність: 100%)

Попередні тести виявляли нестабільність. У новому циклі — стабільні та точні результати.
Отримав високу оцінку, але потребує подальших перевірок.

Undetectable.ai (Точність: 100%)

Компанія відома інструментом, що "олюднює" текст ШІ. Але й детектор контенту також демонструє високу точність.
Модель базується на комбінованому аналізі різних підходів. Попри дивну згадку про OpenAI (чий детектор припинив роботу ще в 2023), точність — ідеальна.

Writer.com AI Content Detector (Точність: 40%)

Інструмент для корпоративних команд. На жаль, визначив усі тексти як людські, навіть ті, що були згенеровані ШІ.
Оцінка — низька.

ZeroGPT (Точність: 100%)

Інструмент значно вдосконалився. Раніше виглядав сумнівно через рекламу і відсутність верифікації.
Зараз — повноцінний SaaS-сервіс із високою точністю.

Авторка: Дар’я Бровченко


Джерело

Немає коментарів:

Дописати коментар

Примітка: лише член цього блогу може опублікувати коментар.