субота, 19 квітня 2025 р.

Вікіпедія надає свої дані розробникам ШІ, щоб протистояти бот-скрейперам


Вікіпедія намагається відмовити розробників штучного інтелекту від збору даних з платформи, випустивши набір даних, спеціально оптимізований для навчання моделей ШІ. Вікіфонд оголосив у середу, що він уклав партнерство з Kaggle — платформою для аналізу даних, що належить Google, і яка хостить дані для машинного навчання — для публікації бета-версії набору даних “структурованого контенту Вікіпедії англійською та французькою мовами”.

Вікіфонд зазначає, що набір даних, який хостить Kaggle, був “спроектований з урахуванням робочих процесів машинного навчання”, що спрощує доступ розробників ШІ до машинозчитуваних даних статей для моделювання, налаштування, оцінки, коригування та аналізу. Вміст цього набору даних ліцензований відкрито, і станом на 15 квітня включає резюме досліджень, короткі описи, посилання на зображення, дані інфобоксів та розділи статей — без посилань і не текстових елементів, таких як аудіофайли.

“Добре структуровані JSON-представлення контенту Вікіпедії”, доступні користувачам Kaggle, повинні стати більш привабливою альтернативою “збиранню або аналізу сирого тексту статей”, згідно з Вікіфондом — проблемі, яка наразі створює навантаження на сервери Вікіпедії, оскільки автоматизовані ШІ-боти невпинно використовують пропускну здатність платформи. Вікіфонд вже має угоди про обмін контентом з Google та Інтернет-архівом, але партнерство з Kaggle має зробити ці дані доступнішими для менших компаній та незалежних науковців у галузі даних.

"Оскільки Kaggle є місцем, де спільнота машинного навчання отримує інструменти та тести, ми надзвичайно раді бути господарем даних Вікіфонд", — сказала Бренда Флінн, керівник партнерств Kaggle. "Kaggle з нетерпінням чекає на роль у забезпеченні доступності, наявності та корисності цих даних."

Авторка: Дар’я Бровченко


Джерело

Немає коментарів:

Дописати коментар

Примітка: лише член цього блогу може опублікувати коментар.