Про веб-краулерів і тренди
Веб-краулери не нові. Перший — World Wide Web Wanderer, з’явився 1993 року. Пошукові системи JumpStation і WebCrawler почали активно їх використовувати. Основна мета — індексувати сайти для пошуку.
У 2025 році роль краулерів ускладнилась через розвиток штучного інтелекту. Вони не лише збирають інформацію, а й тренують AI-моделі, породжуючи нові питання про права на контент і навантаження серверів.
Хороші і погані краулери
Краулери — частина ботів, що автоматично виконують завдання в Інтернеті. Є «хороші» (Googlebot, API-клієнти) і «погані» — що збирають дані без дозволу або крадуть контент.
За даними Cloudflare Radar, близько 30% світового трафіку — боти. Іноді це більше, ніж людський трафік.
AI-краулери
Нова категорія — AI-краулери — збирають дані для тренування великих мовних моделей. Серед них GPTBot (OpenAI), ClaudeBot (Anthropic), Meta-ExternalAgent (Meta) та інші.
Зміни 2024–2025
GPTBot виріс із 5% до 30%, став лідером. Meta-ExternalAgent набирає 19%. Bytespider (ByteDance) впав із 42% до 7%. ClaudeBot і Amazonbot втратили частку.
Зростання AI і пошуку — +18%
За перший квартал 2025 трафік AI і пошукових краулерів виріс на 18% (або 48% з новими клієнтами). Пік — квітень 2025.
Googlebot — лідер із +96% зростання
Googlebot майже подвоїв трафік. Пік — квітень 2025, активність на 145% вища, ніж у травні 2024.
Топ-8 краулерів травня 2025
Googlebot — 50% (+20 п.п., +96% трафіку)
Bingbot — 8.7% (-1.3 п.п., +2%)
GPTBot — 7.7% (+5.5 п.п., +305%)
ClaudeBot — 5.4% (-6.3 п.п., -46%)
GoogleOther — 4.3% (-0.1 п.п., +14%)
Amazonbot — 4.2% (-3.4 п.п., -35%)
Googlebot-Image — 3.3% (-1.2 п.п., -13%)
Bytespider — 2.9% (-19.8 п.п., -85%)
Контроль краулерів
Вебмайстри керують доступом через robots.txt, але дотримання правил — добровільне. Тому все більше сайтів застосовують веб-фаєрволи.
У червні 2025 близько 14% сайтів із топ-10 000 мали директиви щодо AI-ботів. GPTBot найчастіше блокували, але деякі дозволяли частковий доступ.
Висновки
ШІ змінює веб-краулінг — це не лише пошук, а й збір даних для AI. Google і OpenAI зміцнюють лідерство.
Власники сайтів стикаються з викликами: як захистити контент і залишатися видимими в пошуку та AI. Використання robots.txt разом із сучасними захисними технологіями — обов’язок для ефективного контролю.
Авторка: Дар’я Бровченко
Немає коментарів:
Дописати коментар
Примітка: лише член цього блогу може опублікувати коментар.