Cloudflare 10 березня запустила нову точку доступу /crawl для своєї служби Browser Rendering (відображення у браузері), яка наразі перебуває у відкритому бета-тесті. Ця нова функція дозволяє розробникам за допомогою одного API-запиту сканувати весь сайт і автоматично перетворювати його в HTML, Markdown або структурований JSON-формат, що є потужним і відповідальним інструментом для створення наборів даних для тренування ШІ та каналів RAG (запитувально-генеративне посилення).
(Передісторія: масштабна аварія Cloudflare спричинила масштабний збій у глобальній мережі — чи є «децентралізована архітектура» майбутнім інфраструктури?)
(Додатковий контекст: 24 години після збою Cloudflare: чому мережа «зависає» одразу? Ризики централізації для Web3 і RWA майбутнього)
Зміст статті
Перемикач
Зі стрімким зростанням генеративного ШІ та технологій RAG (запитувально-генеративне посилення) ефективне і відповідальне отримання даних з сайтів стає головним викликом для розробників. У відповідь гігант інтернет-інфраструктури Cloudflare 10 березня офіційно оголосила про запуск революційної нової функції для своєї служби Browser Rendering — нової точки API /crawl.
Ця функція, яка наразі перебуває у відкритому бета-тесті, орієнтована на те, щоб дозволити розробникам «одним API-запитом сканувати весь сайт».
Згідно з повідомленням Cloudflare, новий API для краулінгу працює у асинхронному режимі. Розробники лише подають початкову URL-адресу, і система повертає ідентифікатор завдання (Job ID), після чого у фоновому режимі за допомогою безголового браузера автоматично знаходить і рендерить сторінки. Розробники можуть у будь-який час перевіряти статус і результати за цим ID.
Щоб ідеально інтегруватися з сучасними процесами розробки ШІ, цей API підтримує кілька форматів виводу. Окрім традиційного HTML, він може безпосередньо видавати Markdown, який особливо подобається великим мовним моделям (LLM), а також структурований JSON, який керується AI-сервісами Workers. Це значно зменшує час, витрачений на очищення даних і перетворення форматів.
На відміну від багатьох шкідливих краулерів, що намагаються обійти захист, новий /crawl API Cloudflare підкреслює «відповідальність і прозорість». Офіційно заявлено, що цей агент — підписаний проксі-агент (Signed-agent), який за замовчуванням суворо дотримується robots.txt цілей (включаючи обмеження швидкості сканування) і поважає власні правила Cloudflare «AI Crawl Control» (контроль краулінгу ШІ).
Крім того, Cloudflare чітко заявляє, що цей інструмент «самостійно заявляє про свою роботизовану природу» і не може обійти системи виявлення роботів або CAPTCHA. Такий дизайн гарантує, що поведінка краулінгу не порушує волю власників сайтів і не навантажує їхні сервери.
Щоб підвищити ефективність і знизити витрати, цей API має кілька розширених функцій контролю:
Наразі ця потужна функція краулінгу повністю доступна користувачам Cloudflare Workers у безкоштовній і платній версіях. Це безперечно стане цінним інфраструктурним оновленням для команд, які регулярно моніторять сайти, збирають дослідницькі дані або створюють корпоративні AI-бази знань.