Cloudflare en marzo 10 lanzó un nuevo endpoint /crawl para su servicio de Renderizado en Navegador (actualmente en Beta Abierta). Esta función permite a los desarrolladores rastrear sitios web completos mediante una sola llamada API, y convertir automáticamente el contenido en HTML, Markdown o JSON estructurado, proporcionando una herramienta potente y compatible para construir conjuntos de datos de entrenamiento de IA y pipelines RAG (recuperación mejorada por generación).
(Resumen previo: La gran falla de Cloudflare causó una interrupción masiva en la red global, ¿es la arquitectura descentralizada el futuro de la infraestructura?)
(Información adicional: 24 horas después de la caída de Cloudflare: ¿Por qué la red colapsa tan fácilmente? Riesgos centralizados en el futuro de Web3 y RWA)
Índice del artículo
Alternar
Con el crecimiento explosivo de la IA generativa y la tecnología RAG, obtener datos de sitios web de manera eficiente y legal se ha convertido en un desafío principal para los desarrolladores. En respuesta, el gigante de infraestructura de red Cloudflare anunció oficialmente el 10 de marzo una función revolucionaria para su servicio de Renderizado en Navegador: un nuevo endpoint /crawl API.
Actualmente en fase de prueba pública (Beta Abierta), esta función permite a los desarrolladores “rastrear un sitio completo con una sola llamada API”.
Según el anuncio de Cloudflare, la nueva API de rastreo utiliza un modo de operación asíncrono. Los desarrolladores solo necesitan enviar una URL inicial, y el sistema devolverá un ID de tarea (Job ID), mientras en segundo plano un navegador sin cabeza (Headless Browser) descubre y renderiza automáticamente las páginas. Los desarrolladores pueden consultar el progreso y los resultados en cualquier momento usando ese ID.
Para integrarse perfectamente en los flujos de trabajo actuales de desarrollo de IA, la API ofrece múltiples formatos de salida. Además del HTML tradicional, puede exportar directamente en Markdown, muy apreciado por los modelos de lenguaje grande (LLM), y en JSON estructurado impulsado por Workers AI. Esto reduce significativamente el tiempo dedicado a limpiar datos y convertir formatos.
A diferencia de muchos rastreadores maliciosos que intentan evadir protecciones, el endpoint /crawl de Cloudflare se centra en “cumplimiento y transparencia”. La compañía enfatiza que este endpoint es un agente firmado (Signed-agent), que cumple estrictamente con las instrucciones robots.txt del sitio objetivo (incluyendo límites de retraso en rastreo), y respeta las normativas de “Control de Rastreo AI” de Cloudflare.
Además, Cloudflare aclara que esta herramienta “se identifica como robot” y no puede evadir los sistemas de detección de robots o CAPTCHA de Cloudflare. Este diseño garantiza que el comportamiento del rastreo no infrinja la voluntad del propietario del sitio ni cause carga indebida en los servidores.
Para mejorar la eficiencia y reducir costos, la API incluye varias funciones avanzadas:
Actualmente, esta potente función de rastreo está disponible para usuarios de Cloudflare Workers en sus versiones “gratuita” y “de pago”. Para equipos que necesitan monitorear contenido web periódicamente, recopilar datos para investigación o construir bases de conocimiento IA a nivel empresarial, representa una actualización fundamental muy atractiva.