Google Search realiza varios pasos antes de mostrar una página en sus resultados, y uno crucial es el crawling o rastreo. Este proceso lo lleva a cabo Googlebot, un programa que recupera URLs y maneja errores de red y redireccionamientos. A lo largo de este mes, exploraremos detalles poco conocidos sobre cómo se rastrean los sitios web.
¿Qué es el rastreo?
El rastreo implica descubrir nuevas páginas y revisar las actualizadas para descargarlas. Googlebot solicita una URL al servidor, maneja la respuesta y redireccionamientos, y pasa el contenido a Google para su indexación.
Las páginas modernas no solo contienen HTML; también incluyen JavaScript, CSS e imágenes. ¿Cómo afecta esto al “presupuesto de rastreo”? ¿Son estos recursos almacenables en caché? Exploraremos estas preguntas.
Rastreo de recursos por Googlebot
Además del HTML, los sitios modernos usan tecnologías como JavaScript y CSS. Googlebot sigue un proceso similar al de un navegador:
- Descarga el HTML inicial.
- Pasa los datos al Servicio de Renderizado Web (WRS).
- WRS descarga los recursos referenciados.
- WRS construye la página con todos los recursos descargados.
Este proceso puede ser más lento que en un navegador debido a restricciones como la carga del servidor. Aquí es donde entra el presupuesto de rastreo.
Rastrear recursos consume parte del presupuesto del host que los aloja. WRS intenta almacenar en caché estos recursos hasta por 30 días para preservar el presupuesto. Se recomienda:
- Minimizar los recursos necesarios para una buena experiencia del usuario.
- Usar parámetros rompe-caché con cuidado.
- Alojar recursos en un host diferente para gestionar mejor el presupuesto.
Rastreo por parte de Googlebot
Para analizar qué rastrea Google, revisa los registros de acceso del sitio o el informe de Estadísticas sobre Rastreo en Search Console. Estos recursos te ayudarán a entender cómo Googlebot interactúa con tu sitio.
Finalmente, si te interesa profundizar en el tema del crawling y rendering, puedes comentar este post o enviar tus dudas a info@malagasem.es y te responderemos inmediatamente.