Google utiliza una gran cantidad de equipos informáticos para rastrear miles de millones de páginas que se encuentran distribuidas en la Web. Se basa en un proceso de rastreo algorítmico, en donde programas informáticos determinan los sitios que tienen que ser rastreados, como también la frecuencia y el número de páginas a buscar en cada sitio. El proceso comienza con una lista de páginas web generada anteriormente, la cual se amplía en base a los datos suministrados por los sitemaps que incorporan los Webmasters. Googlebot va detectando los enlaces en cada visita que realiza en esos sitios web, añadiéndolos a la lista de páginas que va a rastrear. El sistema detecta los sitios nuevos, los cambios realizados en los existentes y los enlaces que se encuentran obsoletos, para luego actualizar el índice de Google.
De qué manera accede Googlebot al sitio
Googlebot se distribuirse en varios equipos, además algunas de las arañas se ejecutan desde equipos que se encuentran ubicados cerca de los sitios que indexan. Puede ser que los registros de las páginas muestren visitas de varios equipos como user-agent.
El objetivo es rastrear el mayor número de páginas de un sitio Web en cada visita que realiza sin llegar a colapsar el ancho de banda del servidor.
El sistema encuentra sitios a través de los enlaces de sus páginas. En caso de encontrar errores de rastreo, se pueden ver en las Herramientas para Webmasters que brinda Google. Allí se indican los problemas detectados al rastrear un sitio. Es recomendable consultar regularmente los errores de rastreo que puedan surgir para poder identificarlos y solucionarlos.
Como las direcciones IP que maneja el Googlebot suelen variar cada cierto tiempo, lo ideal es utilizar el robot "user-agent" (Googlebot). La araña de Google respetará las directrices que se encuentren en el archivo robots.txt, sin embargo es posible que algunos usuarios malintencionados no las respeten.
2 Comentarios
Marquez
oct 01 2013 17:50
Julio Arroyo
oct 01 2013 20:35