Un robot es un programa que
recorre una estructura de hipertexto recuperando un enlace y todos los enlaces
que están referenciados para, a partir de ahí, alimentar las grandes bases de
datos de los motores de búsqueda de la Web. Por el contrario, los Índices y
Directorios suelen formarse de forma manual operados por humanos (o de forma
automática, pero una vez que los humanos han introducido los datos en el índice
por categorías y subcategorías) y no recuperan automáticamente los enlaces
incluidos en las páginas web, sino que sólo se limitan a hallar lo que las
personas previamente incluyen en ellos, pudiendo como ventaja, clasificar
fácilmente por secciones los temas de las páginas web.
·
Arañas (Spiders)
Es un programa usado para
rastrear la red. Lee la estructura de hipertexto y accede a todos los enlaces
referidos en el sitio web. Se utiliza como sinónimo de robot y crawler
·
Gusanos (Worms)
Es lo mismo que un robot,
aunque técnicamente un gusano es una réplica de un programa, a diferencia de un
robot que es un programa original. Se usan, por ejemplo, para duplicar los
directorios de FTP para que puedan acceder más usuarios.
·
Orugas (Web crawlers)
Es un tipo específico de
robot que ha dado lugar al nombre de algunos buscadores como Webcrawler y MetaCrawler.
·
Hormigas (WebAnts)
Se trata de un cooperativa
de robots. Trabajan de forma distribuida, explorando simultáneamente diferentes
porciones de la Web. Son robots que cooperan en un mismo objetivo, por ejemplo,
para llevar a cabo una indización distribuida
·
Vagabundos (Wanderes)
Son una clase de robots que
realizan estadísticas sobre la Web, como por ejemplo, número de servidores,
servidores conectados, número de webs, etc.
·
Robots del Conocimiento (Knowbots)
Localizan referencias
hipertextuales dirigidas hacia un documento o servidor concreto. Permiten
evaluar el impacto de las distintas aportaciones que engrosan las distintas
áreas de conocimiento de la Web.
LOS
ROBOTS PUEDEN SER USADOS PARA VARIOS PROPÓSITOS:
Indexar
Validar HTML
Validar Links
Monitorear "qué hay de
nuevo"
Generar imágenes
• Gigabot
(robot de Gigablast )
• Googlebot
(robot de Google )
• Mozilla Compatible Agent (robot de Yahoo )
• Msnbot (robot de MSN )
CÓMO
DECIDE UN ROBOT QUÉ VISITAR
Esto depende del robot. Cada
uno usa diferentes estrategias. En general comienzan a trabajar desde una lista
histórica de URL's. Especialmente con documentos con muchos links, tales como
una lista de servidores "what's New"(qué hay de nuevo") y desde
los sitios más populares en la Web.
Muchos indexan servicios que
le permiten dar de alta un sitio manualmente, los cuales harán cola para ser
indexados por el robot.
Son usados a veces otros
recursos también como listas de correo, grupos de discusión, etc.
Esto les da un punto de
partida para comenzar a seleccionar url's que ha de visitar, analizarlas y
usarlas como recurso para incluirlas dentro de su base de datos.
CÓMO
DECIDE UN ROBOT QUÉ INDEXAR
Depende del robot, pero
generalmente usa los títulos de HTML (Titles) o los primeros párrafos, o
selecciona la HTML completa e indexa las palabras contenidas, excluyendo las de
uso común (pronombres, adverbios y palabras como "web",
"página", etc)dependiendo de las construcciones de HTML, etc. Algunos
seleccionan las metaetiquetas, u otros tipos especiales de tags ocultas. Una
práctica muy común es indexar también los textos alternativos de los gráficos.
Le recomendamos les preste especial atención, pues en caso de indexarse, son
palabras que contarán con un gran peso sobre la relevancia final en el
documento.
Cómo saber si se es visitado
por un robot:
En el caso de ser visitado
por un robot, las estadísticas de las páginas muestran un mismo IP que accede
en unos pocos segundos a todas las páginas de su web, cosa que no puede hacerse
manualmente de una forma natural. En ocasiones, por el propio nombre de Host
correspondiente a su IP son reconocibles.
CÓMO
PUEDE EVITAR QUE UN ROBOT ESCANEE SU SITIO
El camino más rápido para evitar esto es crear un archivo robot.txt con las siguientes dos líneas y ponerlo en su servidor.
User-agent: *
Disallow: /
Si no tiene acceso completo
a su servidor, simplemente puede incluir las siguientes líneas (tags o
etiquetas) en su página web para que no sea indexada:
<META name="ROBOTS"
content="NOINDEX">
Y si desea que los links no
sean indexados por el robot incluya:
<META name="ROBOTS"
content="NOFOLLOW">