Oaxaca Mx.

Oaxaca Mx.
Tierra donde nací.
Powered By Blogger

viernes, 11 de noviembre de 2016

ROBOT DE BUSQUEDA/EQUIPO 5


ROBOT DE BÚSQUEDA



Un robot es un programa que recorre una estructura de hipertexto recuperando un enlace y todos los enlaces que están referenciados para, a partir de ahí, alimentar las grandes bases de datos de los motores de búsqueda de la Web. Por el contrario, los Índices y Directorios suelen formarse de forma manual operados por humanos (o de forma automática, pero una vez que los humanos han introducido los datos en el índice por categorías y subcategorías) y no recuperan automáticamente los enlaces incluidos en las páginas web, sino que sólo se limitan a hallar lo que las personas previamente incluyen en ellos, pudiendo como ventaja, clasificar fácilmente por secciones los temas de las páginas web.

TIPOS


·        Arañas (Spiders)
Es un programa usado para rastrear la red. Lee la estructura de hipertexto y accede a todos los enlaces referidos en el sitio web. Se utiliza como sinónimo de robot y crawler
·        Gusanos (Worms)
Es lo mismo que un robot, aunque técnicamente un gusano es una réplica de un programa, a diferencia de un robot que es un programa original. Se usan, por ejemplo, para duplicar los directorios de FTP para que puedan acceder más usuarios.
·        Orugas (Web crawlers)
Es un tipo específico de robot que ha dado lugar al nombre de algunos buscadores como Webcrawler y MetaCrawler.
·        Hormigas (WebAnts)
Se trata de un cooperativa de robots. Trabajan de forma distribuida, explorando simultáneamente diferentes porciones de la Web. Son robots que cooperan en un mismo objetivo, por ejemplo, para llevar a cabo una indización distribuida
·        Vagabundos (Wanderes)
Son una clase de robots que realizan estadísticas sobre la Web, como por ejemplo, número de servidores, servidores conectados, número de webs, etc.
·        Robots del Conocimiento (Knowbots)

Localizan referencias hipertextuales dirigidas hacia un documento o servidor concreto. Permiten evaluar el impacto de las distintas aportaciones que engrosan las distintas áreas de conocimiento de la Web.

LOS ROBOTS PUEDEN SER USADOS PARA VARIOS PROPÓSITOS:

Indexar
Validar HTML
Validar Links
Monitorear "qué hay de nuevo"
Generar imágenes


EJEMPLOS


•   Gigabot (robot de Gigablast )

•   Googlebot (robot de Google )

•   Mozilla Compatible Agent (robot de Yahoo )

•   Msnbot (robot de MSN )

CÓMO DECIDE UN ROBOT QUÉ VISITAR

Esto depende del robot. Cada uno usa diferentes estrategias. En general comienzan a trabajar desde una lista histórica de URL's. Especialmente con documentos con muchos links, tales como una lista de servidores "what's New"(qué hay de nuevo") y desde los sitios más populares en la Web.
Muchos indexan servicios que le permiten dar de alta un sitio manualmente, los cuales harán cola para ser indexados por el robot.
Son usados a veces otros recursos también como listas de correo, grupos de discusión, etc.
Esto les da un punto de partida para comenzar a seleccionar url's que ha de visitar, analizarlas y usarlas como recurso para incluirlas dentro de su base de datos.

CÓMO DECIDE UN ROBOT QUÉ INDEXAR


Depende del robot, pero generalmente usa los títulos de HTML (Titles) o los primeros párrafos, o selecciona la HTML completa e indexa las palabras contenidas, excluyendo las de uso común (pronombres, adverbios y palabras como "web", "página", etc)dependiendo de las construcciones de HTML, etc. Algunos seleccionan las metaetiquetas, u otros tipos especiales de tags ocultas. Una práctica muy común es indexar también los textos alternativos de los gráficos. Le recomendamos les preste especial atención, pues en caso de indexarse, son palabras que contarán con un gran peso sobre la relevancia final en el documento.

Cómo saber si se es visitado por un robot:

En el caso de ser visitado por un robot, las estadísticas de las páginas muestran un mismo IP que accede en unos pocos segundos a todas las páginas de su web, cosa que no puede hacerse manualmente de una forma natural. En ocasiones, por el propio nombre de Host correspondiente a su IP son reconocibles.

CÓMO PUEDE EVITAR QUE UN ROBOT ESCANEE SU SITIO


El camino más rápido para evitar esto es crear un archivo robot.txt con las siguientes dos líneas y ponerlo en su servidor.
User-agent: *
Disallow: /

Si no tiene acceso completo a su servidor, simplemente puede incluir las siguientes líneas (tags o etiquetas) en su página web para que no sea indexada:
<META name="ROBOTS" content="NOINDEX">
Y si desea que los links no sean indexados por el robot incluya:
<META name="ROBOTS" content="NOFOLLOW">