Qué son y para qué sirven los Robots de la Web

August 18, 2013

Los Robots de la Web, también conocidos como Wanderers, Crawlers, o Spiders, son pequeños programas que motores de búsqueda como Google frecuentemente utilizan para la indexación y categorización de contenidos.

Estos robots recorren la web automáticamente indexando todos los contenidos que encuentran, para poder ser utilizados por los algoritmos de búsqueda de Google cuando realizamos alguna consulta en el buscador.

Son robots que circulan por Internet, aparte de brindar a las compañías un servicio que es indispensable para una búsqueda y navegación satisfactoria por parte del usuario, también son utilizados, en forma ilegal y en grandes cantidades por los denominados “Spammers”, quienes los programan para hallar direcciones de correo electrónico y otros tipo de datos que luego serán utilizados para el envío de spam y demás ilícitos.

Para todos aquellos usuarios que dispongan de un sitio y quieran establecer una política de seguridad en el mismo, que le garantice ser vistos por los robots de los buscadores y a su vez impedir que ciertas páginas no se puedan indexar, además de controlar el flagelo que significa el spam, a lo largo de este informe intentaremos brindar una serie de consejos y herramientas útiles que nos permitirán tener el control de los robots que acceden a nuestra página para su indexación.

El uso de archivos robots.txt

Uno de los métodos más utilizados por los Webmaster para restringir el acceso de ciertos robots a determinados contenidos de su sitio, es lacreación de los denominados archivos “robots.txt”.

Este archivo es utilizado para ofrecer instrucciones acerca de lo que se puede indexar y lo que no. Este método se llama “Protocolo de Exclusión de Robots” o “Robots Exclusion Standard” de su nombre en inglés.

Se trata de una técnica que se utiliza en los servicios de indexación de los buscadores para evitar que se añada información que no es relevante de los sitios webs investigados.

Como mencionamos, la incorporación de un archivo robots.txt en nuestro sitio web servirá al propósito de especificar que determinados robots no indexen directorios especificados, según lo declarado en el contenido del archivo robots.txt.

El funcionamiento de estos robots es simple, antes de acceder a una web, los mismos corroboran la existencia de un archivo robots.txt, el cual contendrá las instrucciones acerca de qué páginas deben indexar y cuales no.

No obstante, si bien es una práctica normal que todos los robots acreditados para este efecto respeten estas instrucciones, es posible que ciertos robots de indexación lo hagan en una forma diferente.

La inclusión de esta medida de seguridad no es obligatoria, y en algunos casos los webmaster de los sitios suelen utilizarlo para tareas de mejor posicionamiento cuando la página es indexada por el robot de un buscador en particular.

Como mencionamos, la inclusión del archivo robots.txt en nuestros sitios podría llegar a ser una buena medida de seguridad, sin embargo los Spammers y otro tipo de delincuentes informáticos pueden ignorarlo, y por lo tanto es esencial la protección de directorios y subdirectorios con contenidos privados con passwords.

También es importante destacar que los archivos robots.txt son sólo necesarios si en nuestra web poseemos contenidos que no queremos que sean indexados.

Fuente