| Lofoso » Información » Lobot - el robot de Lofoso | ![]() |
Lobot es un programa que recorre automáticamente la web con el objetivo de recoger información para el motor de búsqueda Lofoso. Respeta estrictamente los protocolos HTTP y robots.txt, por lo que todo webmaster podrá configurar de que manera quiere que Lobot visite su web o incluso prohibir las visitas de Lobot.
Si estás leyendo esta página, es muy probable que seas un webmaster que ha visto el rastro de Lobot en los ficheros log del servidor web. La cadena que envía Lobot en la cabecera HTTP User-Agent es:
lobot/0.3 (http://www.lofoso.com/robot.html)
Esto permite reconocer a Lobot de entre otros robots y visitantes humanos.
Lobot reconoce y respeta el protocolo robots.txt, por lo que no accederá a los recursos que usted bloquee en este fichero. Lobot obedecerá las directivas que se encuentren bajo el User-agent genérico, denotado con un asterisco *, y las directivas que aparezcan bajo el User-agent lobot o lofoso, por ejemplo:
User-agent: * Disallow: /prohibido-todos/ User-agent: lobot Disallow: /prohibido-a-lobot/
Se prohíbe la entrada a cualquier URL que empiece por “/prohibido-todos/” a todos los robots. En cambio, se prohíbe sólo a Lobot entrar en las URLs que empiecen por “/prohibido-a-lobot/”.
Lobot reconoce y obedece la directiva Crawl-delay de robots.txt, que permite especificar los segundos que Lobot debe esperar entre dos peticiones consecutivas. Puedes especificar Crawl-delay bajo el User-agent genérico (*) o bajo el User-agent Lobot. Ejemplos:
User-agent: * Crawl-delay: 5
Indica a todos los robots, incluido Lobot, que deben dejar 5 segundos entre todas las peticiones realizadas. En cambio
User-agent: lobot Crawl-delay: 1
Indica a Lobot que deje 1 segundo entre peticiones.
Si no se especifica esta directiva, Lobot usará un valor por defecto mayor de 2 segundos.
Además del protocolo robots.txt, existen otras formas de bloquear el paso de Lobot a las páginas y a los enlaces. Dentro de la cabecera <head> de una página HTML, puede incluir las siguientes etiquetas <meta>:
<meta name="robots" content="noindex"> <meta name="robots" content="nofollow">
La primera, "noindex", indica que la página HTML que lo contenga no se debe indexar, como consecuencia, Lobot tampoco seguirá ninguno de sus enlaces, sencillamente descartará la página. La segunda, "nofollow", indica que la página HTML que lo contenga se indexará, pero no se seguirá ninguno de sus enlaces. Lobot también reconoce estas directivas aunque estén combinadas con otras, por ejemplo
<meta name="robots" content="noindex, nofollow, noarchive">
que para Lobot es semánticamente equivalente a "noindex". Además Lobot no distingue mayúsculas de minúsculas, por lo que "noindex" es equivalente a "NOINDEX" y a "NoIndex".
A nivel de enlace, puede usar el atributo rel="nofollow" en las etiquetas <a> que indica a Lobot que no debe seguir ese enlace. Efectivamente, el robot no seguirá el enlace así marcado y la URL de ese enlace no se indexará, excepto si es apuntada desde otro enlace sin rel="nofollow". A continuación mostramos un ejemplo de cómo usar esta marca en los enlaces:
<a href="http://www.lofoso.com/" rel="nofollow">buscador Lofoso</a>
Es importante no olvidar las comillas, ya que Lobot ignorará todos los atributos que no estén bien formados. En cambio, el orden de los atributos no es importante, el anterior ejemplo es equivalente al siguiente, y ambos son igualmente correctos:
<a rel="nofollow" href="http://www.lofoso.com/">buscador Lofoso</a>
Si detecta cualquier error o comportamiento no deseable de Lobot, por favor, escríbanos a robot@lofoso.com.