Cuando no quieres que algunas de tus páginas aparezcan en los índices del buscador, el archivo robots.txt es una herramienta versátil.
Te permite indicar qué archivos y directorios quieres excluir del rastreo.
Además, tiene una comando muy útil para indicar dónde está alojado el sitemap del sitio.
Pero el archivo robots.txt tiene una pega importante, y es que no permite que el PageRank fluya entre páginas bloqueadas.
Por suerte, la etiqueta meta robots evita este problema.
Contenidos:
- Qué es la etiqueta meta robots
- Ventajas de meta robots frente a robots.txt
- Cómo usar la etiqueta meta robots
- Combinación alternativa a robots.txt
- ¿Significa esto que debes dejar de usar robots.txt?
- Qué es la etiqueta meta robots
Meta robots es una etiqueta en HTML que se utiliza para dar instrucciones a los buscadores.
Al igual que el archivo robots.txt, se puede utilizar para impedir el rastreo e indexación de una página web, sin embargo, hay una diferencia.
Mientras que el archivo robots.txt pide a los buscadores que no rastreen una página (y por tanto que no la indexen), la etiqueta meta robots les da permiso para rastrear una página, pero no almacenarla en su índice. Esto tiene una ventaja importante a nivel de SEO, pero para que lo entiendas te voy a poner un ejemplo:
Supongamos que tenemos 2 páginas, las cuales no queremos que aparezcan en el índice de Google. Una la bloqueamos mediante el archivo robots.txt y la otra con la etiqueta meta robots.
Esto es lo que pasará:
La página bloqueada con el archivo robots.txt no será rastreada y, en principio, tampoco será indexada. El contenido de la página será invisible el buscador, incluidos los enlaces, que no podrán ser seguidos.
La página bloqueada con meta robots no será indexada, pero sí rastreada por el buscador, siguiendo los enlaces hacia otras páginas y transmitiendo el valor de dichos enlaces.
Ventajas de meta robots frente a robots.txt
Teniendo en cuenta que los buscadores utilizan enlaces para descubrir las páginas de un sitio web, la etiqueta meta robots tiene una ventaja evidente, y es que permite evitar la indexación de ciertas páginas sin convertirse en un obstáculo para el buscador en su tarea de descubrir nuevas páginas en el sitio.
Esto aplica muy bien a páginas que por su naturaleza se prestan al contenido duplicado como:
Resultados de búsqueda interna
Archivos de categorías
Archivos de etiquetas
Archivos de autor
Archivos de fecha
Cómo usar la etiqueta meta robots
Para que la etiqueta meta robots sirva de algo debe aparecer en el código en HTML de tu página, y más concretamente, dentro de la sección delimitada por las etiquetas y .
El código de la etiqueta tiene el siguiente aspecto:
Donde VALORES puede incluir:
Index / NoIndex – Indica si tu página debe incluirse en los índices del buscador, o no
Follow / NoFollow – Indica si los enlaces de tu página deben ser rastreados y pasar valor de enlace, o no
Adicionalmente se pueden incluir otros valores como NoODP, NoYDIR y NoArchive, pero no te preocupes de éstos por el momento. Lo que nos importa ahora son las combinaciones que pueden hacerse con los 2 tipos de valores que te he comentado primero, y que están relacionadas con la indexación y el rastreo:
Index, Follow – Permite la indexación y el rastreo de la página por parte de los buscadores. Es la combinación por defecto y la que se supone cuando careces de esta etiqueta en tus páginas.
NoIndex, Follow – Evita la indexación pero permite el rastreo. Es la combinación ideal cuando deseas evitar que una página aparezca en el índice de los buscadores.
Index, NoFollow – Permite la indexación pero evita el rastreo. Es la combinación que debes utilizar cuando una página contiene enlaces que no necesariamente respaldas (este es el caso de páginas en las que el contenido está generado por el usuario).
NoIndex, NoFollow – Evita la indexación y el rastreo. La verdad, no hay muchas razones para usar esta combinación.
Combinación alternativa a robots.txt
Según lo que hemos visto, la que está formada por la pareja NoIndex y Follow. Es la combinación que evita la indexación de una página web en el índice del buscador a la vez que permite el rastreo y el flujo de enlaces.
Su código en HTML es:
Y para que funcione recuerda que debe aparecer dentro de la sección delimitada por y en el código de tu página.
Como probablemente utilices un CMS necesitarás algún plugin para configurarlo. En el caso de WordPress te serán de gran ayuda:
Yoast SEO
SEO Ultimate
Como alternativa a los plugins, el Framework Genesis te permite controlar los robots a nivel de página sin necesidad de instalar ningún plugin de SEO.
¿Significa esto que debes dejar de usar robots.txt?
De ninguna manera. El archivo robots.txt sigue siendo una herramienta poderosa para bloquear directorios completos y todo tipo de archivos alojados en tu servidor.
Además, robots.txt tiene una ventaja respecto a la etiqueta meta robots, y es que no necesita que el buscador acceda a la página para saber si puede o no rastrearla. Esto hace la lectura más rápida, lo que aumenta el número de páginas que pueden rastrearse en cada visita.
Personalmente, yo utilizo el archivo robots para bloquear todo aquello que no puedo con la etiqueta meta robots, y la etiqueta meta robots para todo lo demás.