Men煤 Cerrar

Guia para generar tu propio archivo 馃 robots.txt para indexar tu sitio en buscadores

webwww

Los Buscadores siempre quieren indexar toda la informaci贸n posible, as铆 que cuando llegan a tu sitio lo rastrean todo.

El problema surge cuando quieres evitar que ciertas p谩ginas se incluyan en sus 铆ndices,聽驴qu茅 haces entonces?

Tienes 2 opciones:

  1. Introducir una etiqueta especial en cada p谩gina
  2. Usar un archivo centralizado para controlar la entrada

Esta 煤ltima opci贸n es la de聽robots.txt

Qu茅 es el archivo robots.txt y para qu茅 sirve

Los robots o ara帽as聽son unos programas que utilizan los buscadores para rastrear la web. Cuando llegan a tu sitio, lo primero que hacen es buscar el archivo robots.txt, y dependiendo de lo que diga en 茅l, contin煤an en tu sitio o se van a otro.

Puedes entender el archivo robots.txt como una lista de robots no admitidos, la cual te permite restringir el acceso a tu sitio selectivamente. Si hay p谩ginas que prefieres mantener fuera del alcance de los buscadores, puedes configurarlo aqu铆, y si hay un buscador al que quieres denegar el acceso, tambi茅n.

M谩s concretamente, puedes utilizar el archivo robots.txt para lo siguiente:

  • Evitar que ciertas p谩ginas y directorios de tu sitio sean accesibles a los buscadores
  • Bloquear el acceso a archivos de c贸digo o utilidades
  • Impedir la indexaci贸n de contenido duplicado聽en tu sitio, como copias de prueba o versiones para imprimir
  • Indicar la localizaci贸n de los mapas del sitio en XML

Ahora bien, hay un par de cosas que debes tener en cuenta sobre robots.txt:

  • Algunos robots pueden ignorar las instrucciones contenidas en este archivo, especialmente robots maliciosos o malware
  • El archivo es p煤blico, lo que significa que cualquiera puede verlo con s贸lo teclear www.example.com/robots.txt

Por tanto, si piensas utilizar robots.txt para esconder informaci贸n privada, necesitas buscar otra alternativa.

C贸mo generar el archivo robots.txt

Lo primero que necesitas saber sobre el archivo robots.txt es que no es obligatorio. S贸lo necesitas crearlo cuando quieres impedir que ciertas p谩ginas o directorios de tu sitio aparezcan en los resultados de b煤squeda.

Generar el archivo es muy sencillo, basta con crear un documento de texto con el nombre 鈥渞obots.txt鈥 y subirlo a la ra铆z de tu dominio (http://www.example.com/robots.txt), que es el lugar donde los los buscadores esperan encontrarlo.

Lo m谩s f谩cil es crearlo a mano, mediante el聽bloc de notas聽o un editor de c贸digo como Notepad++, aunque聽si eres de los que prefieren聽herramientas de generaci贸n,聽la de SeoBook聽cumple con su cometido bastante bien. Otras alternativas son RobotsGenerator.com y McAnnering Robots.txt Generator.

Para subir el archivo usa un cliente FTP como FileZilla o Cyberduck.

Respecto聽al contenido, un archivo robots.txt b谩sico puede ser:

User-agent: *
Disallow: /privado/

Lo que hacen estas instrucciones es denegar el acceso al directorio 鈥減rivado鈥 a todos los buscadores. Para ello, primero se indica que la orden va dirigida a todos los robots 聽(User-agent: *) y por 煤ltimo se especifica el directorio desautorizado (Disallow: /privado/).

Comandos principales

Los comandos que utiliza el archivo robots.txt vienen del llamado Robots Exclusion Protocol, un convenio universal cuya sintaxis debes seguir:

  • S贸lo puedes utilizar los comandos permitidos (aunque algunos buscadores entienden comandos adicionales)
  • Debes respetar las may煤sculas/min煤sculas, la puntuaci贸n y los espacios
  • Cada grupo User-agent/Disallow debe estar separado por una l铆nea en blanco
  • Puedes incluir comentarios mediante la almohadilla o s铆mbolo de hash (#)

Los comandos m谩s importantes son:

  • User-agent 鈥 Indica qu茅 tipo de robot debe cumplir con las directivas que se indiquen a continuaci贸n.
  • Disallow 鈥 Deniega el acceso a un directorio o p谩gina concreta.
  • Allow 鈥 Funciona al contrario que la directiva Disallow, permitiendo el acceso a directorios y p谩ginas. Se puede utilizar para sobrescribir la directiva Disallow parcial o totalmente.
  • Sitemap 鈥 Indicar la ruta donde se encuentra un mapa del sitio en XML.
  • Crawl-delay 鈥 Indica al robot el n煤mero de segundos que debe esperar entre cada p谩gina. Puede ser 煤til en casos en los que se necesita reducir la carga del servidor.

Adicionalmente, puedes utilizar comodines para aumentar o reducir la concordancia:

  • Asterisco (*) 鈥 Vale por una secuencia cualquiera de caracteres. Por ejemplo, todos los directorios que empiezan por 鈥減rivado鈥 ser铆an 鈥/privado*/鈥
  • D贸lar ($) 鈥 Indica el final de una URL. Por ejemplo, para indicar cualquier archivo que acabe con la extensi贸n .php se utilizar铆a 鈥/*.php$鈥.

Restricciones m谩s comunes

Con los comandos y comodines se puede crear todo tipo de restricciones. Sin embargo, no es buena idea ser creativo con el archivo de robots, ya que puedes acabar bloqueando algo que no deseas.

En este sentido, es mejor ce帽irse a las restricciones m谩s comunes, como son:

  • Incluir todos los robotsUser-agent: *
  • Especificar el robot de GoogleUser-agent: Googlebot
  • Especificar el robot de BingUser-agent: Bingbot
  • Denegar todo el sitioDisallow: /
  • Denegar un directorioDisallow: /directorio/
  • Denegar directorios que comienzan por 鈥渁lgo鈥Disallow: /algo*/
  • Denegar una p谩ginaDisallow: /pagina-web.htm
  • Denegar directorios y p谩ginas que comienzan por 鈥渁lgo鈥Disallow: /algo
  • Denegar la extensi贸n .gifDisallow: /*.gif$
  • Permitir un subdirectorioAllow: /directorio/subdirectorio/
  • Se帽alar el mapa del sitioSitemap: http://www.example.com/sitemap.xml

Desbloquear recursos CSS y JS

Desde聽que Google actualizara sus directrices para Webmasters especificando que denegar el acceso a los archivos CSS y JavaScript con robots.txt puede da帽ar los rankings, es buena idea desbloquear cualquier directorio que pueda contenerlos.聽As铆聽el buscador tiene libertad para聽procesar las p谩ginas al completo y聽saber聽c贸mo聽las ver谩 el usuario.

Para averiguar聽c贸mo ve Google tus p谩ginas usa la herramienta Rastreo > Explorar como Google聽 junto con el bot贸n obtener y procesar en Search Console. Si no se parece a lo que ves en tu navegador o bien surgen聽errores o advertencias, elimina las l铆neas del archivo robots.txt que bloquean el acceso a las URL.

Otra alternativa聽m谩s segura es聽abrir el paso a聽los recursos CSS y JavaScript explicitamente. De este modo no importa si el directorio donde se encuentran est谩 bloqueado, Google podr谩 acceder a los recursos que necesite:

User-Agent: Googlebot
Allow: /*.css$
Allow: /*.js$

Validar el archivo

Cuando crees o modifiques tu archivo robots.txt, siempre comprueba que hace lo que esperas de 茅l. Ten en cuenta que un simple error puede bloquear el acceso a los buscadores y da帽ar聽tu visibilidad.

La comprobaci贸n es f谩cil de hacer con la herramienta聽Rastreo > Probador de robots.txt聽en聽la聽Consola de b煤squeda de Google. Asimismo, es buena idea usar la funci贸n obtener y procesar de Rastreo > Explorar como Google聽para asegurarse de que no hay recursos bloqueados.

驴Funciona la desindexaci贸n con robots.txt?

Una de las funciones m谩s recurridas del archivo robots es la desindexaci贸n. En teor铆a, si quieres sacar archivos y directorios de Google no tienes m谩s que a帽adir las correspondientes directivas聽Disallow, 驴no es cierto?

Pues bien, debes saber que aunque el bloqueo con Disallow impide el rastreo a los buscadores, no garantiza la desindexaci贸n. As铆 es c贸mo lo explica el analista de Google, John Mueller,聽en este v铆deo:

Cuando聽se bloquea una p谩gina indexada con robots.txt, lo que聽suele ocurrir es que borramos聽la informaci贸n de rastreos anteriores [鈥聽e聽indexamos la URL con ese resumen gen茅rico que dice que no sabemos de qu茅 trata la p谩gina [al estar bloqueada por robots.txt].

Sin embargo, a veces tambi茅n ocurre que eliminamos la p谩gina completamente. Si pensamos que la URL no tiene informaci贸n,聽enlaces entrantes,聽ni motivos para usarla en las clasificaciones, quiz谩聽la quitemos del 铆ndice.

As铆 que聽te贸ricamente聽puede desindexarse, pero no hay garant铆as.

Es decir, cuando bloqueas una p谩gina que ya est谩 indexada, Google la mantiene en su 铆ndice聽y s贸lo hay una remota posibilidad de que la elimine. Si quieres asegurarte de borrar la p谩gina del buscador debes hacer otra cosa, tal y como Mueller sigue聽explicando:

Si a帽ades una etiqueta [Meta Robots] NoIndex a la p谩gina y permites el rastreo聽[鈥聽la borraremos la pr贸xima vez que procesemos la URL.

Esto tiene mucho聽sentido. Si el buscador puede ver聽una se帽al explicita de que no quieres tener la p谩gina indexada, entonces la desindexar谩.

Por tanto, la pr贸xima vez que quiera borrar una p谩gina de Google, usa la etiqueta Meta Robots. S贸lo cuando la p谩gina a煤n no ha llegado al conocimiento del buscador es cuando est谩 indicado el Disallow de robots.txt.

Un ejemplo de robots.txt para WordPress

Advertencia: No hay un archivo robots.txt universal, seg煤n la configuraci贸n de tu sitio聽puede聽que necesites a帽adir, modificar o quitar restricciones.

Para ayudarte a comprender mejor el funcionamiento del archivo robots.txt me gustar铆a ense帽arte un ejemplo real. Se trata del mismo archivo que utilizo en este blog, de ah铆 que sea un ejemplo orientado a WordPress.

Recientemente he actualizado聽mi archivo robots.txt聽como sigue (sin los n煤meros de l铆nea):

  1. User-Agent: *
  2. Disallow: /ir/
  3. Sitemap: http://deteresa.com/sitemap.xml

Ahora me gustar铆a explicarte cada l铆nea:

  • L铆nea 1 鈥 Declaro que las instrucciones que vienen a continuaci贸n son para los robots de cualquier buscador.
  • L铆nea 2聽鈥 Bloqueo el directorio que utilizo para redirecciones (no tienes por qu茅 tenerlo).
  • L铆nea 3聽鈥撀 Indico la ruta donde se encuentra el mapa XML de mi sitio.

Sobre el bloqueo de /wp-admin/

Debes saber que no es necesario bloquear /wp-admin/ en el archivo robots.txt. WordPress ya bloquea las p谩ginas del directorio聽mediante la cabecera HTTP X-Robots-Tag.

Recursos

Si necesitas m谩s informaci贸n sobre el archivo robots.txt puedes encontrarla en las siguientes p谩ginas:

驴Ya sabes c贸mo vas a crear tu archivo robots.txt?


Te invitamos a visitar nuestros canales en y Suscribirte



Suscr铆bete por correo electr贸nico

Recibe notificaciones de Spek Regg

脷nete a otros 41 suscriptores


Publicado en Manuales de Ayuda

Te puede interesar...

Deja una respuesta

Tu direcci贸n de correo electr贸nico no ser谩 publicada.