Crear robots.txt

By mayo 4, 2015SEO
robots txt

Para un SEO de hoy en día es fundamental saber la utilidad del archivo robots.txt y lo más importante como crearlo adecuadamente.

En primer lugar es muy importante conocer las utilidades del archivo robots.txt:

 

  • Bloquear el acceso a los robots a cierta información que tienes en tu web que no quieres que los buscadores accedan (usuarios, contraseñas, contenido bloqueado por seguridad…)
  • Impedir el acceso a los buscadores porque se están generando urls que duplican el contenido de tu página por ejemplo; se generan estas 3 urls: www.dominio.com/ejemplo/?iframe245 ,  www.dominio.com/ejemplo/?iframe247 y www.dominio.com/ejemplo/  y tienen exactamente el mismo contenido, con lo que si el robot accede va a entrar a todas esas urls y las va a indexar con el mismo contenido, y como ya sabréis google penaliza tanto el contenido duplicado interno como el externo, por lo que hay que indexar urls únicas con contenido único. Básicamente estamos facilitando el trabajo al buscador, porque estamos dejando solo las urls únicas que queremos que indexe. Sino el robot escogerá la que prefiera y te mostrará según sus criterios.
  • Otra forma de evitar que google nos indexe estas urls que se han generado es poner canonical hacia la principal, pero de esto hablaré en próximas entradas. Muy importante es que siempre que bloqueeis cualquier url o elimineis una url del indice de google aseguraros que no tiene visitas (podéis mirarlo por google analytics en páginas destino de posicionamiento natural)
  • Al bloquear archivos es muy importante que no bloquees javascripts ni css… ya que sino googlebot no va a poder leer la página como realmente es.

¿Cómo creamos el robots.txt?

  • Abril bloc de notas de windows  blocnotas
  • Comando estándar para que el robot pueda acceder a todo tu sitio y no le bloquees nada:

User-agent: *

Disallow:

  • Ahora es cuando vamos a poner las excepciones:
  • Un comando que yo utilizo mucho es * y luego lo que quieras bloquear (que contenga esa palabra) , por ejemplo en el caso de arriba quiero bloquear todas las urls que se generen con iframe? Mi regla del robots sería

Disallow: *iframe?

  • Otra forma de hacerlo es bloquear todas las urls que se generen con una interrogación:

Disallow: *?

En este comando hay que tener cuidado ya que puedes bloquear estilos.

  • Una vez tengáis creado el archivo robots.txt lo debéis de guardar con el nombre robots.txt y en guardar como…: el formato en documentos de texto o .txt y subirlo a la carpeta raíz (/) por FTP.
  • Y para indicárselo a google lo podéis enviar por webmaster tools el nuevo robots, y para cerciorarte de que no has bloqueado ningún estilo, puedes ir dentro de webmaster tools de google a la parte de explorar como google y le das a obtener y procesar toda la web, una vez esté explorada google te indicará si la tienes completada parcialmente o completa, si te sale completa le das a enviar ok, si te sale parcial, pincha encima de la frase de completada parcialmente y mira porque google no te está leyendo bien la página (si tienes alguna secuencia de comandos, estilos, css, imágenes.. bloqueados te saldrá aquí en esta sección, en este caso si os encontráis que google no puede leer algo tenéis que permitir que acceda con el comando:

Allow:  /theme/ ejemplo.css

Os dejo la url donde google explica todos los comandos del robots: https://support.google.com/webmasters/answer/6062596?hl=es

Leave a Reply