Como crear un archivo robots.txt

Escrito por Jose M Ramirez en . Publicado en Tutoríal

Como crear un archivo robots
Si deseas evitar que algunos de tus enlaces no se indexen debes crear un archivo robots.txt y aquí en este tutoríal detallado aprenderemos como hacerlo de forma muy fácil y rápido.

Archivos robots.txt

Son archivos de texto que podemos crear y alojar en nuestros servidores para así evitar que los crawler de los buscadores que exploran tu sitio indexen algún contenido. Mediante algunas reglas dentro del archivo puedes definir que deseas que se indexe y que no desees que aparezca en los buscadores sobre tu página.

¿Por qué querría evitar que se indexe algún contenido de mi sitio?

Las razones pueden ser muchas que van desde seguridad de tu sitio hasta razones de SEO, por eso enumeraremos las más comunes con una breve descripción:

Si deseas ocultar una carpeta a la vista del público:

Si tienes un sitio donde alojas algunos videos, lo más sensato es que quieras que todos vean los videos mediante las entradas desde donde los incrustas. Pero si por alguna razón no incluyes tu directorio donde alojas los videos a un robots.txt pudiera google indexar esta carpeta y todos los enlaces de sus videos, así mismo las personas accederían directamente al archivo y los descargaría a su PC y no a tu entrada o tu página. Los recursos de tu servidor estarán siendo mal utilizados y cada descarga no será una visita real, puesto que las personas podrán conseguir tu contenido sin saber siquiera como luce tu página. Para evitar eso restringes el directorio donde alojas los videos y los rastreadores no indexaran esa carpeta ni sus archivos.
Paginas con poco contenido de utilidad, enlaces de registro e inicio de sesión, paginas de autor, o enlaces permanentes a comentarios también es recomendable que no se indexen ya que no dan ningún valor agregado a tu pagina de cara a los buscadores.

Cuando eliminas contenido:

Al ser hoy en día la mayoría de las pagina dinámicas, resultar fácil creer que cualquiera tenga que editar o borrar algún contenido de su pagina web, bien sea para ser reemplazado por una versión mas actualizada o bien por que ya no es útil, así mismo el hecho de que lo borremos de nuestro sitio no implica que dejara de salir en los buscadores, lógicamente cuando la gente ingrese no encontrara la pagina. Para evitar que ese enlace siga apareciendo en los buscadores debes incluirlo dentro del robots.txt para asi hacer saber a los rastreadores que ese contenido no esta disponible. Lugo hacer la petición de borrado en google.

Enlaces duplicados por estructura de enlaces:

La estructura de los enlaces es el equivalente a la dirección por la cual se accesa al contenido, si por dos estructuras diferentes se accede al mismo contenido los buscadores pueden considerarlo como contenido duplicado y darle menor relevancia afectando tu indexación. Esto puede pasar si cambias el nombre de algún directorio, lo mueves a otro o simplemente utilizas una mod_rewrite para reescribir la forma como se ven tus enlaces para hacerlos amigables, los antiguos pudieran ya estar indexados y generar errores de contenido duplicado en los buscadores. Para evita esto debes aplicar redirecciones amigables a tus nuevos enlaces y restringir la indexación a los antiguos mediante un robots.txt.

¿Como crear un robots.txt?

Crear un robots.txt es muy sencillo y te ahorrara muchos dolores de cabeza en tu sitio. Con agregar unas simples reglas puedes conseguir mantener tu sitio limpio de enlaces rotos, duplicados o contenido irrelevante.

Lo primer que debemos hacer es crear un archivo con el blog de notas y nombrarlo ‘robots.txt’ debe tener la extensión (.txt) para que funcione. Luego empezamos a escribir las reglas que definirán las acciones que tomaran los exploradores al leerlo.

La primera regla se refiere a los rastreadores de los buscadores, allí diremos si queremos que aplicar esta regla para los rastreadores de algún buscador en especifico o para todos.

Para que las reglas apliquen a todos escribimos:

User-agent: *

(El asterisco significa que todos los exploradores acataran la orden que dictaremos en las siguientes líneas).

Para restringir la indexación del contenido para un explorador específico escribimos la misma línea seguido del nombre del explorador del buscador. En este caso colocare el de google.

User-agent: Googlebot

(el nombre del rastreador equivale a la restricción de acceso y se aplicara a cualquier nombre que coloques).

Seguidamente procedemos a colocar los archivos que deseamos eliminar del índice de los buscadores o que no queremos indexar, las líneas serán escritas unas debajo de la otra dejando un espacio entre ‘User-agent:’ siguiendo la siguiente sintaxis.

Para desactivar el rastreo colocamos:

Disallow:

(Esta línea desactivara el rastreo del contenido que se especifique después de ella).

Seguida de esta línea se debe agregar el contenido que se desea restringir, donde (/) será tu directorio raíz o la raíz de tu dominio, así que si deseas que todo tu sitio sea excluido de los índices de los buscadores la línea debería ser así:

Disallow: /

(La barra ‘/’ es equivalente a tu dominio tusitio.com).

Para aplicarlo a un directorio lo hacemos de esta manera:

Disallow: /directorio-a-eliminar/

(Donde el directorio a eliminar esta dentro de tu directorio raíz)

Para restringir el archivo de un directorio pero permitir el rastreo del todo el resto del contenido del directorio debemos especificar la ruta de la página con su extensión.

Disallow: /directorio-a-conservar/url-a-restringir.php

(Así se restringirá la url pero se conservara el directorio dentro del rastreo)

Para bloquear contenido por extensión podemos colocar las siguientes líneas.

Disallow: /*.jpg$

(con esta línea decimos a los rastreadores que no indexen las url con terminen con la extensión ‘.JPG’ y la misma se puede aplicar a cualquier extensión, bien sea gif, php, html, asp, swf… ‘etc’).

Para eliminar todas las url después de un directorio puedes hacerlo de esta forma.

Disallow: /*directorio-a-eliminar/

(de esta forma eliminaras tanto el directorio ‘/directorio-a-eliminar/’ como las url de tipo ‘/*directorio-a-aliminar/url-a-elimiar.html’ que vengas luego de ese directorio)

Si deseas eliminar todas las url que empiecen con algún termino puedes hacerlo de esta forma.

Disallow: /*eliminar-si-empieza-con-esta-palabra

Si deseas eliminar alguna que termine con algún termino se hace igual que la restricción por extensión, solo que agregamos la palabra con el signo de dólar.

Disallow: /*eliminar-que-termine-con-esta-palabra$

Tendríamos que para evitar el rastreo por parte de todos los buscadores de nuestro sitio completo nuestro robots.txt debería ser así:

User-agent *

Disallow: /

Para restringir el rastreo de un directorio las líneas son las siguientes:

User-agent *

Disallow: /directorio-a-restringir/

Para hacer lo mismo con un enlace lo hacemos de la siguiente forma:

User-agent *

Disallow: /directorio-a-conservar/url-a-restringir.php

Luego de crear todas las líneas debes guárdalo con el nombre ‘robots.txt’ y subir al directorio raíz de hosting que es (http://tusitio.com) y todas las restricciones de acceso deben estar declaradas desde ese mismo archivo sin importar que tengas muchos subdirectorios.

Puedes incluir cuantos directorios y enlaces desees y es muy recomendable que lo hagas, así tu decides que contenido es importante y debe ser indexado y que no vale la pena, haciéndole el trabajo mas fácil a tus amigos rastreadores para que revisen tu sitio mas rápido y efectivamente.

Etiquetas:

Trackback desde tu sitio.

Comentarios (2)

  • Tito

    |

    A mi me gustaría saber como limitar la indexación de los SWF pero no de su contenido. Por ejemplo si yo tengo una web en FLASH me parece lógico que el buscador indexe los contenidos del SWF (por ejemplo el texto) pero que en el resultado de búsqueda de google debería aparecer http://www.mipagina.com/index.html y no http://www.miagina.com/index.swf... Si yo pongo Disallow: (*).swf que voy a lograr? que no indexe index.swf o tampoco va a indexar su contenido? Espero respuesta de algún experto para ver como lo soluciono. Muchas gracias!!!

    Responder

    • JoseMRamirez

      |

      Si colocas:
      Disallow: (*).swf

      Bloquearas todo el contenido de tu sitio ya que el mismo esta construido en flash.

      Google a mejorado mucho la idexacion de contenido en flash, poniendo mas atencion en los textos. Este articulo te puede ayudar http://googlewebmaster-es.blogspot.com/2009/03/mejorando-la-indexacion-de-flash.html

      Tambien puedes hacer todos los enlaces de tu pagina se muestren como “.HTML” asi evitaras que se alguien acceda meidante “.SWF” aunque tu sitio este construido en Flash, eso lo puedes hacer mediante una simple linea de htaccess:

      Options +FollowSymLinks
      RewriteEngine On
      RewriteRule ^(.*).html$ $1.swf [L]

      Espero que esto te pueda ser utilidad.

      Saludos y gracias por comentar.

      Responder

Dejar un Comentario

Sígueme en twitter

Twitter

Suscríbete al Feed

RSS-Feed

Red de Blogs

Red de Blogs iBlogLabs