Robots.txt para foros vBulletin

Escrito por Jose M Ramirez en . Publicado en Tutoríal

Robotstxt para foros Vbulletin

Todo sitio web necesita un Robots.txt para mejorar su indexación en los buscadores y proteger contenido que no deseamos mostrar en los resultados de búsqueda, pero cada página debe contener un Robots.txt diferente y personalizado según las necesidades. En esta ocasión voy a mostrar la forma correcta de crear un archivo Robots.txt para sistemas de foros usando el script vBulletin ya que es uno de los más usados en la red y la cantidad de productos, hacks y plugins que existen hacen un poco contraproducente usar el que viene por defecto con la instalación dado que la mayoría de los administradores personalizan sus foros según la comunidad que albergue este.

vBulletin es por mucho el script para foros más utilizado de la red, por ende cuenta con muchas empresas y desarrolladores independientes creando productos, hacks y plugins para ampliar o personalizar su uso. Esto es un gran ventaja para cualquier desarrollo web, ya que garantiza un crecimiento constante por la cantidad de creativos que con ideas frescas. El único pequeño inconveniente que vamos a resolver fácilmente es que al agregar un producto, por defecto se agregan url’s que pueden ser leídas por crawlers de los buscadores e indexar contenido sin importancia o algunas veces hasta peligroso para la seguridad de tu foro. Por esa razón procederemos a hacer un robots.txt personalizado para vBulletin algo genérico pero también mostrare la forma de personalizar uno para tu foro según tu instalación.

Para saber que es un robots.txt y como crear las reglas visita la Guía para Robots.txt

Cuando instalamos el script en nuestro servidor, el mismo viene un archivo con el nombre ‘robots.txt’ que se guarda en la raíz de tu directorio. Este archivo contiene las siguientes reglas:

User-agent: *
Disallow: /admincp/
Disallow: /modcp/
Disallow: /clientscript/
Disallow: /cpstyles/
Disallow: /customavatars/
Disallow: /customcode/
Disallow: /customprofilepics/
Disallow: /images/
Disallow: /includes/
Disallow: /signaturepics/

Este robots.txt no está mal, solo que necesita optimizarse un poco para mejorar la visibilidad del contenido de tu foro.

Aunque la versión 4.0 incluyen urls amigables por defecto, la mayoría no las usa por lo limitado del sistema nativo para SEO, así mismo recurren a otras opciones, la más popular de todas es vBseo, es un plugin muy completo que mejora las opciones para SEO en foros vBseo, este incluyen nuevas carpetas y convierte las urls en enlaces completamente amigables eliminando caracteres especiales como (%$?#=…) pero estas no dejan de existir, ya que el plugins funciona usando las opciones mod-rewrite para convertirlas en amigable, aun excluyéndolas de tu sitemaps seguirán apareciendo en muchas ocasiones como cuando algún usurio hace búsquedas (/foro/search.php?searchid=35788), cuando alguien responde a un tema, cuando alguien usa el permalink de los comentarios enviándolo bien sea por correo o compartiendo en redes sociales.

Por eso bloquearemos los enlaces que contengas los siguientes caracteres:

Disallow: /*%$?#=*
Disallow: /*%$?#=

El siguiente paso será bloquear directamente enlaces que contengan extensiones que no corresponde al contenido que queremos indexar al público en general y que solo concierne al sistema de archivos necesarios para su funcionamiento (.php,.css, .js), esto lo hacemos con las siguientes líneas:

Disallow: /*.php$
Disallow: /*.css$
Disallow: /*.js$
Disallow: *.js$
Disallow: *.jsp$
Disallow: *.cfm$
Disallow: *.asp$
Disallow: *.aspx$
Disallow: *.cgi$

Ahora procedemos a bloquear el acceso a carpetas de la instalación que debemos proteger y que su contenido no es relevante al público.

Disallow: /boletines/
Disallow: /descargas/
Disallow: /directorio/
Disallow: /docs/
Disallow: /trans/
Disallow: /vietvbb/
Disallow: /adm/
Disallow: /archive/
Disallow: /calendar/
Disallow: /customgroupicons/
Disallow: /customprofilepics/
Disallow: /faq/
Disallow: /images/
Disallow: /install/
Disallow: /multimedia/
Disallow: /packages/
Disallow: /projectadjuntos/
Disallow: /signaturepics/
Disallow: /vb/
Disallow: /vbadjuntos/
Disallow: /vbseo/
Disallow: /vietvbb/

Así bloqueamos el acceso a estas carpetas que están contenidas en la raíz, pero sabemos que muchas de las carpetas contienen sub-carpetas dentro, y con estas reglas obviamos las mismas. Así que por eso agregamos un (*) al inicio de las carpetas y restringimos el acceso total a nuestra instalación.

Disallow: /*boletines/
Disallow: /*descargas/
Disallow: /*directorio/
Disallow: /*docs/
Disallow: /*trans/
Disallow: /*vietvbb/
Disallow: /*adm/
Disallow: /*archive/
Disallow: /*calendar/
Disallow: /*customgroupicons/
Disallow: /*faq/
Disallow: */install/
Disallow: /*multimedia/
Disallow: /*packages/
Disallow: /*projectadjuntos/
Disallow: /*vb/
Disallow: /*vbadjuntos/
Disallow: /*vbseo/
Disallow: /*vietvbb/

Entendiendo que el contenido a idexar debe ser solo las urls enviadas por nuestro sitemap y con la misma estructura, procedemos a agregar nuestro sitemap a nuestro robots.txt de la forma tradicional:

Sitemap: http://www.mi-sitio.com /sitemap.xml

Nuestro robotsx.txt terminado debería quedar así:

User-agent: *
Disallow: *%$?#=$
Disallow: *%$?#=$
Disallow: *.php$
Disallow: *.css$
Disallow: *.js$
Disallow: *.jsp$
Disallow: *.cfm$
Disallow: *.asp$
Disallow: *.aspx$
Disallow: *.cgi$
Disallow: /*admincp/
Disallow: /*modcp/
Disallow: /*clientscript/
Disallow: /*cpstyles/
Disallow: /*customavatars/
Disallow: /*customcode/
Disallow: /*customprofilepics/
Disallow: /*images/
Disallow: /*includes/
Disallow: /*signaturepics/
Disallow: /*boletines/
Disallow: /*descargas/
Disallow: /*directorio/
Disallow: /*docs/
Disallow: /*trans/
Disallow: /*vietvbb/
Disallow: /*adm/
Disallow: /*archive/
Disallow: /*calendar/
Disallow: /*customgroupicons/
Disallow: /*faq/
Disallow: */install/
Disallow: /*multimedia/
Disallow: /*packages/
Disallow: /*projectadjuntos/
Disallow: /*vb/
Disallow: /*vbadjuntos/
Disallow: /*vbseo/
Disallow: /*vietvbb/
Sitemap: http://www.mi-sitio.com /sitemap.xml

Este robots.txt esta optimizado para cualquier foro con vBulletin y garantiza que tus enlaces indexados sean solo los que envía tu sitemap con esa misma estructura, con eso disminuye el porcentaje de rebote y mejoras la indexación y el rastreo periódico de los crawlers en tu foro.

Debemos tener en cuenta que (/) se refiere a la raíz de tu sitio, pero si tu foro está instalado en un directorio diferente a la raíz debes agregar antes de cada carpeta el nombre del directorio de esta forma; (/foro/). Pero tu robots.txt debe estar siempre en tu directorio y solo debes tener un rbotos.txt por dominio.

Etiquetas:,

Trackback desde tu sitio.

Dejar un Comentario

Sígueme en twitter

Twitter

Suscríbete al Feed

RSS-Feed

Red de Blogs

Red de Blogs iBlogLabs