Qué es y cómo crear un fichero robots.txt
¿Qué es un fichero robots.txt?
Es un fichero de texto que se coloca en un sitio web para indicar a los buscadores como Google sobre si deben acceder a tus contenidos.
¿Por qué me debería importar el robots.txt?
- Si lo utilizas mal puedes perjudicar tu posicionamiento en Google.
- Puede ser de mucha ayuda para resolver algunos problemas.
- Todos los buscadores (no sólo Google) leen el robots.txt.
- Es lo primero que consultan los buscadores al acceder a tu sitio web.
¿Tengo robots.txt en mi sitio web?
Pruébalo tú misma. Basta con escribir en tu navegador la dirección de tu sitio web con /robots.txt por detrás. Así:
http://www.tudominio.com/robots.txt
Por ejemplo, en nuestro caso:
http://www.codesyntax.com/robots.txt
Si el servidor te da un error NotFound o No Encontrado, tampoco deberías preocuparte. El robots.txt no es necesario y en sí no perjudica no tenerlo.
¿Qué significa lo que pone en el robots.txt?
Generalmente el fichero tiene dos instrucciones principales:
User-agent:
Con User-agent se indica para qué buscador estamos determinando las siguientes instrucciones. Podemos poner el nombre en clave de cada buscador que queramos especificar, pero generalmente se pone un asterisco, que significa todos los buscadores.
User-agent: *
Disallow:
Con disallow indicamos a los buscadores qué es lo que no queremos que visite ni indexe. Se puede especificar un directorio determinado o los ficheros que cumplan un determinado patrón.
User-agent: *
Disallow:
Ésta es la opción más abierta, no prohibimos nada, los buscadores pueden entrar líbremente. Si no tienes nada que ocultar, esta es la opción que deberías tener en tu sitio web.
User-agent: *
Disallow: /
Ésta es la opción más cerrada, no queremos que Google vea nada de nuestro sitio web y le prohibimos el acceso. Ten cuidado porque si pones esto en tu robots.txt, van a caer en picado las visitas a tu sitio web. Utilízalo en casos contados.
Si lo que quieres es ocultar una carpeta determinada, tienes que poner el path o camino a esa carpeta, siempre empezando con la barra inicial ( / ), que significa raíz del sitio web. En este ejemplo, prohibimos el acceso del buscador a la carpeta cosasviejas.
User-agent: *
Disallow: /cosasviejas/
¿Por qué interesa tener un robots.txt?
- Si tienes secciones poco relevantes o duplicadas que no quieres que Google visite.
- Para no saturar tu servidor con visitas de Google. A veces la combinación de etiquetas en un blog por ejemplo, puede dar lugar a miles de páginas.
- Si estás trabajando en una nueva versión de tu sitio web y no quieres que Google la encuentre antes de tenerla bien terminada.
- Si tienes una intranet, extranet o sección que no quieres que salga en Google.
Pero ¡ojo! Si lo que quieres es ocultar contenidos concretos para que no salgan en Google, es mejor que utilices si es posible otras soluciones, como protección con contraseñas o etiquetas noindex, que se insertan en cada página que no queremos que se indexe.
Ten en cuenta también que el fichero robots.txt no impide que las personas usuarias visiten esas secciones. Como su propio nombre indica solo afecta a los robots de los buscadores como Google.
¿Cómo modificar y cargar mi robots.txt?
Basta con que crees un fichero de texto normal en el Bloc de Notas o la aplicación similar que tengas a mano (no... no sirve con tu Word) y guardes el fichero como robots.txt y lo subas a la carpeta principal o raíz de tu sitio web
Te recomendamos que busques más información sobre el robots.txt para asegurarte, mires los robots.txt de otros sitios web e intentes aprender más. Recuerda que sin querer puedes cerrar el paso a secciones fundamentales de tu sitio web y quedarías fuera de Google en cuestión de días.