Robots.txt es un archivo de texto que podemos redactar libremente para ordenar a los SPIDERS (los robots de los buscadores que visitan nuestra página) de cumplir determinadas acciones.
Este archivo tiene que ser incluido en el directorio raíz del servidor web donde alojamos la página.
El archivo robots está compuesto por los siguientes parámetros:
Con este parámetro definimos el robot que nos interesa.
En el caso queramos considerar el bot de Google pondremos: User-agent: googlebot
Para incluir todos los buscadores, pondremos un asterisco.
Con este campo le decimos al SPIDER lo que no queremos que extraiga de nuestra página. Puede ser un archivo, o una carpeta entera. Por ejemplo, si quiero que el SPIDER no extraiga e indexe el archivo zapatilla-de-baloncesto-1.htm dentro de la carpeta baloncesto, escribiré:
Disallow: /baloncesto/zapatilla-de-baloncesto-1.htm
En otras palabras, si por ejemplo quiero que ningún SPIDER indexe los archivos de la carpeta ‘baloncesto’, mi archivo robots.txt aparecerá de la siguiente forma:
User-agent: *
Disallow: /baloncesto/