Generador de robots.txt
Comprueba tus archivos robots.txt, sitemap.xml y posibles problemas de rastreo

¿Cómo usar nuestro Generador de robots.txt?

Hemos creado esta herramienta gratuita para generar robots.txt con el objetivo de ayudar a webmasters, expertos en SEO y otros profesionales del marketing a crear archivos robots.txt de forma rápida y sencilla.
Puedes crear un archivo robots.txt desde cero o usar plantillas prediseñadas. En el primer caso, personaliza el archivo configurando las directivas Allow y Disallow, especificando la ruta (páginas y archivos específicos) y seleccionando los bots a los que se aplican estas reglas. También tienes la opción de usar una plantilla de robots.txt predefinida, que incluye las directivas más comunes para sitios web y CMS. Además, puedes añadir un sitemap al archivo.
Como resultado, con nuestra herramienta para generar robots.txt podrás crear, personalizar, copiar y descargar tu archivo de forma gratuita y sin complicaciones.
Sintaxis del archivo robots.txt
La sintaxis del archivo robots.txt se compone de directivas, parámetros y caracteres especiales. Para garantizar su correcto funcionamiento, debes cumplir con los requisitos necesarios de un archivo robots.txt:
1. Cada directiva debe empezar en una nueva línea y contener solo un parámetro.
User-agent: * Disallow: /folder1/ Disallow: /folder2/
User-agent: *
Disallow: /folder1/
Disallow: /folder2/
2. El archivo robots.txt distingue entre mayúsculas y minúsculas. Por ejemplo, si el nombre de la carpeta de un sitio web está en mayúsculas, pero en el archivo robots.txt está en minúsculas, los rastreadores pueden no interpretarlo correctamente.
User-agent: Disallow: /folder/
Disallow: /Folder/
3. No se pueden usar comillas, espacios al inicio de las líneas, ni punto y coma al final.
Disallow: /folder1/;
Disallow: /“folder2”/
Disallow: /folder1/
Disallow: /folder2/»
¿Cómo usar correctamente la directiva Disallow?
Una vez definida la directiva user-agent, deberás especificar el comportamiento de los bots añadiendo las instrucciones de rastreo correspondientes. A continuación, algunos consejos clave:
1. No dejes la directiva Disallow vacía. En este caso, el bot rastreará todo el contenido del sitio web.
Disallow: – permite rastrear todo el sitio web
2. No enumeres todos los archivos que quieres bloquear. Simplemente, bloquea el acceso a una carpeta y todos los archivos dentro de ella serán bloqueados, impidiendo su rastreo e indexación.
Disallow: /folder/
3. No bloquees el acceso al sitio web usando esta directiva:
Disallow: / – bloquea el acceso a todo el sitio web
De lo contrario, el sitio puede ser eliminado por completo de los resultados de búsqueda.
Además, asegúrate de que las páginas más importantes de tu sitio web, como la página de inicio, las páginas de aterrizaje, las fichas de producto, etc., no estén bloqueadas para el rastreo. Con la directiva Disallow, es recomendable bloquear solo aquellos archivos o páginas que no deseas que aparezcan en los resultados de búsqueda (SERP).
Añade tu sitemap al archivo robots.txt
Si es necesario, puedes añadir tu sitemap al archivo robots.txt para facilitar el rastreo del contenido de tu sitio web. El archivo del sitemap se encuentra en http://yourwebsite/sitemap.xml. Debes añadir una directiva con la URL del archivo, como se muestra a continuación:
User-agent: *
Disallow: /folder1/
Allow: /image1/
Sitemap: https://your-site.com/sitemap.xml
¿Cómo enviar un archivo robots.txt a los motores de búsqueda?
No es necesario enviar el archivo robots.txt a los motores de búsqueda, ya que los rastreadores lo buscan automáticamente cuando visitan tu sitio web. Si encuentran el archivo, lo leerán antes de empezar a rastrear el contenido de la página.
Sin embargo, si has realizado algún cambio en el archivo robots.txt y quieres notificar a Google, puedes hacerlo a través de Google Search Console. Utiliza el Comprobador de robots.txt para pegar el archivo de texto y haz clic en Enviar.»
¿Cómo definir el user-agent?
Al crear un archivo robots.txt y configurar las reglas de rastreo, debes especificar el nombre del bot al que se aplicarán dichas reglas. Puedes hacerlo con la directiva user-agent.
Si quieres permitir o bloquear el acceso a una parte de contenido para todos los rastreadores, puedes utilizar un asterisco (*) como valor del user-agent:
User-agent: *
O bien, puedes hacer que todas tus páginas aparezcan en un motor de búsqueda específico, por ejemplo, Google. En este caso, utiliza el user-agent de Googlebot de la siguiente manera:
User-agent: Googlebot
Ten en cuenta que cada motor de búsqueda utiliza sus propios bots, y sus nombres pueden variar según el motor de búsqueda (por ejemplo, Slurp de Yahoo). Además, algunos motores de búsqueda tienen varios rastreadores dependiendo de los objetivos de rastreo. En el caso de Google, además de su rastreador principal (Googlebot), existen otros bots:
- Googlebot News: rastrea noticias;
- Google Mobile: rastrea páginas móviles;
- Googlebot Video: rastrea videos;
- Googlebot Images: rastrea imágenes;
- Google AdSense: rastrea sitios web para determinar el contenido y mostrar anuncios relevantes.
¿Cómo usar correctamente la directiva Allow?
La directiva Allow se utiliza para contrarrestar la directiva Disallow. Al usar las directivas Allow y Disallow juntas, puedes indicarle a los motores de búsqueda que pueden acceder a una carpeta, archivo o página específica dentro de un directorio que, de otro modo, estaría restringido.
Disallow: /album/ – los motores de búsqueda no pueden acceder al directorio /album/
Allow: /album/picture1.jpg – pero sí pueden acceder al archivo picture1 del directorio /album/
Con esta directiva, también puedes especificar los archivos importantes de tu sitio web: scripts, estilos e imágenes. Por ejemplo:
Allow: */uploads
Allow: /wp-/*.js
Allow: /wp-/*.css
Allow: /wp-/*.png
Allow: /wp-/*.jpg
Allow: /wp-/*.jpeg
Allow: /wp-/*.gif
Allow: /wp-/*.svg
Allow: /wp-/*.webp
Allow: /wp-/*.pdf
¿Cómo subir el archivo robots.txt generado a tu sitio web?
Los motores de búsqueda y otros bots de rastreo buscan el archivo robots.txt cada vez que visitan un sitio web. Sin embargo, solo lo buscan en un lugar específico: el directorio principal. Por lo tanto, después de generar el archivo robots.txt, debes añadirlo al directorio raíz de tu sitio web. Es decir, debe estar disponible en la siguiente URL: https://your-site.com/robots.txt.
El proceso para añadir un archivo robots.txt depende del servidor y del CMS que utilizes. Si no puedes acceder al directorio raíz, contacta con tu proveedor de alojamiento web.
¿Qué importancia tiene el archivo robots.txt?
El archivo robots.txt indica a los motores de búsqueda qué páginas rastrear y qué bots tienen permiso para hacerlo. Usar el archivo robots.txt correctamente te permite resolver dos problemas:
- Reducir la probabilidad de que ciertas páginas se rastreen, se indexen o aparezcan en los resultados de búsqueda.
- Optimizar el presupuesto de rastreo.
¿En qué condiciones funcionará correctamente el archivo robots.txt generado?
El archivo robots.txt funcionará correctamente bajo tres condiciones:
- Las directivas y el user-agent están correctamente especificados. Por ejemplo, cada grupo comienza con una línea de user-agent, y una directiva por línea.
- El archivo debe estar en formato .txt.
- El archivo robots.txt debe estar ubicado en la raíz del proveedor de hosting del sitio web.