Herramientas SEO gratuitas / Comprobador de robots.txt

Comprobador de robots.txt

Verifica tu archivo robots.txt para asegurarte de que los bots puedan rastrear el sitio web correctamente

Ingresa las URLs para comprobar si no están bloqueadas por tu archivo robots.txt

Resultados

URL

Bot

Tu archivo robots.txt

¿Cómo leer un archivo robots.txt?

User-agent

Allow

Disallow

User-agent

Esta directiva identifica una araña específica (o todos los rastreadores web) a la que se aplican las reglas prescritas. Cada motor de búsqueda tiene su propio bot: Google tiene Googlebot, Bing tiene Bingbot y Yahoo! tiene Slurp. La mayoría de los motores de búsqueda tienen múltiples arañas para su índice regular, programas de anuncios, imágenes, vídeos, etc. El validador de robots.txt mostrará qué rastreadores pueden o no pueden solicitar el contenido de tu sitio web.

Allow

Esta directiva especifica archivos, categorías y páginas del sitio web a las que pueden acceder los rastreadores designados. Cuando no se especifica ninguna ruta, la directiva se ignora. Se utiliza para contrarrestar la directiva Disallow, permitiendo el acceso a una página o archivo dentro de un directorio prohibido. El comprobador de robots.txt te mostrará a qué páginas pueden acceder los bots.

Disallow

Esta directiva se añade a robots.txt para evitar que los motores de búsqueda rastreen archivos y URLs específicos. Puedes desautorizar archivos internos y de servicio, por ejemplo, una carpeta con datos de usuario especificados durante el registro. La herramienta te mostrará qué páginas ingresadas no están disponibles para su rastreo.

¿Cómo utilizar nuestro Tester de Robots.txt?

Creamos un comprobador de robots.txt para que todos puedan verificar rápidamente su archivo. Para utilizar nuestra herramienta, pega las URLs necesarias en el campo de entrada y haz clic en Comprobar tu archivo robots.txt. Como resultado, sabrás si el rastreo de páginas específicas está permitido o bloqueado. Una URL se resaltará en rojo si su rastreo está bloqueado, y si los bots pueden rastrear la página, se resaltará en verde. Además, la herramienta te mostrará el archivo robots.txt para cada dominio ingresado (si marcas la casilla "Mostrar el archivo robots.txt").

Preguntas frecuentes

¿Por qué es necesario un archivo robots.txt?

Los archivos robots.txt proporcionan a los motores de búsqueda información importante sobre cómo rastrear archivos y páginas web. Su función principal es regular el tráfico de los rastreadores hacia tu sitio web para evitar sobrecargar tu sitio con solicitudes.

Puedes resolver dos problemas con su ayuda:

Primero, reducir la probabilidad de que ciertas páginas sean rastreadas, indexadas y aparezcan en los resultados de búsqueda.
Segundo, ahorrar el presupuesto de rastreo al evitar que se indexen páginas que no deberían ser indexadas.

Sin embargo, si quieres evitar que una página u otro activo digital aparezca en la Búsqueda de Google, una opción más segura sería agregar el atributo no-index a la etiqueta meta robots.

¿Cómo asegurarse de que el archivo robots.txt es válido y funciona correctamente?

Una forma rápida y sencilla de asegurarte de que tu archivo robots.txt está funcionando correctamente es utilizar herramientas especiales

Por ejemplo, puedes validar tu archivo robots.txt utilizando nuestra herramienta: ingresa hasta 100 URLs y verás si el archivo impide que los rastreadores accedan a URLs específicas de tu sitio web.

Para detectar rápidamente errores en el archivo robots.txt, también puedes utilizar Google Search Console.

Problemas comunes de robots.txt

El archivo no está en formato .txt. En este caso, los bots no podrán encontrar ni rastrear tu archivo robots.txt debido a la incompatibilidad de formatos.
Robots.txt no se encuentra en el directorio raíz. El archivo debe colocarse en el directorio superior del sitio web. Si se coloca en una subcarpeta, es probable que tu archivo robots.txt no sea visible para los bots de búsqueda. Para solucionar este problema, mueve tu archivo robots.txt al directorio raíz.

En la directiva Disallow, debes especificar archivos o páginas específicas que no deberían aparecer en las SERP. Se puede utilizar con la directiva User-agent para bloquear el acceso al sitio web desde un rastreador específico.

Disallow sin valor. Una directiva Disallow: vacía le dice a los bots que pueden visitar cualquier página del sitio web.
Disallow sin valor. Una directiva Disallow vacía indica a los bots que pueden visitar todas las páginas del sitio web.
Líneas en blanco en el archivo robots.txt. No dejes líneas en blanco entre directivas. De lo contrario, los bots no podrán rastrear el archivo correctamente. Se debe colocar una línea vacía en el archivo robots.txt solo antes de indicar un nuevo User-agent.

Mejores prácticas de robots.txt

Utiliza el formato adecuado en robots.txt. Los bots consideran los nombres de carpetas y secciones como sensibles a mayúsculas y minúsculas. Por lo tanto, si el nombre de una carpeta comienza con una letra mayúscula, nombrarla con una letra minúscula desorientará al rastreador y viceversa.
Cada directiva debe comenzar en una nueva línea. Solo puede haber un parámetro por línea.
Está estrictamente prohibido el uso de espacios al principio de una línea, comillas o punto y coma para directivas.
No es necesario enumerar todos los archivos que deseas bloquear de los rastreadores. Solo necesitas especificar una carpeta o directorio en la directiva Disallow, y todos los archivos de estas carpetas o directorios también quedarán bloqueados para el rastreo.
Puedes usar expresiones regulares para crear robots.txt con instrucciones más flexibles.
- El asterisco (*) indica cualquier variación de valor.
- El signo de dólar ($) es una restricción de tipo asterisco que se aplica a las direcciones URL de un sitio web. Se utiliza para especificar el final de la ruta URL.
Utiliza la autenticación del lado del servidor para bloquear el acceso al contenido privado. De esta manera, puedes asegurarte de que los datos importantes no sean robados.
Utiliza un archivo robots.txt por dominio. Si necesitas establecer directrices de rastreo para diferentes sitios web, crea un archivo robots.txt separado para cada uno.

Otras formas de probar tu archivo robots.txt

Puedes analizar tu archivo robots.txt utilizando la herramienta de Google Search Console.

Este probador de robots.txt te muestra si tu archivo robots.txt está bloqueando el acceso de los rastreadores de Google a URLs específicas de tu sitio web. La herramienta no está disponible en la nueva versión de GSC, pero puedes acceder a ella haciendo clic en este enlace.

Selecciona tu dominio y la herramienta te mostrará el archivo robots.txt, sus errores y advertencias.

Ve al final de la página, donde puedes escribir la URL de una página en el cuadro de texto. Como resultado, el probador de robots.txt verificará que tu URL se haya bloqueado correctamente.

¿Qué debería haber en un archivo robots.txt?

Los archivos robots.txt contienen información que indica a los rastreadores cómo interactuar con un sitio web en particular. Comienza con una directiva User-agent que especifica el bot de búsqueda al que se aplican las reglas. Luego, debes especificar directivas que permitan y bloqueen ciertos archivos y páginas de los rastreadores. Al final de un archivo robots.txt, puedes agregar un enlace a tu mapa del sitio.

¿Pueden los bots ignorar el archivo robots.txt?

Los rastreadores siempre consultan un archivo robots.txt existente cuando visitan un sitio web. Aunque el archivo robots.txt proporciona reglas para los bots, no puede hacer cumplir las instrucciones. El archivo robots.txt en sí mismo es una lista de directivas para los rastreadores, no reglas estrictas. Por eso, en algunos casos, los bots pueden ignorar estas directivas.

¿Cómo arreglar un archivo robots.txt?

Un archivo robots.txt es un documento de texto. Puedes cambiar el archivo actual a través de un editor de texto y luego agregarlo nuevamente al directorio raíz del sitio web. Es más, muchos CMS, incluido WordPress, tienen varios complementos que permiten realizar cambios en el archivo robots.txt, y puedes hacerlo directamente desde el panel de administración.