Générateur de fichier robots.txt
Vérifiez votre fichier robots.txt, sitemap.xml et les autres problèmes d’exploration

Comment utiliser notre générateur de fichier robots.txt ?

Ce générateur de fichier robots.txt gratuit a été conçu pour les webmasters, les experts SEO et les marketeurs souhaitant créer facilement un fichier adapté à leur site.
Vous pouvez le créer à partir de zéro ou utiliser des modèles préconfigurés. Dans le premier cas, définissez les règles d’exploration (autorisation ou blocage), les chemins concernés (pages ou fichiers) et les robots ciblés. Vous avez aussi la possibilité de partir d’un modèle standard contenant les directives les plus courantes, y compris celles pour les CMS.
Par conséquent, vous obtenez un fichier robots.txt prêt à l’emploi, que vous pouvez modifier selon vos besoins et copier ou télécharger si nécessaire.
Syntaxe du fichier robots.txt
La syntaxe d’un fichier robots.txt repose sur des directives, des paramètres et des caractères spéciaux. Pour garantir son bon fonctionnement, certaines règles doivent être respectées lors de la création du fichier d’un fichier robots.txt :
1. Chaque directive commence sur une nouvelle ligne et ne contient qu’un seul paramètre par ligne.
User-agent: * Disallow: /dossier1/ Disallow: /dossier2/
User-agent: *
Disallow: /dossier1/
Disallow: /dossier2/
2. Le fichier robots.txt est sensible à la casse. Par exemple, si un dossier du site commence par une majuscule mais est écrit en minuscule dans le fichier, cela peut désorienter les robots.
User-agent: *
Disallow: /dossier/
Disallow: /Dossier/
3. Évitez d’utiliser des guillemets, de laisser un espace avant une directive ou d’ajouter un point-virgule à la fin d’une ligne.
Disallow: /dossier1/;
Disallow: /“dossier2”/
Disallow: /dossier1/
Disallow: /dossier2/
Comment utiliser correctement la directive Disallow ?
Une fois la directive User-agent renseignée, vous pouvez définir le comportement de certains robots (ou de tous) en ajoutant des instructions d’exploration. Voici quelques conseils essentiels à suivre :
1. Ne laissez pas la directive Disallow vide. Dans ce cas, le robot explorera l’intégralité du site.
Disallow: -autorise l’exploration de l’ensemble du site
2. N’ajoutez pas chaque fichier à bloquer. Il suffit d’interdire l’accès à un dossier : tous les fichiers qu’il contient seront alors exclus de l’exploration et de l’indexation.
Disallow: /dossier/
3. N’utilisez pas cette directive pour bloquer l’accès à l’ensemble du site.
Disallow: / – bloque l’accès à l’ensemble du site
Sinon, le site risque d’être entièrement supprimé des résultats de recherche.
De plus, assurez-vous que les pages clés de votre site (accueil, landing pages, produits) ne soient pas bloquées. Utilisez cette directive uniquement pour les contenus à exclure des résultats de recherche.
Ajouter votre fichier sitemap dans le fichier robots.txt
Si nécessaire, vous pouvez ajouter votre fichier sitemap dans le fichier robots.txt. Cela facilite l’exploration du contenu par les robots des moteurs de recherche. Le fichier sitemap se trouve à l’adresse suivante : http://yourwebsite/sitemap.xml. Vous devez ajouter une directive contenant cette URL dans le fichier robots.txt, comme dans l’exemple ci-dessous :
User-agent: *
Disallow: /dossier1/
Allow: /image1/
Sitemap: http://yourwebsite/sitemap.xml
Comment soumettre un fichier robots.txt aux moteurs de recherche ?
Vous n’avez pas besoin de soumettre manuellement un fichier robots.txt aux moteurs de recherche.
Lorsqu’un robot visite un site, il commence par rechercher ce fichier. S’il en trouve un, il le lit avant d’explorer le reste du contenu.
Cependant, si vous avez modifié votre fichier robots.txt et souhaitez en informer Google plus rapidement, vous pouvez le soumettre via la Google Search Console. Utilisez l’outil “Test robots.txt” pour coller le contenu du fichier, puis cliquez sur Envoyer.
Comment définir la directive User-agent ?
Lors de la création d’un fichier robots.txt et de la configuration des règles de crawl, vous devez spécifier le nom du bot auquel vous donnez des instructions de crawl. Vous pouvez le faire à l’aide de la directive User-agent.
Si vous souhaitez bloquer ou autoriser tous les crawlers à accéder à certains de vos contenus, vous pouvez le faire en indiquant * (astérisque) comme User-agent
User-agent: *
Vous pouvez également souhaiter que toutes vos pages apparaissent dans un moteur de recherche spécifique, comme Google. Dans ce cas, utilisez le comme User-agent.
User-agent: Googlebot
N’oubliez pas que chaque moteur de recherche dispose de ses propres robots, dont le nom peut différer de celui du moteur lui-même (par exemple, Slurp pour Yahoo). Certains moteurs utilisent également plusieurs robots selon leurs objectifs d’exploration. Par exemple, en plus de son robot principal Googlebot, Google utilise d’autres crawlers spécialisés :
- Googlebot-News : explore les contenus d’actualité
- Googlebot-Video : explore les contenus vidéo
- Googlebot-Images : explore les images
Comment utiliser correctement la directive Allow ?
La directive Allow permet de contourner une directive Disallow.
Si vous utilisez Allow et Disallow, vous pouvez indiquer aux moteurs de recherche qu’ils sont autorisés à accéder à un dossier, un fichier ou une page spécifique, même si le répertoire principal est bloqué.
Disallow: /album/ – les moteurs de recherche ne sont pas autorisés à accéder au répertoire /album/
Allow: /album/image1.jpg – les moteurs de recherche sont autorisés à accéder au fichier picture1.jpg situé dans le répertoire /album/
Pensez aussi à autoriser les fichiers indispensables du site : scripts, styles CSS et images. Par exemple :
Allow: */uploads
Allow: /wp-/*.js
Allow: /wp-/*.css
Allow: /wp-/*.png
Allow: /wp-/*.jpg
Allow: /wp-/*.jpeg
Allow: /wp-/*.gif
Allow: /wp-/*.svg
Allow: /wp-/*.webp
Allow: /wp-/*.pdf
Comment ajouter le fichier robots.txt généré à votre site Web ?
Les moteurs de recherche et autres robots d’exploration recherchent un fichier robots.txt dès qu’ils accèdent à un site web. Cependant, ils ne le consultent qu’à un seul endroit : le répertoire principal du site. C’est pourquoi, une fois le fichier généré, il doit être placé dans le dossier racine du site. L’URL standard est : https://votre-site.com/robots.txt
La méthode pour ajouter ce fichier dépend du serveur ou du CMS que vous utilisez. Si vous n’avez pas accès au répertoire racine, contactez votre hébergeur.
Quelle est l’importance d’un fichier robots.txt pour votre site Web ?
Le fichier robots.txt indique aux moteurs de recherche quelles pages peuvent être explorées et quels robots sont autorisés à accéder au contenu du site.
Il permet de répondre à deux objectifs :
- Réduire les risques d’exploration, d’indexation ou d’affichage dans les résultats de recherche pour certaines pages
- Optimiser l’utilisation du budget de crawl.
Dans quels cas le fichier robots.txt généré est-il pris en compte par les moteurs de recherche ?
Le fichier robots.txt fonctionne correctement uniquement si trois conditions sont respectées :
- User-agent et directives correctement définis. Par exemple, chaque groupe commence par une ligne User-agent, suivie d’une seule directive par ligne.
- Le fichier doit obligatoirement être au format .txt.
- Le fichier robots.txt doit se trouver à la racine du site, directement à l’adresse principale.