Robots.txt erstellen – schnell und einfach mit unserem Robots.txt Generator
Überprüfe deine robots.txt, sitemap.xml und andere Crawling-Probleme

Wofür wird robots.txt verwendet?

Wenn ein Suchbot deine Website besucht, bittet er zunächst um Erlaubnis, sie zu crawlen, indem er versucht, die robots.txt-Datei in deinem Stammverzeichnis abzurufen.
Die robots.txt-Datei enthält wichtige Anweisungen für Suchroboter darüber, wie sie deine Website crawlen sollen. Mit dieser Datei kannst du Bots daran hindern, bestimmte Teile deiner Website zu durchsuchen, und ihnen gleichzeitig nützliche Hinweise geben, wie sie Seiten, Dateien und Abschnitte am besten crawlen können.
Die robots.txt-Datei ist öffentlich zugänglich und kann von jedem eingesehen werden. Um sie zu überprüfen, gib einfach https://yourwebsite/robots.txt in die Adressleiste ein.
Robots.txt-Syntax
Die robots.txt-Syntax besteht aus Regeln, Parametern und Sonderzeichen. Um sicherzustellen, dass die Datei korrekt funktioniert, solltest du bei der Erstellung der robots.txt-Datei bestimmte inhaltliche Anforderungen beachten:
1. Jede Regel muss in einer neuen Zeile beginnen. Es darf nur ein Parameter pro Zeile angegeben werden.
Disallow: /folder1/
Disallow: /folder2/
2. Bei robots.txt wird die Groß- und Kleinschreibung beachtet. Wenn zum Beispiel der Name eines Website-Ordners in der robots.txt klein geschrieben ist, obwohl er auf der Website in Großbuchstaben vorliegt, kann das zu Verwirrung bei den Crawlern führen.
3. In der robots.txt-Datei dürfen keine Anführungszeichen, Leerzeichen am Zeilenanfang oder Semikolons am Ende der Zeilen verwendet werden.
Disallow: /“folder2”/
Disallow: /folder2/
Wie verwende ich die Disallow-Direktive richtig?
Nachdem du die User-agent-Regel festgelegt hast, kannst du das Verhalten bestimmter (oder aller) Suchmaschinen-Bots steuern, indem du Crawl-Regeln hinzufügst. Hier sind einige wichtige Tipps:
1. Lass die Disallow-Direktive nicht leer. Wenn du sie ohne Wert lässt, wird der Bot die gesamte Website crawlen.
Disallow: – Erlauben, die gesamte Website zu crawlen
2. Du musst nicht jede einzelne Datei angeben, die du vom Crawling ausschließen möchtest. Es reicht aus, den Zugriff auf einen Ordner zu verwehren, damit alle darin enthaltenen Dateien vom Crawling und Indexieren ausgeschlossen werden.
Disallow: /folder/
3. Blockiere den Zugriff auf die Website nicht mit dieser Regel:
Disallow: / – Zugriff auf die gesamte Website blockieren
Andernfalls kann die Website komplett aus den Suchergebnissen entfernt werden.
Stelle sicher, dass wichtige Seiten deiner Website, wie die Startseite, Landing Pages und Produktseiten, nicht vom Crawling ausgeschlossen werden. Verwende diese Regel nur, um Dateien und Seiten zu blockieren, die nicht in den Suchergebnissen (SERPs) erscheinen sollen.
Wie füge ich die Sitemap in die robots.txt-Datei ein?
Falls nötig, kannst du deine Sitemap zur robots.txt-Datei hinzufügen, um den Bots das Crawlen deiner Website zu erleichtern. Die Sitemap-Datei befindet sich unter http://your website/sitemap.xml. Füge einfach eine Regel mit der URL deiner Sitemap hinzu, wie im folgenden Beispiel:
User-agent: *
Disallow: /folder1/
Allow: /image1/
Sitemap: https://your-site.com/sitemap.xml
Wie übermittle ich eine robots.txt-Datei an Suchmaschinen?
Du musst die robots.txt-Datei nicht direkt an Suchmaschinen übermitteln. Wenn Crawler eine Website besuchen, suchen sie automatisch nach der robots.txt-Datei und lesen sie, bevor sie mit dem Crawlen der Website beginnen.
Hast du Änderungen an der robots.txt-Datei vorgenommen und möchtest Google darüber informieren, kannst du die Datei über die Google Search Console einreichen. Verwende den Robots.txt-Tester, um die Textdatei einzufügen, und klicke auf „Senden“.
Wie definiere ich den User-agent?
Beim Erstellen der robots.txt und der Konfiguration von Crawling-Regeln musst du den Namen des Bots angeben, dem du Crawling-Anweisungen erteilen möchtest. Dies erfolgt mit der User-agent-Direktive.
Möchtest du allen Crawlern den Zugriff auf bestimmte Inhalte verwehren oder erlauben, kannst du das mit dem Sternchen (*) als Platzhalter für alle User-agents tun:
User-agent: *
Möchtest du, dass deine Seiten nur von einer bestimmten Suchmaschine gecrawlt werden, beispielsweise Google, gibst du den entsprechenden User-agent an:
User-agent: Googlebot
Beachte, dass jede Suchmaschine ihre eigenen Bots hat, die sich durch ihre Namen unterscheiden können (z. B. Slurp von Yahoo). Einige Suchmaschinen haben sogar mehrere Crawler, je nach Crawl-Ziel. Zum Beispiel hat Google neben dem Haupt-Crawler Googlebot noch weitere spezialisierte Bots:
- Googlebot News – crawlt Nachrichteninhalte
- Google Mobile – crawlt mobile Seiten
- Googlebot Video – crawlt Videos
- Googlebot Images – crawlt Bilder
- Google AdSense – crawlt Websites, um relevante Anzeigen zu schalten
Wie verwende ich die Allow-Direktive richtig?
Die Allow-Direktive wird verwendet, um der Disallow-Direktive entgegenzuwirken. Wenn du beide Direktiven kombinierst, kannst du den Suchmaschinen mitteilen, dass sie auf bestimmte Ordner, Dateien oder Seiten zugreifen dürfen, selbst wenn der Zugriff auf das gesamte Verzeichnis normalerweise blockiert ist.
Beispiel:
Disallow: /album/ – Verhindert den Zugriff auf das gesamte Verzeichnis /album/
Allow: /album/picture1.jpg – Erlaubt den Zugriff auf die Datei picture1.jpg im Verzeichnis /album/
Verwende diese Regel, um auch den Zugriff auf wichtige Dateien deiner Website zu steuern, wie etwa Skripte, Stylesheets und Bilder. Zum Beispiel:
Allow: /images/ – Erlaubt den Zugriff auf das Verzeichnis /images/, auch wenn andere Teile der Website blockiert sind.
Allow: */uploads
Allow: /wp-/*.js
Allow: /wp-/*.css
Allow: /wp-/*.png
Allow: /wp-/*.jpg
Allow: /wp-/*.jpeg
Allow: /wp-/*.gif
Allow: /wp-/*.svg
Allow: /wp-/*.webp
Allow: /wp-/*.pdf
Wie füge ich die generierte robots.txt-Datei meiner Website hinzu?
Suchmaschinen und Crawling-Bots suchen nach der robots.txt-Datei, wenn sie eine Website besuchen. Sie suchen jedoch nur an einem bestimmten Ort – dem Root Directory (Stammverzeichnis) deiner Website. Nachdem du also die robots.txt-Datei erstellt hast, solltest du sie in das Stammverzeichnis deiner Website hochladen. Du findest sie dann unter https://deine-website.com/robots.txt.
Wie du die robots.txt-Datei hinzufügst, hängt von deinem Server und dem verwendeten CMS ab. Wenn du keinen Zugriff auf das Stammverzeichnis hast, kontaktiere deinen Webhosting-Anbieter, um die Datei hochzuladen.