Robots.txt testen
Checke deine robots.txt-Datei mit dem Robots.txt Tester, um sicherzustellen, dass Bots deine Website korrekt crawlen
Ergebnisse
Wie liest man eine robots.txt-Datei?
Diese Direktive gibt an, für welchen Crawler – oder alle Webcrawler – die festgelegten Regeln gelten. Jede Suchmaschine betreibt ihren eigenen Bot: Google nutzt den Googlebot, Bing den Bingbot und Yahoo! den Slurp. Die meisten Suchmaschinen setzen mehrere Crawler ein: für den regulären Index, Anzeigen, Bilder, Videos und mehr. Der robots.txt Tester zeigt dir, welche Crawler auf die Inhalte deiner Website zugreifen dürfen und welche nicht.
Diese Direktive legt fest, auf welche Dateien, Kategorien und Seiten die angegebenen Crawler zugreifen dürfen. Wird kein Pfad angegeben, wird die Direktive ignoriert. Sie dient dazu, die Disallow-Direktive aufzuheben und den Zugriff auf eine Seite oder Datei in einem verbotenen Verzeichnis zu erlauben. Der robots.txt-Tester zeigt dir, auf welche Seiten Bots zugreifen dürfen.
Mit dieser Direktive kannst du verhindern, dass Suchmaschinen bestimmte Dateien und URLs crawlen – etwa interne oder Service-Dateien wie ein Ordner mit Nutzerdaten aus dem Registrierungsprozess. Das Tool zeigt dir, welche der eingegebenen Seiten vom Crawling ausgeschlossen sind.
SE Ranking macht SEO einfach!
Alle Tools, die du brauchst, an einem Ort
Wie funktioniert unser Online Robots.txt Tester?
Der Robots.txt Tester wurde entwickelt, damit du deine Datei schnell und unkompliziert prüfen kannst. Füge einfach die gewünschte URL in das Eingabefeld ein und klicke auf „Testen". Das Ergebnis zeigt dir sofort, ob bestimmte Seiten für das Crawling freigegeben oder gesperrt sind. URLs, die vom Crawling ausgeschlossen sind, werden rot markiert; URLs, die Bots crawlen dürfen, erscheinen grün.
Warum ist eine robots.txt-Datei notwendig?
Die robots.txt-Datei liefert Suchmaschinen wichtige Informationen darüber, welche Dateien und Seiten gecrawlt werden sollen. Sie dient in erster Linie dazu, den Crawler-Traffic auf deiner Website zu steuern – und zu verhindern, dass dein Server mit Anfragen überlastet wird.
Damit lassen sich zwei Probleme lösen:
- Erstens kannst du die Wahrscheinlichkeit reduzieren, dass bestimmte Seiten gecrawlt, indexiert und in den Suchergebnissen angezeigt werden.
- Zweitens sparst du Crawling-Budget, indem du Seiten sperrst, die nicht indexiert werden sollen.
Wenn du allerdings verhindern möchtest, dass eine Seite oder ein anderes digitales Asset in der Google-Suche erscheint, ist die zuverlässigere Methode das Setzen des noindex-Attributs im Robots-Meta-Tag.
Wie lässt sich überprüfen, ob die robots.txt korrekt funktioniert?
Der schnellste Weg ist der Einsatz eines entsprechenden Tools.
Mit unserem Robots.txt Tester kannst du bis zu 100 URLs eingeben. Das Tool zeigt dir dann, ob die Datei bestimmte Crawler vom Zugriff auf bestimmte URLs deiner Website ausschließt.
Alternativ kannst du Fehler in der robots.txt-Datei auch direkt über die Google Search Console ermitteln.
Häufige robots.txt-Fehler
- Die Datei liegt nicht im .txt-Format vor. In diesem Fall können Bots die robots.txt-Datei aufgrund des falschen Formats nicht finden und crawlen.
- Die robots.txt befindet sich nicht im Stammverzeichnis. Die Datei muss im obersten Verzeichnis der Website abgelegt sein. Liegt sie in einem Unterordner, ist sie für Suchbots wahrscheinlich nicht sichtbar. Verschiebe die Datei in dein Stammverzeichnis, um das Problem zu beheben. In der Disallow-Direktive musst du die Dateien oder Seiten angeben, die nicht in den SERPs erscheinen sollen. Sie lässt sich mit der User-agent-Direktive kombinieren, um die Website für einen bestimmten Crawler zu sperren.
- Disallow ohne Wert. Eine leere Disallow-Direktive teilt Bots mit, dass sie jede Seite der Website besuchen dürfen.
- Leerzeilen innerhalb von Direktiven. Lasse keine Leerzeilen zwischen Direktiven stehen – andernfalls kann die Datei von Bots nicht korrekt verarbeitet werden. Eine Leerzeile in der robots.txt sollte ausschließlich vor der Angabe eines neuen User-agents stehen.
Best Practices für robots.txt
Achte auf die korrekte Groß- und Kleinschreibung. Bots behandeln Ordner- und Abschnittsnamen als case-sensitiv. Beginnt ein Ordnername mit einem Großbuchstaben und du schreibst ihn klein, verliert sich der Crawler.
Jede Direktive muss in einer neuen Zeile beginnen. Pro Zeile ist nur ein Parameter erlaubt.
Leerzeichen am Zeilenanfang, Anführungszeichen oder Semikolons für Direktiven sind nicht zulässig.
Du musst nicht jede einzelne Datei auflisten, die du vor Crawlern schützen möchtest. Gib einen Ordner oder ein Verzeichnis in der Disallow-Direktive an – alle Dateien darin werden automatisch vom Crawling ausgeschlossen.
Mit regulären Ausdrücken lassen sich flexiblere Anweisungen in der robots.txt erstellen:
- Das Sternchen (*) steht für beliebige Zeichenfolgen.
- Das Dollarzeichen ($) markiert das Ende des URL-Pfads.
Nutze serverseitige Authentifizierung, um den Zugriff auf vertrauliche Inhalte zu sichern. So stellst du sicher, dass wichtige Daten nicht abgegriffen werden.
Verwende eine robots.txt-Datei pro Domain. Wenn du Crawling-Regeln für verschiedene Websites festlegen möchtest, erstelle für jede eine separate Datei.
Was gehört in eine robots.txt-Datei?
Die robots.txt-Datei enthält Anweisungen, die Crawlern erklären, wie sie mit einer bestimmten Website interagieren sollen. Sie beginnt mit einer User-agent-Direktive, die angibt, für welchen Suchbot die Regeln gelten. Anschließend werden Direktiven festgelegt, die bestimmte Dateien und Seiten freigeben oder sperren. Am Ende kannst du optional einen Link zu deiner Sitemap hinzufügen.
Wie öffne ich eine robots.txt-Datei?
Um den Inhalt der robots.txt-Datei einer Website einzusehen, gib einfach https://deinewebsite/robots.txt in deinen Browser ein.
Können Bots die robots.txt ignorieren?
Crawler lesen die robots.txt-Datei einer Website grundsätzlich, bevor sie mit dem Crawling beginnen. Die Datei enthält jedoch lediglich Empfehlungen für Bots, keine bindenden Regeln. Daher kann es in manchen Fällen vorkommen, dass Bots diese Direktiven übergehen.
Wie prüfe ich, ob die robots.txt korrekt funktioniert?
Nutze dafür unseren Robots.txt Tester. Gib einfach die gewünschten URLs ein – das Tool zeigt dir sofort, ob eine bestimmte URL gecrawlt werden darf oder nicht.
Wie behebe ich Fehler in der robots.txt?
Eine robots.txt-Datei ist ein reines Textdokument. Du kannst sie mit einem Texteditor bearbeiten und anschließend wieder im Stammverzeichnis der Website ablegen. Viele CMS – darunter WordPress – bieten außerdem Plugins, mit denen du Änderungen direkt im Admin-Dashboard vornehmen kannst.
Kann die robots.txt weitergeleitet werden?
Die Datei ist ausschließlich unter http://deinewebsite/robots.txt erreichbar und kann nicht auf andere Seiten der Website weitergeleitet werden. Du kannst jedoch eine Weiterleitung zur robots.txt einer anderen Domain einrichten.
Respektiert Google die robots.txt?
Wenn Google eine Website crawlt, liest der Crawler zuerst die robots.txt-Datei mit allen Crawling-Anweisungen. In manchen Fällen kann die Suchmaschine diese Direktiven jedoch ignorieren.