Robots.txt Tester
Wie liest man eine Robots.txt-Datei?
Wie verwendet man unseren Online Robots.txt Tester?
Warum ist eine Robots.txt-Datei notwendig?
Robots.txt-Dateien geben Suchmaschinen wichtige Informationen über das Crawlen von Dateien und Webseiten. Diese Datei wird hauptsächlich verwendet, um den Crawler-Verkehr auf deiner Website zu verwalten, um zu vermeiden, dass deine Site mit Anfragen überlastet wird.
Du kannst zwei Probleme damit lösen:
- Erstens, die Wahrscheinlichkeit reduzieren, dass bestimmte Seiten gecrawlt werden, einschließlich der Indexierung und des Erscheinens in den Suchergebnissen.
- Zweitens, das Crawling-Budget sparen, indem Seiten geschlossen werden, die nicht indexiert werden sollten.
Wenn du jedoch verhindern möchtest, dass eine Seite oder ein anderes digitales Asset in der Google-Suche erscheint, wäre eine zuverlässigere Option, das no-index-Attribut zum Robots-Meta-Tag hinzuzufügen.
Wie stellt man sicher, dass die robots.txt einwandfrei funktioniert?
Eine schnelle und einfache Methode, um sicherzustellen, dass deine robots.txt-Datei richtig funktioniert, ist die Verwendung spezieller Tools.
Du kannst beispielsweise deine robots.txt mit unserem Tool validieren: Gib bis zu 100 URLs ein, und es wird dir zeigen, ob die Datei das Crawlen bestimmter URLs auf deiner Website blockiert.
Um schnell Fehler in der robots.txt-Datei zu erkennen, kannst du auch die Google Search Console verwenden.
Häufige Probleme mit robots.txt
- Die Datei ist nicht im .txt-Format. In diesem Fall können Bots deine robots.txt-Datei aufgrund des Formatfehlers nicht finden und crawlen.
- Robots.txt befindet sich nicht im Stammverzeichnis. Die Datei muss im obersten Verzeichnis der Website abgelegt werden. Befindet sie sich in einem Unterordner, ist deine robots.txt-Datei wahrscheinlich für Such-Bots nicht sichtbar. Um dieses Problem zu beheben, verschiebe deine robots.txt-Datei in dein Stammverzeichnis.
In der Disallow-Direktive musst du bestimmte Dateien oder Seiten angeben, die nicht in den SERPs erscheinen sollen. Sie kann zusammen mit der User-agent-Direktive verwendet werden, um die Website für einen bestimmten Crawler zu blockieren.
- Disallow ohne Wert. Eine leere Disallow-Direktive teilt den Bots mit, dass sie alle Seiten der Website besuchen können.
- Disallow ohne Wert. Eine leere Disallow-Direktive teilt den Bots mit, dass sie alle Seiten der Website besuchen können.
- Leere Zeilen in der robots.txt-Datei. Lasse keine leeren Zeilen zwischen den Abweisungen. Andernfalls können Bots die Datei nicht richtig crawlen. Eine leere Zeile in der robots.txt-Datei sollte nur vor der Angabe eines neuen User-agent platziert werden.
Best Practices für robots.txt
- Verwende die korrekte Schreibweise in robots.txt. Bots behandeln Ordner- und Abschnittsnamen als groß- und kleinschreibungsempfindlich. Wenn ein Ordnername mit einem Großbuchstaben beginnt, wird dessen Benennung mit einem Kleinbuchstaben den Crawler verwirren und umgekehrt.
- Jede Anweisung muss auf einer neuen Zeile beginnen. Es darf nur ein Parameter pro Zeile stehen.
- Die Verwendung von Leerzeichen am Anfang einer Zeile, Anführungszeichen oder Semikolons für Anweisungen ist strengstens untersagt.
- Es ist nicht notwendig, jede Datei aufzulisten, die du von Crawlers blockieren möchtest. Du musst nur einen Ordner oder ein Verzeichnis in der Disallow-Direktive angeben, und alle Dateien aus diesen Ordnern oder Verzeichnissen werden ebenfalls vom Crawling ausgeschlossen.
- Du kannst reguläre Ausdrücke verwenden, um eine robots.txt mit flexibleren Anweisungen zu erstellen.
- Der Asterisk (*) zeigt eine beliebige Wertvariation an.
- Das Dollarzeichen ($) ist eine Asterisk-artige Einschränkung, die auf Website-URL-Adressen angewendet wird. Es wird verwendet, um das Ende des URL-Pfades anzugeben.
- Verwende serverseitige Authentifizierung, um den Zugriff auf private Inhalte zu blockieren. So kannst du sicherstellen, dass wichtige Daten nicht gestohlen werden.
- Verwende eine robots.txt-Datei pro Domain. Wenn du Crawling-Richtlinien für verschiedene Sites festlegen musst, erstelle eine separate robots.txt für jede davon.
Andere Möglichkeiten, deine robots.txt-Datei zu testen
Du kannst deine robots.txt-Datei mit dem Google Search Console-Tool analysieren.
Dieser robots.txt-Tester zeigt dir, ob deine robots.txt-Datei Google-Crawler daran hindert, auf bestimmte URLs auf deiner Website zuzugreifen. Das Tool ist in der neuen Version von GSC nicht verfügbar, aber du kannst darauf zugreifen, indem du diesen Link anklickst.
Wähle deine Domain aus, und das Tool zeigt dir die robots.txt-Datei, ihre Fehler und Warnungen.
Gehe zum unteren Rand der Seite, wo du die URL einer Seite in das Textfeld eingeben kannst. Das Ergebnis ist, dass der robots.txt-Tester überprüft, ob deine URL ordnungsgemäß blockiert wurde.
Was sollte in einer robots.txt-Datei stehen?
Robots.txt-Dateien enthalten Informationen, die Crawlern Anweisungen geben, wie sie mit einer bestimmten Site interagieren sollen. Es beginnt mit einer User-agent-Direktive (Anweisung), die den Suchbot spezifiziert, auf den die Regeln anwendbar sind. Dann solltest du Direktiven angeben, die bestimmte Dateien und Seiten für Crawler erlauben und blockieren. Am Ende einer robots.txt-Datei kannst du optional einen Link zu deiner Sitemap hinzufügen.
Können Bots robots.txt ignorieren?
Crawler beziehen sich immer auf eine vorhandene robots.txt-Datei, wenn sie eine Website besuchen. Obwohl die robots.txt-Datei Regeln für Bots bereitstellt, kann sie die Anweisungen nicht durchsetzen. Die robots.txt-Datei selbst ist eine Liste von Richtlinien für Crawler – keine strikten Regeln. Daher können Bots in einigen Fällen diese Anweisungen ignorieren.
Wie repariert man robots.txt?
Eine robots.txt-Datei ist ein Textdokument. Du kannst die aktuelle Datei über einen Texteditor ändern und dann wieder zum Stammverzeichnis der Website hinzufügen. Darüber hinaus haben viele CMS, einschließlich WordPress, verschiedene Plugins, die es ermöglichen, Änderungen an der robots.txt-Datei vorzunehmen – du kannst dies direkt vom Admin-Dashboard aus tun.