Robots.txt Tester

Überprüfe deine Robots.txt-Datei, um sicherzustellen, dass Bots die Seite richtig crawlen können
Gib URLs ein, um zu testen, ob sie nicht durch deine Robots.txt-Datei blockiert werden
Es scheint, dass du keine robots.txt-Datei hast
Es scheint, dass einige Domains in deiner URL-Liste keine robots.txt-Dateien haben
Bitte gib eine gültige URL ein
Some of user agents have invalid or non-standard name
Invalid or non-standard user agent name
More than 100 URLs
Ergebnisse
URL
Bot
Deine robots.txt-Datei

Teste deine Robots.txt, sitemap.xml, um mögliche Crawling-Probleme zu finden

Detaillierte und leicht zu befolgende Tipps anzeigen

Website audit

Wie liest man eine Robots.txt-Datei?

User-agent
Allow
Disallow
User-agent
Diese Direktive identifiziert eine spezifische Spinne (oder alle Webcrawler), auf die die vorgeschriebenen Regeln zutreffen. Jede Suchmaschine hat ihren eigenen Bot: Google hat Googlebot, Bing hat Bingbot und Yahoo! hat Slurp. Die meisten Suchmaschinen haben mehrere Spinnen für ihren regulären Index, Werbeprogramme, Bilder, Videos usw. Der Robots.txt-Validator zeigt, welche Crawler deine Website-Inhalte anfordern können oder nicht.
Allow
Diese Direktive gibt an, auf welche Website-Dateien, Kategorien und Seiten die bestimmten Crawler zugreifen dürfen. Wenn kein Pfad angegeben ist, wird die Direktive ignoriert. Sie wird verwendet, um die Disallow-Direktive zu kontern, um den Zugriff auf eine Seite oder Datei in einem verbotenen Verzeichnis zu erlauben. Der Robots.txt-Tester zeigt dir, auf welche Seiten Bots zugreifen können.
Disallow
Diese Direktive wird zu Robots.txt hinzugefügt, um zu verhindern, dass Suchmaschinen spezifische Website-Dateien und URLs crawlen. Du kannst interne und Dienstdateien ausschließen, beispielsweise einen Ordner mit Benutzerdaten, die bei der Registrierung angegeben wurden. Das Tool zeigt, welche der eingegebenen Seiten nicht zum Crawlen zugelassen sind.

Wie verwendet man unseren Online Robots.txt Tester?

Wir haben den Robots.txt-Tester erstellt, damit jeder schnell seine Datei überprüfen kann. Um unser Tool zu verwenden, füge die notwendigen URLs in das Eingabefeld ein und klicke auf "Überprüfe deine Robots.txt". Als Ergebnis erfährst du, ob bestimmte Seiten erlaubt oder vom Crawlen blockiert sind. Eine URL wird in Rot hervorgehoben, wenn sie vom Crawlen blockiert ist, und in Grün, wenn die Seite von Bots gecrawlt werden darf. Außerdem zeigt das Tool die Robots.txt-Datei für jede eingegebene Domain (wenn du das Kästchen "Zeige die Robots.txt-Datei" ankreuzt).
Häufig gestellte Fragen

Warum ist eine Robots.txt-Datei notwendig?

Robots.txt-Dateien geben Suchmaschinen wichtige Informationen über das Crawlen von Dateien und Webseiten. Diese Datei wird hauptsächlich verwendet, um den Crawler-Verkehr auf deiner Website zu verwalten, um zu vermeiden, dass deine Site mit Anfragen überlastet wird.

Du kannst zwei Probleme damit lösen:

  • Erstens, die Wahrscheinlichkeit reduzieren, dass bestimmte Seiten gecrawlt werden, einschließlich der Indexierung und des Erscheinens in den Suchergebnissen.
  • Zweitens, das Crawling-Budget sparen, indem Seiten geschlossen werden, die nicht indexiert werden sollten.

Wenn du jedoch verhindern möchtest, dass eine Seite oder ein anderes digitales Asset in der Google-Suche erscheint, wäre eine zuverlässigere Option, das no-index-Attribut zum Robots-Meta-Tag hinzuzufügen.

Wie stellt man sicher, dass die robots.txt einwandfrei funktioniert?

Eine schnelle und einfache Methode, um sicherzustellen, dass deine robots.txt-Datei richtig funktioniert, ist die Verwendung spezieller Tools.

Du kannst beispielsweise deine robots.txt mit unserem Tool validieren: Gib bis zu 100 URLs ein, und es wird dir zeigen, ob die Datei das Crawlen bestimmter URLs auf deiner Website blockiert.

Um schnell Fehler in der robots.txt-Datei zu erkennen, kannst du auch die Google Search Console verwenden.

Häufige Probleme mit robots.txt

  • Die Datei ist nicht im .txt-Format. In diesem Fall können Bots deine robots.txt-Datei aufgrund des Formatfehlers nicht finden und crawlen.
  • Robots.txt befindet sich nicht im Stammverzeichnis. Die Datei muss im obersten Verzeichnis der Website abgelegt werden. Befindet sie sich in einem Unterordner, ist deine robots.txt-Datei wahrscheinlich für Such-Bots nicht sichtbar. Um dieses Problem zu beheben, verschiebe deine robots.txt-Datei in dein Stammverzeichnis.

In der Disallow-Direktive musst du bestimmte Dateien oder Seiten angeben, die nicht in den SERPs erscheinen sollen. Sie kann zusammen mit der User-agent-Direktive verwendet werden, um die Website für einen bestimmten Crawler zu blockieren.

  • Disallow ohne Wert. Eine leere Disallow-Direktive teilt den Bots mit, dass sie alle Seiten der Website besuchen können.
  • Disallow ohne Wert. Eine leere Disallow-Direktive teilt den Bots mit, dass sie alle Seiten der Website besuchen können.
  • Leere Zeilen in der robots.txt-Datei. Lasse keine leeren Zeilen zwischen den Abweisungen. Andernfalls können Bots die Datei nicht richtig crawlen. Eine leere Zeile in der robots.txt-Datei sollte nur vor der Angabe eines neuen User-agent platziert werden.

Best Practices für robots.txt

  1. Verwende die korrekte Schreibweise in robots.txt. Bots behandeln Ordner- und Abschnittsnamen als groß- und kleinschreibungsempfindlich. Wenn ein Ordnername mit einem Großbuchstaben beginnt, wird dessen Benennung mit einem Kleinbuchstaben den Crawler verwirren und umgekehrt.
  2. Jede Anweisung muss auf einer neuen Zeile beginnen. Es darf nur ein Parameter pro Zeile stehen.
  3. Die Verwendung von Leerzeichen am Anfang einer Zeile, Anführungszeichen oder Semikolons für Anweisungen ist strengstens untersagt.
  4. Es ist nicht notwendig, jede Datei aufzulisten, die du von Crawlers blockieren möchtest. Du musst nur einen Ordner oder ein Verzeichnis in der Disallow-Direktive angeben, und alle Dateien aus diesen Ordnern oder Verzeichnissen werden ebenfalls vom Crawling ausgeschlossen.
  5. Du kannst reguläre Ausdrücke verwenden, um eine robots.txt mit flexibleren Anweisungen zu erstellen.
    • Der Asterisk (*) zeigt eine beliebige Wertvariation an.
    • Das Dollarzeichen ($) ist eine Asterisk-artige Einschränkung, die auf Website-URL-Adressen angewendet wird. Es wird verwendet, um das Ende des URL-Pfades anzugeben.
  6. Verwende serverseitige Authentifizierung, um den Zugriff auf private Inhalte zu blockieren. So kannst du sicherstellen, dass wichtige Daten nicht gestohlen werden.
  7. Verwende eine robots.txt-Datei pro Domain. Wenn du Crawling-Richtlinien für verschiedene Sites festlegen musst, erstelle eine separate robots.txt für jede davon.

Andere Möglichkeiten, deine robots.txt-Datei zu testen

Du kannst deine robots.txt-Datei mit dem Google Search Console-Tool analysieren.

Dieser robots.txt-Tester zeigt dir, ob deine robots.txt-Datei Google-Crawler daran hindert, auf bestimmte URLs auf deiner Website zuzugreifen. Das Tool ist in der neuen Version von GSC nicht verfügbar, aber du kannst darauf zugreifen, indem du diesen Link anklickst.

Wähle deine Domain aus, und das Tool zeigt dir die robots.txt-Datei, ihre Fehler und Warnungen.

Gehe zum unteren Rand der Seite, wo du die URL einer Seite in das Textfeld eingeben kannst. Das Ergebnis ist, dass der robots.txt-Tester überprüft, ob deine URL ordnungsgemäß blockiert wurde.

Was sollte in einer robots.txt-Datei stehen?

Robots.txt-Dateien enthalten Informationen, die Crawlern Anweisungen geben, wie sie mit einer bestimmten Site interagieren sollen. Es beginnt mit einer User-agent-Direktive (Anweisung), die den Suchbot spezifiziert, auf den die Regeln anwendbar sind. Dann solltest du Direktiven angeben, die bestimmte Dateien und Seiten für Crawler erlauben und blockieren. Am Ende einer robots.txt-Datei kannst du optional einen Link zu deiner Sitemap hinzufügen.

Können Bots robots.txt ignorieren?

Crawler beziehen sich immer auf eine vorhandene robots.txt-Datei, wenn sie eine Website besuchen. Obwohl die robots.txt-Datei Regeln für Bots bereitstellt, kann sie die Anweisungen nicht durchsetzen. Die robots.txt-Datei selbst ist eine Liste von Richtlinien für Crawler – keine strikten Regeln. Daher können Bots in einigen Fällen diese Anweisungen ignorieren.

Wie repariert man robots.txt?

Eine robots.txt-Datei ist ein Textdokument. Du kannst die aktuelle Datei über einen Texteditor ändern und dann wieder zum Stammverzeichnis der Website hinzufügen. Darüber hinaus haben viele CMS, einschließlich WordPress, verschiedene Plugins, die es ermöglichen, Änderungen an der robots.txt-Datei vorzunehmen – du kannst dies direkt vom Admin-Dashboard aus tun.