Robots.txt Generator
Überprüfe deine robots.txt, sitemap.xml und andere Crawling-Probleme
Wofür wird robot.txt verwendet?
Wenn ein Suchbot deine Website besucht, bittet er zunächst um Erlaubnis, sie zu crawlen, indem er versucht, die robots.txt-Datei abzurufen, die sich im Hauptverzeichnis befindet.
Da die robots.txt-Datei Informationen darüber enthält, wie Suchmaschinen deine Website crawlen sollen, kannst du sie nutzen, um Bots daran zu hindern, bestimmte Teile deiner Website zu crawlen, und um Suchmaschinen hilfreiche Tipps zu geben, wie sie deine Seiten, Dateien und Abschnitte am besten crawlen können.
Robots.txt ist öffentlich zugänglich. Du kannst diese Textdatei einsehen, indem du https://yourwebsite/robots.txt in die Adressleiste eingibst.
Robots.txt-Syntax
Die robots.txt-Syntax besteht aus Richtlinien, Parametern und Sonderzeichen. Wenn du willst, dass die Datei richtig funktioniert, solltest du bei der Erstellung einer robots.txt-Datei bestimmte inhaltliche Anforderungen einhalten:
1. Jede Richtlinie muss in einer neuen Zeile beginnen. Es kann nur einen Parameter pro Zeile geben.
Disallow: /folder1/
Disallow: /folder2/
2. In der robots.txt wird zwischen Groß- und Kleinschreibung unterschieden. Wenn zum Beispiel der Name eines Website-Ordners groß geschrieben wird, aber in der robots.txt-Datei klein geschrieben ist, kann das die Crawler verwirren.
3. Du kannst keine Anführungszeichen, Leerzeichen am Zeilenanfang oder Semikolons nach den Zeilen verwenden.
Disallow: /“folder2”/
Disallow: /folder2/
Wie verwendet man die Disallow-Direktive richtig?
Sobald du die User-Agent-Direktive ausgefüllt hast, solltest du das Verhalten bestimmter (oder aller) Bots festlegen, indem du Crawl-Anweisungen hinzufügst. Hier sind einige wichtige Tipps:
1. Lass die Disallow-Direktive nicht ohne einen Wert. In diesem Fall wird der Bot den gesamten Inhalt der Website crawlen.
Disallow: – Erlauben, die gesamte Website zu crawlen
2. Du musst nicht jede Datei auflisten, die du für das Crawling sperren willst. Es reicht, wenn du den Zugriff auf einen Ordner verbietest, damit alle Dateien darin vom Crawlen und Indexieren ausgeschlossen werden.
Disallow: /folder/
3. Blockiere den Zugriff auf die Website nicht mit dieser Richtlinie:
Disallow: / – Zugriff auf die gesamte Website blockieren
Andernfalls kann die Seite komplett aus den Suchergebnissen entfernt werden.
Außerdem solltest du sicherstellen, dass wichtige Seiten deiner Website nicht für das Crawling gesperrt werden: die Startseite, Landing Pages, Produktkarten usw. Mit dieser Richtlinie solltest du nur Dateien und Seiten angeben, die nicht in den SERPs erscheinen sollen.
Hinzufügen deiner Sitemap zur robots.txt-Datei
Falls nötig, kannst du deine Sitemap zur robots.txt-Datei hinzufügen. Das erleichtert es den Bots, den Inhalt der Website zu crawlen. Die Sitemap-Datei befindet sich unter http://your website/sitemap.xml. Du musst eine Direktive mit der URL deiner Sitemap hinzufügen, wie unten gezeigt:
User-agent: *
Disallow: /folder1/
Allow: /image1/
Sitemap: https://your-site.com/sitemap.xml
Wie übermittle ich eine robots.txt-Datei an Suchmaschinen?
Du musst keine robots.txt-Datei an die Suchmaschinen übermitteln. Wenn Crawler eine Website besuchen, bevor sie sie crawlen, suchen sie nach einer robots.txt-Datei. Und wenn sie eine finden, lesen sie diese Datei zuerst, bevor sie deine Website scannen.
Wenn du gleichzeitig Änderungen an der robots.txt-Datei vorgenommen hast und Google darüber informieren möchtest, kannst du deine robots.txt-Datei an die Google Search Console senden. Verwende den Robots.txt-Tester, um die Textdatei einzufügen und klicke auf Senden.
Wie definiert man den User-Agent?
Wenn du die robots.txt erstellst und Crawling-Regeln konfigurierst, solltest du den Namen des Bots angeben, dem du Crawling-Anweisungen gibst. Das kannst du mit Hilfe der User-agent-Direktive tun.
Wenn du allen Crawlern den Zugriff auf bestimmte Inhalte verwehren oder erlauben willst, kannst du das tun, indem du * (Sternchen) als User-Agent angibst:
User-agent: *
Oder du möchtest, dass alle deine Seiten in einer bestimmten Suchmaschine erscheinen, zum Beispiel in Google. In diesem Fall verwendest du den Googlebot User-agent wie folgt:
User-agent: Googlebot
Denke daran, dass jede Suchmaschine ihre eigenen Bots hat, die sich im Namen von der Suchmaschine unterscheiden können (z.B. Yahoos Slurp). Außerdem haben einige Suchmaschinen je nach Crawl-Ziel mehrere Crawler. Google zum Beispiel hat neben seinem Haupt-Crawler Googlebot noch weitere Bots:
- Der Googlebot News kriecht durch die Nachrichten;
- Google Mobile crawlt mobile Seiten;
- Googlebot Video-crawlt Videos;
- Googlebot Bilder – durchforstet Bilder;
- Google AdSense durchforstet Websites, um den Inhalt zu ermitteln und relevante Anzeigen zu schalten.
Wie verwende ich die Allow-Direktive richtig?
Die Allow-Direktive wird verwendet, um der Disallow-Direktive entgegenzuwirken. Wenn du die Allow- und Disallow-Richtlinien zusammen verwendest, kannst du Suchmaschinen mitteilen, dass sie auf einen bestimmten Ordner, eine Datei oder eine Seite in einem ansonsten verbotenen Verzeichnis zugreifen können.
Disallow: /album/ – Suchmaschinen ist der Zugriff auf das Verzeichnis /album/ nicht gestattet
Allow: /album/picture1.jpg – aber sie dürfen auf die Datei picture1 des Verzeichnis /album/
Mit dieser Direktive solltest du auch wichtige Website-Dateien angeben: Skripte, Styles und Bilder. Zum Beispiel:
Allow: */uploads
Allow: /wp-/*.js
Allow: /wp-/*.css
Allow: /wp-/*.png
Allow: /wp-/*.jpg
Allow: /wp-/*.jpeg
Allow: /wp-/*.gif
Allow: /wp-/*.svg
Allow: /wp-/*.webp
Allow: /wp-/*.pdf
Wie füge ich die generierte robots.txt-Datei zu deiner Website hinzu?
Suchmaschinen und andere Crawling-Bots suchen nach einer robots.txt-Datei, wenn sie eine Website besuchen. Aber sie suchen nur an einem bestimmten Ort nach dieser Datei – dem Hauptverzeichnis. Nachdem du also die robots.txt-Datei erstellt hast, solltest du sie zum Hauptverzeichnis deiner Website hinzufügen. Du findest sie unter https://your-site.com/robots.txt.
Wie du eine robots.txt-Datei hinzufügst, hängt von dem Server und dem CMS ab, das du verwendest. Wenn du keinen Zugriff auf das Stammverzeichnis hast, wende dich an deinen Webhosting-Anbieter.