Die robots.txt erklärt:
Eine robots.txt Datei ist eine einfache .txt-Datei in der UTF-8 Kodierung. Die Datei gibt den Suchrobotern / Bots die Empfehlung, welche Seiten / Dateien sie crawlen soll und welche nicht. Falls die robots.txt Symbole enthält, die nicht in UTF-8 kodiert sind, kann der Bot diese falsch interpretieren und bearbeiten.
Alle Regeln, die in der robots.txt aufgezählt sind, gelten nur für den Server auf der sie liegt. Die Datei sollte sich in dem Kernkatalog des Servers befinden. Beispielsweise so: http://seo-kueche.de/robots.txt. Die Dateigröße darf nicht mehr als 500 kB (laut Google) sein.
Wie funktioniert die robots.txt?
Bei der Bearbeitung der Anweisungen in der robots.txt, bekommen die Suchroboter eine von drei Instruktionen:
2xx – Die Anfrage war erfolgreich. Die Antwort enthält je nach Abfragemethode die angeforderten Daten.
3xx – Umleitung. Der Suchroboter folgt nach der Umleitung solange, bis er andere Antwort bekommen wird. Meistens gibt es fünf Versuche, damit der Roboter die Antwort bekommen hat, ausgehend von der Antwort 3xx, dann wird es als der Fehler 404 registriert.
4xx – Client-Fehler. Der Crawler versteht das so, dass er den ganzen Inhalten der Webseite scannen darf.
5xx – Server-Fehler. Diese Fehler werden als vorübergehende Fehler des Servers bewertet. Das Scannen wird vollständig verboten. Der Bot wird sich Datei solange zuwenden, bis er eine andere Antwort bekommen wird. Der Google-Bot kann selbst bestimmen, ob die Rückmeldung der fehlenden Seite korrekt eingerichtet ist oder nicht. Das bedeutet, wenn die Seite den Status-Code 5xx anstatt 404 gibt, dann wird die Seite mit dem Status-Code 404 bearbeitet werden.
Wozu braucht man eine robots.txt überhaupt?
Eine robotos.txt Datei braucht eigentlich jede Website um:
- Dem Crawler zu helfen, die Sitemap.xml zu finden
- Die Suchmaschine daran zu hindern, bestimmte Verzeichnisse, Scripte etc. zu erreichen
- Doppelte Inhalte nicht zu indexieren (z.B. Druckversion von HTML-Dateien)
Wichtig zu wissen: Wenn Ihr in der robots.txt eine bestimmte Seite vom Index ausgeschlossen habt, bedeutet es nicht 100%, dass diese Seite in den Suchergebnissen nicht erscheint. Es kann passieren, dass wenn eine andere Seite auf diese Seite verweist, dass diese Seite in den index kommt. Um das zu vermeiden, kann man die Seite mit Meta Tag: <META NAME=“ROBOTS“ CONTENT=“NOINDEX,FOLLOW“> bezeichnen.
So sieht der Google-Bot eine Website mit und ohne robots.txt:
Die wichtigsten Regeln und Befehle, die eine robots.txt enthalten kann
User-agent – bezeichnet, welcher Roboter die Instruktionen durchsehen muss, die in der robots.txt beschrieben sind.
Disallow – gibt die Empfehlung, welche Info / Seite / Verzeichnis der Robot nicht scannen braucht.
Sitemap – sagt dem Roboter, dass alle URLs die indexiert werden sollen, sich unter befinden
Crawl-delay – der Kennwert, mit dessen Hilfe man den Zeitraum bezeichnen kann, durch den die Seiten der Website gescannt werden können.
Allow – gibt die Empfehlungen, welcher Info / Seite / Verzeichnis der Robot scannen darf.
Fazit:
Mit Hilfe einer robots.txt Datei kann man die Indexierung von jeweiligem Pfad, Seite, Element etc. steuern. Eine korrekte und professionelle Erstellung und Einrichtung einer robots.txt ist sehr wichtig für den Erfolg der Webseite.
Titelbild © devenorr – stock.adobe.com
Thilo
Schöne Aufbereitung von euch. Viele Webmaster machen heutzutage noch den Fehler, bereits Indexiertes, was nicht indexiert werden soll, hastig über die robots.txt vom Crawling auszuschließen. Dadurch bleibt es natürlich erst recht drin.
nofollow first, dann Aussschluss über robots.txt ist das Verfahren, wie es richtig ist. Wobei ich da auch schon Seiten wiederkehren sehen habe, da sie – ich weiß es nicht – von zig anderen Domains so stark angelinkt worden sind, dass Google sich weigert…