Skip to main content

Warum die robots.txt so wichtig ist

  • SEO-Küche Logo


PDF herunterladen

Die robots.txt erklärt:

Eine robots.txt Datei ist eine einfache .txt-Datei in der UTF-8 Kodierung. Die Datei gibt den Suchrobotern / Bots die Empfehlung, welche Seiten / Dateien sie crawlen soll und welche nicht. Falls die robots.txt Symbole enthält, die nicht in UTF-8 kodiert sind, kann der Bot diese falsch interpretieren und bearbeiten.

Alle Regeln, die in der robots.txt aufgezählt sind, gelten nur für den Server auf der sie liegt. Die Datei sollte sich in dem Kernkatalog des Servers befinden. Beispielsweise so: https://www.seo-kueche.de/robots.txt. Die Dateigröße darf nicht mehr als 500 kB (laut Google) sein.

robots.txt-defintion-titel

Wie funktioniert die robots.txt?

Bei der Bearbeitung der Anweisungen in der robots.txt, bekommen die Suchroboter eine von drei Instruktionen:

2xx – Die Anfrage war erfolgreich. Die Antwort enthält je nach Abfragemethode die angeforderten Daten.

3xx – Umleitung. Der Suchroboter folgt nach der Umleitung solange, bis er andere Antwort bekommen wird. Meistens gibt es fünf Versuche, damit der Roboter die Antwort bekommen hat, ausgehend von der Antwort 3xx, dann wird es als der Fehler 404 registriert.

4xx – Client-Fehler. Der Crawler versteht das so, dass er den ganzen Inhalten der Webseite scannen darf.

5xx – Server-Fehler. Diese Fehler werden als vorübergehende Fehler des Servers bewertet. Das Scannen wird vollständig verboten. Der Bot wird sich Datei solange zuwenden, bis er eine andere Antwort bekommen wird. Der Google-Bot kann selbst bestimmen, ob die Rückmeldung der fehlenden Seite korrekt eingerichtet ist oder nicht. Das bedeutet, wenn die Seite den Status-Code 5xx anstatt 404 gibt, dann wird die Seite mit dem Status-Code 404 bearbeitet werden.

Wozu braucht man eine robots.txt überhaupt?

Eine robotos.txt Datei braucht eigentlich jede Website um:

  • Dem Crawler zu helfen, die Sitemap.xml zu finden
  • Die Suchmaschine daran zu hindern, bestimmte Verzeichnisse, Scripte etc. zu erreichen
  • Doppelte Inhalte nicht zu indexieren (z.B. Druckversion von HTML-Dateien)

Wichtig zu wissen: Wenn Ihr in der robots.txt eine bestimmte Seite vom Index ausgeschlossen habt, bedeutet es nicht 100%, dass diese Seite in den Suchergebnissen nicht erscheint. Es kann passieren, dass wenn eine andere Seite auf diese Seite verweist, dass diese Seite in den index kommt. Um das zu vermeiden, kann man die Seite mit Meta Tag: <META NAME=“ROBOTS“ CONTENT=“NOINDEX,FOLLOW“> bezeichnen.

So sieht der Google-Bot eine Website mit und ohne robots.txt:

robots.txt-erklärung-bild

Die wichtigsten Regeln und Befehle, die eine robots.txt enthalten kann

User-agent – bezeichnet, welcher Roboter die Instruktionen durchsehen muss, die in der robots.txt beschrieben sind.

Disallow – gibt die Empfehlung, welche Info / Seite / Verzeichnis der Robot nicht scannen braucht.

Sitemap – sagt dem Roboter, dass alle URLs die indexiert werden sollen, sich unter befinden

Crawl-delay – der Kennwert, mit dessen Hilfe man den Zeitraum bezeichnen kann, durch den die Seiten der Website gescannt werden können.

Allow – gibt die Empfehlungen, welcher Info / Seite / Verzeichnis der Robot scannen darf.

Fazit:

Mit Hilfe einer robots.txt Datei kann man die Indexierung von jeweiligem Pfad, Seite, Element etc. steuern. Eine korrekte und professionelle Erstellung und Einrichtung einer robots.txt ist sehr wichtig für den Erfolg der Webseite.

Titelbild © devenorr stock.adobe.com

Kommentare

Schöne Aufbereitung von euch. Viele Webmaster machen heutzutage noch den Fehler, bereits Indexiertes, was nicht indexiert werden soll, hastig über die robots.txt vom Crawling auszuschließen. Dadurch bleibt es natürlich erst recht drin.
nofollow first, dann Aussschluss über robots.txt ist das Verfahren, wie es richtig ist. Wobei ich da auch schon Seiten wiederkehren sehen habe, da sie – ich weiß es nicht – von zig anderen Domains so stark angelinkt worden sind, dass Google sich weigert…

Hallo und guten Morgen. Ich habe gerade mit grossen Interesse eure Seite über das Thema "Robots.Txt" gelesen, da ich mich im Augenblick damit befasse. Auch wenn der Artikel gut und einfach geschrieben ist, raucht mir zugegeben etwas der Kopf. Das Problem ist, dass bei meiner Uralt-Website (19 Jahre)
fast alle Unterseiten in GOOGLE ein ausgezeichnetes Ranking haben , fast alle auf Seite 1 în Top-Positionen jedoch die eigentliche Startseite einfach nicht nach vorne kommt, obwohl diese bezüglich SEO mit Abstand am besten optimiert ist. Ich kann machen was ich will. Sie geistert stets zwischen Position 45-60 herum.
Nun habe ich die Vermutung, dass eventuell die Robots.txt aufgrund falscher Konfiguration daran eine Mitschuld haben könnte. (Diese wurde nicht von mir, sondern von jemand anders erstellt)
Zur Zeit sieht diese wie folgt aus:

user-agent: *
Disallow:

Sitemap: http:// www. ( name website) .ch/sitemap.xml

Das "Disallow" irritiert mich nun etwas. Bedeutet dies nun, dass der Crawler die sitemap.xml NICHT (!) besuchen bzw. crawlen soll, )was vielleicht Einiges erklären würde) oder soll er die Sitemap.xml besuchen und sich an dieser orientieren?
Herzliche nDank für ein Feedback.
MfG.
Pascal

Hallo Pascal, vielen Dank für deinen Beitrag. Zu deiner Frage:

An deiner robots.txt wird es nicht liegen. Da nach „Disallow:“ nichts aufgeführt ist, haben die Crawler auch keine Einschränkungen. Das bedeutet also, die Crawler können sich auf deiner Seite frei bewegen.
Wenn die Startseite beispielsweise über die robots.txt ausgeschlossen wäre, so wären auch sämtliche Unterseiten für den Crawler ausgeschlossen, da dieser sich über die internen Verlinkungen von Seite zu Seite vorarbeitet.
Die Sitemap dient dem Crawler, wie du schon richtig sagst, als Orientierungshilfe, damit dieser den Aufbau der Seite besser verstehen kann, um so deine Inhalte besser finden zu können.
Eine mögliche Begründung für dein derzeitiges Ranking könnte der starke Wettbewerb für das jeweilige Keyword sein.


Hast du eine Frage oder Meinung zum Artikel? Schreib uns gerne etwas in die Kommentare.

Ihre E-Mail Adresse wird nicht veröffentlicht

Jetzt den SEO-Küche-Newsletter abonnieren

Ähnliche Beiträge

Person zeigt auf ein digitales Sicherheitssymbol, umgeben von Icons für Webanalyse und Tracking

Was ohne Cookies noch messbar ist und wie man es nutzt

  • michael magura
  • von Michael Magura
  • 16.02.2026

Die technischen Rahmenbedingungen für die Webanalyse haben sich im Laufe der letzten Jahre grundlegend geändert. Restriktive Browser-Einstellungen und strenge Datenschutzvorgaben sorgen dafür, dass klassische Analysen oft nur einen Bruchteil der tatsächlichen Customer Journey erfassen. Für KMU führt dieser Signalverlust zu einer verzerrten Datenbasis und fehlerhaften Budgetplanung, da erfolgreiche Kampagnen im […]

Person arbeitet an einem Laptop, während digitale Symbole für Datenanalyse und Marketingmetriken auf dem Bildschirm angezeigt werden

Eigene Daten nutzen: einfache Zielgruppen und Signale

  • michael magura
  • von Michael Magura
  • 09.02.2026

Wer 2026 Marketing-Entscheidungen trifft, verlässt sich meist auf lückenhafte Daten, denn Browser wie Safari oder Firefox löschen Tracking-IDs durch Mechanismen wie ITP (Intelligent Tracking Prevention). Gelangt ein Nutzer über eine Anzeige auf Ihre Webseite, wird die notwendige Verknüpfung (Click-ID) oft nach 24 Stunden gelöscht. Kurzum: Klickt Ihr Kunde heute, kauft […]

Roboter analysiert Markenimage mit Lupe, Social-Media-Symbolen und Dashboard zur digitalen Markenbewertung

Markenbild unter KI-Einfluss: So werden Sie von ChatGPT & Co. wahrgenommen

  • Stephanie
  • von Stephanie Göckeler
  • 02.02.2026

Wenn heute jemand Ihre Marke kennenlernen möchte, landet er immer seltener direkt auf Ihrer Website, sondern stellt seine Frage an ein KI-System wie ChatGPT, Copilot oder den KI-Modus von Google. Diese Systeme beantworten Fragen nicht mit einem einzelnen Link, sondern mit einem verdichteten Bild Ihrer Marke, das aus sehr vielen […]

Scrabble-Buchstaben mit dem Wort „Data“ als Symbol für Webanalyse und Datenverarbeitung

Einwilligungen klug gestalten: mehr Zustimmung, saubere Daten

  • michael magura
  • von Michael Magura
  • 02.02.2026

In der Standard-Webanalyse gehen durch Datenschutzvorgaben und restriktive Browser-Einstellungen oft 30 bis 60 Prozent der Nutzerdaten verloren. Dieser Signalverlust führt zu einer verzerrten Datenbasis, da insbesondere datenschutzbewusste Nutzergruppen in der Statistik fehlen. Werden Einwilligungsprozesse rein nach rechtlichen Mindeststandards oder durch manipulative Designs gestaltet, resultiert dies oft in lückenhaften Statistiken und […]

Frau arbeitet mit einem Roboter in einem modernen Büro, der an einem Computer sitzt.

Schnell KI-gestützte Posts und Videos erstellen

  • Luisa Losereit, Online-Marketing-Beraterin (Onpage)
  • von Luisa Losereit
  • 26.01.2026

Wer Videos für Posts auf Plattformen wie LinkedIn oder Instagram auf herkömmlichem Wege erstellen möchte, scheitert meist am hohen Zeitaufwand. Klassische Produktionsabläufe – vom Skript über den Dreh bis hin zu Schnittarbeiten und Untertitelung – blockieren Ressourcen über Tage hinweg. Diese linearen und aufwendigen Prozesse verhindern, dass Unternehmen aktuelle Inhalte […]

Laptop mit holographischem Gehirn als Symbol für KI-Schreibassistenten

KI als Schreibassistent – Qualität sichern und Leitplanken setzen

  • Luisa Losereit, Online-Marketing-Beraterin (Onpage)
  • von Luisa Losereit
  • 19.01.2026

Die Nutzung von KI-Schreibassistenten führt Unternehmen zu neuen Herausforderungen. Wer KI-Tools zur schnellen Texterstellung nutzt, läuft Gefahr, im digitalen Einheitsbrei unterzugehen. Da die Informationsflut steigt, fordern Nutzer und Suchmaschinen mehr denn je echten Mehrwert. Um sich vom Wettbewerb abzuheben, reicht es nicht, die KI „schreiben“ zu lassen. Echte Qualität entsteht […]