Skip to main content

Crawling Budget und 404 vs. 410

  • Geschrieben von SEO-Küche am 26.05.2014

PDF herunterladen

404 FehlerZum Wochenstart eine kleine Auffrischung in Sachen Crawling Budget und 404 vs. 410. Nicht die spannendste Schlagzeile (im Gegensatz zu Panda 4.0 in der letzten Woche) aber eine häufige Quelle für SEO-Fehler, die eigentlich sehr einfach ausgemerzt werden können.

Um was geht es? Um das Crawling Budget und dessen Verbindung mit 404 bzw. 410 Fehlercodes.

Das Crawling Budget
Googles Crawler indexieren alle deine Unterseiten – aber nicht alle Unterseiten sofort. Jede Domain bekommt, je nach PageRank, ein Crawling-Budget zugewiesen. Dieses legt fest, wie viele Unterseiten gecrawlt werden. Seiten mit einem hohem PageRank bekommen mehr Budget zugewiesen. Wichtig: Das Crawling-Budget ist nicht gleich dem Index-Budget. Dieses legt fest, wie viele Seiten indexiert werden können. Logisch ist das Index-Budget dem Crawling-Budget nachgestellt: erst wird gecrawlt, dann indexiert.

Bildlich gesprochen: Im Internetland gibt es viele viele Häuser (= Domains). Google entsendet Inspekteure (= Crawler) in diese Häuser um die einzelnen Zimmer (= Unterseiten) anzuschauen und zu indexieren. Die Inspekteure gehen aber nicht wahllos von Haus zu Haus, sondern bevorzugen die bekannten, tollen Häuser (= Seiten mit einem hohem PageRank). Weniger schöne Häuser bekommen auch weniger Besuch von den Inspekteuren und diese haben dann auch weniger Zeit alle Zimmer anzuschauen (= Crawling Budget). Und es ist natürlich unschön, wenn ein Inspekteur einen Raum anschauen will, dort aber nichts zu finden ist (= 404-Fehler). Seine Zeit hätte er auch für Räume benutzen können, in denen etwas steht. Steht an der Tür aber so etwas wie „Hier ist nichts drin“ (= 410-Code), wird der Inspekteur direkt zur nächsten Türe gehen ohne seine Zeit zu verschwenden.

410-Code und weitere Möglichkeiten Budget zu sparen.
Ok, genug der Bildsprache. Hat eine Domain eine 404-Fehlerseite, ist das einfach ärgerlich. Bleibt dieser 404-Code bestehen, wird der Crawler immer wieder auf die Seite kommen um nachzuschauen ob sich etwas auf der Seite geändert hat. Weiß man aber, dass die Seite permanent leer bleiben wird, dann zeichnet man die Seite mit einem 410-Code aus. In Zukunft wird sich der Crawler also nicht mehr die Mühe machen, diese Seite anzuschauen – sondern seine Zeit für tatsächlich existierende Seiten aufbrauchen.

Um das Crawling-Budget effektiv einzusetzen, ist es ratsam, unwichtige Seiten wie Kontaktformulare, das Impressum (meines Erachtens) etc. mit Hilfe der robots.txt auszuschließen. Seiten die unbedingt gecrawlt werden sollen, verlinkt man intern stark und versucht für diese, Backlinks zu generieren.

Welche Seiten gecrawlt werden sollen und welche eher nicht, ist von der Art der Webseite abhängig: Im B2B-Bereich ist das Impressum häufig gut besucht, ebenso wie Kontaktformulare: Eine Sperrung mit robots.txt wäre hier nicht sinnvoll, da diese Seiten häufig Leads generieren. Ein Online-Shop hingegen, hat andere URLs als das Impressum, mit denen er Konversionen erzielt: hier würde es Sinn machen, das Impressum einfach im Footer zu verlinken, aber ansonsten zu sperren.

Eine ordentliche XML-Sitemap, in der die wichtigsten Seiten ausgezeichnet werden sowie eine möglichst flache Seitenarchitektur helfen dem Crawler, sich schneller zurecht zu finden. Bleibt die eigene Seite dauerhaft konstant, wird also nicht regelmäßig neuer Content eingestellt, Stichwort “Freshness Update”, reduziert Google den Besuch von Crawlern auf der Seite.

P.S.: Es gibt Hinweise darauf, dass der Google Browser Chrome tatsächlich ein Google Crawler-Bot ist. Ein Hinweis findet ihr hier, einen anderen hier. Ich werde mal schauen, was da dran ist und halte euch auf dem Laufenden…

Kommentare

Servus Tilmann,

danke für deinen interessanten Beitrag. Insbesondere finde ich den Ansatz mit 410 statt 404 sehr interessant. Wo ich allerdings widersprechen muss ist der Punkt mit der Sperrung von Impressum, Kontaktformular, etc via robots.txt. Diese Seiten sind i.d.R. stark intern verlinkt und erhalten somit viel Linkjuice. Sperrt man diese nun über die robots.txt, kommt der Crawler dort natürlich immer noch hin, liest die Seiten aber nicht und folgt letztendlich auch nicht den dort befindlichen Links. Hierdurch wird Linkjuice verschwendet und auf das Crawlbudget hat es keinen Effekt.

Viele Grüße

Tobias

Tilmann Klosa

Servus Tobi,

danke für dein Kommentar. Du hast Recht, ich möchte aber einschränken: Ja, vor allem im B2B-Bereich sind Impressum o.ä. stark verlinkt und nützlich für die Kundenakquise. Bei Online-Shops mit mehreren hundert Artikeln, spielt das Impressum aber eine untergeordnete Rolle. Bei komplexeren Dienstleistungen, bspw. die Installation von Solarmodulen, spielt das Kontaktformular eine größere Rolle. Von daher kommt es auf die Art der Webseite und des Konversionsziel an, ob man Impressum/Kontakformular sperrt oder nicht.
Werde den Beitrag aber entsprechend anpassen, danke für den Hinweis!

Grüße
Tilmann


Sie haben eine Frage oder Meinung zum Artikel?

Ihre E-Mail Adresse wird nicht veröffentlicht

Jetzt den SEO-Küche-Newsletter abonnieren

Ähnliche Beiträge

social media recap januar 2021 titel

Social Media Rückblick für Februar 2021

  • von Julia
  • 26.02.2021

Was war in den sozialen Netzwerken im Februar los? Neuer Monat, neue News! Wir haben mal wieder alle wichtigen Neuigkeiten aus der Social Media Welt für Euch zusammengefasst. Yo, Yo, Yo Instagram – Was gibt ́s Neues? Live Streams mit mehreren Teilnehmern Wie lange haben wir bitte auf „Live Groups“ […]

google thin content

Google stellt Beispiele für Thin Content vor

  • von Christoph
  • 19.02.2021

Die vier Arten von Thin Content laut Google Immer wieder werden von Google hochwertige Inhalte empfohlen, um bessere Rankings zu erzielen. Content mit Qualität wird daher immer wichtiger, doch Webseitenbetreiber sollten auch wissen, welche Inhalte von Google als minderwertig betrachtet und daher im schlimmsten Fall sogar abgestraft werden. Google nennt […]

energielabel änderung onlinehandel abmahnung

Achtung, Elektro-Händler: Neue Energielabel ab März

  • von Haendlerbund
  • 12.02.2021

2021 müssen Onlinehändler bei Elektroartikeln aufpassen Jeder kennt die Energielabel, die anzeigen, wie effizient ein Gerät ist. Dabei sind Geräte der Klasse A schon lange nicht mehr das Beste, was man auf dem Markt bekommen kann. Mittlerweile geht die Skala von D bis A+++, wobei man die unteren Klassen kaum […]

social media recap januar 2021 titel

Social Media Rückblick: Januar 2021

  • Leonard
  • von Leonard Reska
  • 09.02.2021

Neues Jahr, Neue Updates! Was war auf Social Media los? Kurz und kompakt: Die wichtigsten Änderungen und Ankündigungen aus der Social Media Welt! Unser Social Media Rückblick. Facebook Facebook optimiert Seiten von Creatoren und Personen des öffentlichen Lebens Facebook schraubt mal wieder an der User Experience! Diesmal im Fokus: Die […]

social media trends 2021 titelbild

Social Media Trends 2021

  • von Julia
  • 04.02.2021

2020 war ein Jahr wie kein anderes! Rund 94% der Deutschen haben 2020 regelmäßig das Internet und Social-Media genutzt – auch die Vielfalt an Social-Media-Kanälen war nie größer!

lokale kampagne google ads title

Mit Lokalen Kampagnen bei Google Ads mehr Ladenbesuche erzielen

  • von Ulrike
  • 29.01.2021

Was sind Lokale Kampagnen? Lokale Kampagnen bei Google Ads ist darauf ausgelegt Ihre Offlineziele wie z.B. Ladenbesuche zu erreichen. Hierbei müssen die Standorte der zu bewerbenden Geschäfte angegeben werden. Dazu kann man entweder das Google My Business-Konto verknüpfen oder Affiliate-Standorte auswählen. Nachdem die Standorte und das Budget festgelegt sind, kann […]