info@seo-kueche.de
Kostenfrei 0800/473288-33

Indexierung und Indexierungsstatus

Was ist Indexierung und wie lautet die Definition dazu? Für eine Antwort gehe ich auf Google.de, gebe das Wort im Suchschlitz ein und es erscheint an erster Stelle „Wikipedia“. Und noch bevor ich auf den Link der riesigen Enzyklopädie klicke, wird mir meine Frage auf technischem Weg eigentlich schon beantwortet! Was steckt nun aber genau dahinter und wie steht das mit der wohl bekanntesten Suchmaschine im Netz in Verbindung?

Schauen wir, was Wikipedia uns als Antwort auf meine Suchanfrage zur Definition der Indexierung sagt:

„Als Indexierung, auch Verschlagwortung oder Verstichwortung, bezeichnet man beim Information Retrieval die Zuordnung von Deskriptoren zu einem Dokument zur Erschließung der darin enthaltenen Sachverhalte. Es lassen sich die kontrollierte Indexierung mit einem Thesaurus oder Schlagwortkatalog bzw. Notationen einer Klassifikation und freie Indexierung bzw. freie Verschlagwortung mit nicht vorgegebenen Deskriptoren unterscheiden. Beim Gemeinschaftlichen Indexieren (auch social oder collaborative tagging) mit Hilfe von Sozialer Software spricht man auch von Tagging anstelle von Indexierung und von Tags anstatt von Deskriptoren.“

(Quelle: http://de.wikipedia.org/wiki/Indexierung

Was hat das nun mit der Indexierung von Webseiten durch Google zu tun?
Eine berechtigte und zugleich leicht zu beantwortende Frage!
Das Internet ist eine permanent wachsende und sich stetig verändernde Informationsumgebung, eine riesige Bibliothek voller dynamischer Bücher. Googles kleine Helfer, die sogenannten Crawler, durchkämmen immer wieder diese Bücher und speichern dabei Informationen zu Wörtern in einer Art Kartei, dem Index, ähnlich wie dem am Ende eines Buches – nur für die komplette Bibliothek.
Diese Wörter sind im allgemeinen als Keywords (Schlüsselwörter, Suchbegriffe) bekannt und für das Auffinden von Informationen unerlässlich.

Indexierungsstatus
Ob mein „Buch“, wir werden es ab diesem Absatz „Internetpräsenz“ oder „Webseite“ nennen, mit all seinen Seiten und Informationen überhaupt gefunden werden kann, sagt uns der Indexierungsstatus von Google, den wir direkt über Googles Webmastertool abrufen können.

Unter dem Menüpunkt „Status → Indexierungsstatus“ erhalten wir eine bis zu 12 Monate zurückreichenden Übersicht aller bei Google indexierten Seiten meiner Internetpräsenz.

Indexierungsstatus

Die steigende Anzahl der indexierten Seiten zeigt uns, dass Google neue Inhalte unserer Internetpräsenz erkannt, also „gecrawlt“ und aufgenommen hat. Ein Einbruch der Werte sind Anzeichen für Serverausfälle, eine zu komplexe interne Verlinkung, so dass es dem Crawler nicht mehr möglich ist, die Seite zeitnah zu durchforsten oder aber es liegt ein Fehler mit der Erreichbarkeit einzelner oder aller Seiten vor.
Eine detailliertere Version der Indexierungsübersicht können wir uns über den Menüpunkt „Erweitert“ anzeigen lassen. Diese Daten verraten uns neben den bereits indexierten Seiten

- die Gesamtsumme aller jemals gecrawlten URLs
- die Zahl der durch die robots.txt blockierten URLs
- die aufgrund eines Antrages bei Google entfernten URLs
- nicht indexierte URLs

Indexierungsstatus

Wie können wir diesen Index nutzen?
Um über Google mehr als nur eine Webseite zu einem bestimmten Thema zu finden, gibt es für den wohl bekanntesten Suchschlitz der Welt ein paar Parameter, die ich hier gerne vorstellen möchte.

Site-Abfrage – site:seo-kueche.de
Mit der Frage „site:seo-kueche.de“ bekommt man eine Aufschlüsselung aller Unterseiten und Subdomains der Domain „seo-kueche.de“. Man kann diese Abfrage jedoch noch mit verschieden Parametern kombinieren:

„site:seo-kueche.de“ zeigt alle Seiten der Domain
„site:seo-kueche.de –www.seo-kueche.de“ zeigt alle Seiten OHNE „www“
„site:seo-kueche.de keyword“ zeigt alle Unterseiten von „seo-kueche.de“ die Google mit „Keyword“ verbindet, die relevanteste ist immer an erster Stelle

Neben der „Site“-Abfrage gibt es aber noch andere nützliche Parameter, mit der wir Google löchern können

„inurl:seo-kueche.de“ blog“ sucht und zeigt im Google-Snippet nach dem Wort „blog“
„allinurl:seo-kueche.de“ blog“ sucht und zeigt URLs in denen „blog“ vorkommt
„allintitle:seo-kueche.de“ blog“ zeigt alle URLs die im Title das Wort „blog“ beinhalten
„cache:seo-kueche.de“ zeigt das letzte bekannte Abbild die Google bekannt ist
„info:seo-kueche.de“ soll Informationen über die Domain zeigen
“define:blog“ gibt Googles Definition des Keyword „blog“ aus

Natürlich gibt es wesentlich mehr Parameter als die hier aufgeführten, die „Site“-Abfragen finde ich jedoch als eine der nützlichsten überhaupt.

Warum ist das Ganze so wichtig?
Ein prominentes Beispiel für die Auswirkungen falscher Indexierung ist der massive Einbruch von Apples iTunes-Seiten. Innerhalb eines kleinen Zeitfensters warfen ca. 46% aller Unterseiten unter der Domain „itunes.apple.com“ einen 403-Fehler aus. 46% entsprechen hierbei ca. 46.000 Seiten! Ab diesem Zeitpunkt war es Google nicht mehr möglich, diese zu crawlen. Die Konsequenz daraus war, das Apples iTunes-Store innerhalb von kürzester Zeit aus den Suchergebnissen verschwand.
Natürlich machten erst die wildesten Gerüchte die Runde, bis es dann einigen SEO”s wie Schuppen von den Augen fiel – ein Blick in den Indexierungsstatus hätte schnell des Rätsels Lösung sein können:

Ein massiver Rückgang indexierter Seiten bedeutet auch den Rückgang von auffindbaren Informationen für Google! Ist dies nicht beabsichtigt, werden wir schlussendlich vom Sichtbarkeitsverlust überrascht und unsere Internetpräsenz ist nicht mehr oder nur noch teilweise im Index und entsprechend schlechter auffindbar.

Generell gilt: Nur weil eine Unterseite vom Google-Index ausgeschlossen ist, heißt das nicht, dass man diese nicht normal über das Internet aufrufen und nutzen kann!

(Quelle: http://www.sistrix.de/news/wirft-google-itunes-aus-den-serps/

Wie verhindere ich den Eintrag meiner Webseiten im Google-Index?
Bestimmte Strukturen einer Internetpräsenz wie z.B. Loginbereiche für Administratoren oder Warenkörbe ohne Inhalt sind nicht immer für den Index und somit für das direkte Auffinden unter Google geeignet. Es ist daher sinnvoll, diese Bereiche erst gar nicht in den Suchergebnissen auftauchen zu lassen. Wer gar nicht oder nur zum Teil nicht in den großen Google-Index aufgenommen werden möchte, kann dies über verschiedene Wege lösen:

robots.txt
Diese einfache Textdatei, welche einfach im Hauptverzeichnis unserer Internetpräsenz abgelegt wird, verbietet dem Crawler, Ordner der eigenen Domain zu durchsuchen. Die Erstellung dieser Datei ist einfach und man kann damit komplette Ordner vor Googles indexierung schützen.

Meta-Tag
Zum einem gibt es den Meta-Tagden man einfach im Head-Bereich einer jeden nicht zu indexierenden Seite hinterlegen kann.

HTTP-Header
Für nicht HTML-Dokumente z.B. PDF-Dateien kann eine Indexierung über den HTTP-Header (X-Robots) vereitelt werden:

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 12:12:12 GMT
(…)
X-Robots-Tag: noindex
(…)

Passwortschutz
Als Alternative kann man Bereiche der eigenen Internetpräsenz in passwortgeschützten Bereichen unterbringen. Hier kommt der Crawler von Google erst gar nicht hin und der Inhalt wird nicht indexiert.

Was, wenn ich meine Internetpräsenz nicht finde, obwohl ich es will?
Unsere Webseite ist online und wir warten auf die ersten Besucher – es kommt nur keiner und auch wir finden sie über Googles Maschinerie z.B. durch eine Site-Abfrage nicht!

In diesem Fall liegt die Ursache des Problems tiefer als nur auf der Ebene unser Internetpräsenz!
-An dieser Stelle gehe ich davon aus, dass wir alle Möglichkeit eines eventuell bestehenden Schutz vor der Indexierung geprüft und beseitigt haben-

Ich präsentiere: Den Statuscode – klein aber oho!

Der Statuscode (auch Fehlercode genannt) wird von dem Server auf dem unsere Webseite liegt für absolut jede Besucheranfrage, egal ob Mensch oder Crawler erstellt und unterscheidet sich in 6 grundlegende Arten:

1. Informationen – Die Anfrage wird (noch) bearbeitet
2. Erfolgreiche Operation – Die Anfrage war erfolgreich (200) z.B.: erfolgreicher Aufruf unser Internetpräsenz
3. Umleitung – die Anfrage wird auf ein neues Ziel umgeleitet z.B. via 301 (permanente Weiterleitung)
4. Client-Fehler – falsche URL, ein Passwortschutz besteht am Ziel
5. Server-Fehler – Der „Mein Server geht nicht mehr“-Fehler, i.d.R. ist dann mehr kaputt als unsere Seite
6. Propritäre Codes – Netzwerkfehler und andere Nebensächlichkeiten

„Ich bin kein IT-Crack also wie soll mir das jetzt helfen?“
Für die, die kein wandelndes Lexikon sind, gibt es ein einfaches Tool mit dem wir den Status-Code unseres „Sorgenkind“ prüfen können.

http://tools.seobook.com/server-header-checker/

Im Eingabefeld geben wir einfach unsere noch nicht indexierte Internetseite ein und erkennen, dass diese einen 404-Fehler ausgibt:

Indexierungsstatus

Obwohl wir also Inhalte wie Texte und Bilder auf unserer Seite sehen können, wird sie aufgrund des 404-Status nie indexiert und folglich auch nie gefunden werden.

Merke: Ein Ergebnis was nicht dem Statuscode „200“ entspricht, verhindert u.U. die Indexierung!

Abschlusswort
Die Informationsrückgewinnung oder auch „Information Retrieval“, ist die Suche und Bereitstellung komplexer Informationen, die zunächst nicht direkt zugänglich sind.
Googles Indexierung ist ein Teil dieses Prozesses und Grundlage aller Suchergebnisse in der großen und nahezu unüberschaubaren Bibliothek „Internet“.

The following two tabs change content below.

Tilmann Klosa

Tilmann studierte Philosophie und Rhetorik in Tübingen und ist derzeit Online Marketing Berater und Content Manager in der SEO-Küche. Seine Leidenschaft für die neuen Medien verknüpft er mit Talent für Recherche um hier im Blog die interessantesten News aus der SEO-Szene vorzustellen.

Hinterlasse einen Kommentar

Teile diesen beitrag










Submit