Skip to main content

Indexierung und Indexierungsstatus

  • Geschrieben von SEO-Küche am 27.05.2013

PDF herunterladen

Was ist Indexierung und wie lautet die Definition dazu? Für eine Antwort gehe ich auf Google.de, gebe das Wort im Suchschlitz ein und es erscheint an erster Stelle „Wikipedia“. Und noch bevor ich auf den Link der riesigen Enzyklopädie klicke, wird mir meine Frage auf technischem Weg eigentlich schon beantwortet! Was steckt nun aber genau dahinter und wie steht das mit der wohl bekanntesten Suchmaschine im Netz in Verbindung?

Schauen wir, was Wikipedia uns als Antwort auf meine Suchanfrage zur Definition der Indexierung sagt:

„Als Indexierung, auch Verschlagwortung oder Verstichwortung, bezeichnet man beim Information Retrieval die Zuordnung von Deskriptoren zu einem Dokument zur Erschließung der darin enthaltenen Sachverhalte. Es lassen sich die kontrollierte Indexierung mit einem Thesaurus oder Schlagwortkatalog bzw. Notationen einer Klassifikation und freie Indexierung bzw. freie Verschlagwortung mit nicht vorgegebenen Deskriptoren unterscheiden. Beim Gemeinschaftlichen Indexieren (auch social oder collaborative tagging) mit Hilfe von Sozialer Software spricht man auch von Tagging anstelle von Indexierung und von Tags anstatt von Deskriptoren.“

(Quelle:

Was hat das nun mit der Indexierung von Webseiten durch Google zu tun?
Eine berechtigte und zugleich leicht zu beantwortende Frage!
Das Internet ist eine permanent wachsende und sich stetig verändernde Informationsumgebung, eine riesige Bibliothek voller dynamischer Bücher. Googles kleine Helfer, die sogenannten Crawler, durchkämmen immer wieder diese Bücher und speichern dabei Informationen zu Wörtern in einer Art Kartei, dem Index, ähnlich wie dem am Ende eines Buches – nur für die komplette Bibliothek.
Diese Wörter sind im allgemeinen als Keywords (Schlüsselwörter, Suchbegriffe) bekannt und für das Auffinden von Informationen unerlässlich.

Indexierungsstatus
Ob mein „Buch“, wir werden es ab diesem Absatz „Internetpräsenz“ oder „Webseite“ nennen, mit all seinen Seiten und Informationen überhaupt gefunden werden kann, sagt uns der Indexierungsstatus von Google, den wir direkt über Googles Webmastertool abrufen können.

Unter dem Menüpunkt „Status → Indexierungsstatus“ erhalten wir eine bis zu 12 Monate zurückreichenden Übersicht aller bei Google indexierten Seiten meiner Internetpräsenz.

Indexierungsstatus

Die steigende Anzahl der indexierten Seiten zeigt uns, dass Google neue Inhalte unserer Internetpräsenz erkannt, also „gecrawlt“ und aufgenommen hat. Ein Einbruch der Werte sind Anzeichen für Serverausfälle, eine zu komplexe interne Verlinkung, so dass es dem Crawler nicht mehr möglich ist, die Seite zeitnah zu durchforsten oder aber es liegt ein Fehler mit der Erreichbarkeit einzelner oder aller Seiten vor.
Eine detailliertere Version der Indexierungsübersicht können wir uns über den Menüpunkt „Erweitert“ anzeigen lassen. Diese Daten verraten uns neben den bereits indexierten Seiten

– die Gesamtsumme aller jemals gecrawlten URLs
– die Zahl der durch die robots.txt blockierten URLs
– die aufgrund eines Antrages bei Google entfernten URLs
– nicht indexierte URLs

Indexierungsstatus

Wie können wir diesen Index nutzen?
Um über Google mehr als nur eine Webseite zu einem bestimmten Thema zu finden, gibt es für den wohl bekanntesten Suchschlitz der Welt ein paar Parameter, die ich hier gerne vorstellen möchte.

Site-Abfrage – site:seo-kueche.de
Mit der Frage „site:seo-kueche.de“ bekommt man eine Aufschlüsselung aller Unterseiten und Subdomains der Domain „seo-kueche.de“. Man kann diese Abfrage jedoch noch mit verschieden Parametern kombinieren:

„site:seo-kueche.de“ zeigt alle Seiten der Domain
„site:seo-kueche.de –www.seo-kueche.de“ zeigt alle Seiten OHNE „www“
„site:seo-kueche.de keyword“ zeigt alle Unterseiten von „seo-kueche.de“ die Google mit „Keyword“ verbindet, die relevanteste ist immer an erster Stelle

Neben der „Site“-Abfrage gibt es aber noch andere nützliche Parameter, mit der wir Google löchern können

„inurl:seo-kueche.de“ blog“ sucht und zeigt im Google-Snippet nach dem Wort „blog“
„allinurl:seo-kueche.de“ blog“ sucht und zeigt URLs in denen „blog“ vorkommt
„allintitle:seo-kueche.de“ blog“ zeigt alle URLs die im Title das Wort „blog“ beinhalten
„cache:seo-kueche.de“ zeigt das letzte bekannte Abbild die Google bekannt ist
„info:seo-kueche.de“ soll Informationen über die Domain zeigen
“define:blog“ gibt Googles Definition des Keyword „blog“ aus

Natürlich gibt es wesentlich mehr Parameter als die hier aufgeführten, die „Site“-Abfragen finde ich jedoch als eine der nützlichsten überhaupt.

Warum ist das Ganze so wichtig?
Ein prominentes Beispiel für die Auswirkungen falscher Indexierung ist der massive Einbruch von Apples iTunes-Seiten. Innerhalb eines kleinen Zeitfensters warfen ca. 46% aller Unterseiten unter der Domain „itunes.apple.com“ einen 403-Fehler aus. 46% entsprechen hierbei ca. 46.000 Seiten! Ab diesem Zeitpunkt war es Google nicht mehr möglich, diese zu crawlen. Die Konsequenz daraus war, das Apples iTunes-Store innerhalb von kürzester Zeit aus den Suchergebnissen verschwand.
Natürlich machten erst die wildesten Gerüchte die Runde, bis es dann einigen SEO”s wie Schuppen von den Augen fiel – ein Blick in den Indexierungsstatus hätte schnell des Rätsels Lösung sein können:

Ein massiver Rückgang indexierter Seiten bedeutet auch den Rückgang von auffindbaren Informationen für Google! Ist dies nicht beabsichtigt, werden wir schlussendlich vom Sichtbarkeitsverlust überrascht und unsere Internetpräsenz ist nicht mehr oder nur noch teilweise im Index und entsprechend schlechter auffindbar.

Generell gilt: Nur weil eine Unterseite vom Google-Index ausgeschlossen ist, heißt das nicht, dass man diese nicht normal über das Internet aufrufen und nutzen kann!

(Quelle: http://www.sistrix.de/news/wirft-google-itunes-aus-den-serps/

Wie verhindere ich den Eintrag meiner Webseiten im Google-Index?
Bestimmte Strukturen einer Internetpräsenz wie z.B. Loginbereiche für Administratoren oder Warenkörbe ohne Inhalt sind nicht immer für den Index und somit für das direkte Auffinden unter Google geeignet. Es ist daher sinnvoll, diese Bereiche erst gar nicht in den Suchergebnissen auftauchen zu lassen. Wer gar nicht oder nur zum Teil nicht in den großen Google-Index aufgenommen werden möchte, kann dies über verschiedene Wege lösen:

robots.txt
Diese einfache Textdatei, welche einfach im Hauptverzeichnis unserer Internetpräsenz abgelegt wird, verbietet dem Crawler, Ordner der eigenen Domain zu durchsuchen. Die Erstellung dieser Datei ist einfach und man kann damit komplette Ordner vor Googles indexierung schützen.

Meta-Tag
Zum einem gibt es den Meta-Tagden man einfach im Head-Bereich einer jeden nicht zu indexierenden Seite hinterlegen kann.

HTTP-Header
Für nicht HTML-Dokumente z.B. PDF-Dateien kann eine Indexierung über den HTTP-Header (X-Robots) vereitelt werden:

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 12:12:12 GMT
(…)
X-Robots-Tag: noindex
(…)

Passwortschutz
Als Alternative kann man Bereiche der eigenen Internetpräsenz in passwortgeschützten Bereichen unterbringen. Hier kommt der Crawler von Google erst gar nicht hin und der Inhalt wird nicht indexiert.

Was, wenn ich meine Internetpräsenz nicht finde, obwohl ich es will?
Unsere Webseite ist online und wir warten auf die ersten Besucher – es kommt nur keiner und auch wir finden sie über Googles Maschinerie z.B. durch eine Site-Abfrage nicht!

In diesem Fall liegt die Ursache des Problems tiefer als nur auf der Ebene unser Internetpräsenz!
-An dieser Stelle gehe ich davon aus, dass wir alle Möglichkeit eines eventuell bestehenden Schutz vor der Indexierung geprüft und beseitigt haben-

Ich präsentiere: Den Statuscode – klein aber oho!

Der Statuscode (auch Fehlercode genannt) wird von dem Server auf dem unsere Webseite liegt für absolut jede Besucheranfrage, egal ob Mensch oder Crawler erstellt und unterscheidet sich in 6 grundlegende Arten:

1. Informationen – Die Anfrage wird (noch) bearbeitet
2. Erfolgreiche Operation – Die Anfrage war erfolgreich (200) z.B.: erfolgreicher Aufruf unser Internetpräsenz
3. Umleitung – die Anfrage wird auf ein neues Ziel umgeleitet z.B. via 301 (permanente Weiterleitung)
4. Client-Fehler – falsche URL, ein Passwortschutz besteht am Ziel
5. Server-Fehler – Der „Mein Server geht nicht mehr“-Fehler, i.d.R. ist dann mehr kaputt als unsere Seite
6. Propritäre Codes – Netzwerkfehler und andere Nebensächlichkeiten

„Ich bin kein IT-Crack also wie soll mir das jetzt helfen?“
Für die, die kein wandelndes Lexikon sind, gibt es ein einfaches Tool mit dem wir den Status-Code unseres „Sorgenkind“ prüfen können.

http://tools.seobook.com/server-header-checker/

Im Eingabefeld geben wir einfach unsere noch nicht indexierte Internetseite ein und erkennen, dass diese einen 404-Fehler ausgibt:

Indexierungsstatus

Obwohl wir also Inhalte wie Texte und Bilder auf unserer Seite sehen können, wird sie aufgrund des 404-Status nie indexiert und folglich auch nie gefunden werden.

Merke: Ein Ergebnis was nicht dem Statuscode „200“ entspricht, verhindert u.U. die Indexierung!

Abschlusswort
Die Informationsrückgewinnung oder auch „Information Retrieval“, ist die Suche und Bereitstellung komplexer Informationen, die zunächst nicht direkt zugänglich sind.
Googles Indexierung ist ein Teil dieses Prozesses und Grundlage aller Suchergebnisse in der großen und nahezu unüberschaubaren Bibliothek „Internet“.

Keine Kommentare vorhanden


Sie haben eine Frage oder Meinung zum Artikel?

Ihre E-Mail Adresse wird nicht veröffentlicht

Jetzt den SEO-Küche-Newsletter abonnieren

Ähnliche Beiträge

social media recap januar 2021 titel

Social Media Rückblick für Februar 2021

  • von Julia
  • 26.02.2021

Was war in den sozialen Netzwerken im Februar los? Neuer Monat, neue News! Wir haben mal wieder alle wichtigen Neuigkeiten aus der Social Media Welt für Euch zusammengefasst. Yo, Yo, Yo Instagram – Was gibt ́s Neues? Live Streams mit mehreren Teilnehmern Wie lange haben wir bitte auf „Live Groups“ […]

google thin content

Google stellt Beispiele für Thin Content vor

  • von Christoph
  • 19.02.2021

Die vier Arten von Thin Content laut Google Immer wieder werden von Google hochwertige Inhalte empfohlen, um bessere Rankings zu erzielen. Content mit Qualität wird daher immer wichtiger, doch Webseitenbetreiber sollten auch wissen, welche Inhalte von Google als minderwertig betrachtet und daher im schlimmsten Fall sogar abgestraft werden. Google nennt […]

energielabel änderung onlinehandel abmahnung

Achtung, Elektro-Händler: Neue Energielabel ab März

  • von Haendlerbund
  • 12.02.2021

2021 müssen Onlinehändler bei Elektroartikeln aufpassen Jeder kennt die Energielabel, die anzeigen, wie effizient ein Gerät ist. Dabei sind Geräte der Klasse A schon lange nicht mehr das Beste, was man auf dem Markt bekommen kann. Mittlerweile geht die Skala von D bis A+++, wobei man die unteren Klassen kaum […]

social media recap januar 2021 titel

Social Media Rückblick: Januar 2021

  • Leonard
  • von Leonard Reska
  • 09.02.2021

Neues Jahr, Neue Updates! Was war auf Social Media los? Kurz und kompakt: Die wichtigsten Änderungen und Ankündigungen aus der Social Media Welt! Unser Social Media Rückblick. Facebook Facebook optimiert Seiten von Creatoren und Personen des öffentlichen Lebens Facebook schraubt mal wieder an der User Experience! Diesmal im Fokus: Die […]

social media trends 2021 titelbild

Social Media Trends 2021

  • von Julia
  • 04.02.2021

2020 war ein Jahr wie kein anderes! Rund 94% der Deutschen haben 2020 regelmäßig das Internet und Social-Media genutzt – auch die Vielfalt an Social-Media-Kanälen war nie größer!

lokale kampagne google ads title

Mit Lokalen Kampagnen bei Google Ads mehr Ladenbesuche erzielen

  • von Ulrike
  • 29.01.2021

Was sind Lokale Kampagnen? Lokale Kampagnen bei Google Ads ist darauf ausgelegt Ihre Offlineziele wie z.B. Ladenbesuche zu erreichen. Hierbei müssen die Standorte der zu bewerbenden Geschäfte angegeben werden. Dazu kann man entweder das Google My Business-Konto verknüpfen oder Affiliate-Standorte auswählen. Nachdem die Standorte und das Budget festgelegt sind, kann […]