Skip to main content

Robot


PDF herunterladen

Was ist ein Robot?

Ein Robot ist ein Programm, dass für die Suchmaschinen selbstständig das Internet nach neuen Inhalten durchsucht und diese erfasst, bewertet und indexiert. Statt Robots wird häufig auch die Kurzform “Bot” genutzt. Alternative Bezeichnungen sind Spider oder Crawler. Heutzutage bestehen etwa 40 Prozent des weltweiten Web Traffics aus Robots.

Funktionsweise eines Robots

Der Robot durchsucht automatisiert Dokumente im Web und folgt dabei auch externen und internen Links. Dadurch kann er beispielsweise feststellen, welche Linkbeziehungen zwischen welchen Webseiten bestehen. Bevor er “loslegt” benötigt der Robot natürlich eine genau definierte Aufgabe. Dadurch kann er bspw. Informationen einer Kategorie zuordnen. Nach und nach werden so alle Seiten erfasst und katalogisiert. Da der Robot seine Aufgabe ständig wiederholt, werden auch neue Informationen mit aufgenommen und indexiert.

Es gibt jedoch auch Informationen/Seiten, die dem Robot verwehrt bleiben. Das passiert z.B. bei Seiten, die nur durch einen Login oder über eine Suchmaske erreichbar sind.

Einsatzmöglichkeiten für Robots

In der Regel werden Robots dazu genutzt, Indizes zu erstellen, die für Suchmaschinen die Basis für die Einordnung von Suchergebnissen liefern. Dabei werden die Robots so programmiert, dass sie ganz spezifisch suchen, z.B. nach aktuellen Nachrichten oder nur bestimmten thematisch relevanten Links folgen.

Beispiele für Robot-Typen:

Data-Mining: Robots suchen gezielt nach Daten wie E-Mail-Adressen oder Telefonnummern.

Webanalyse: Robots sammeln u.a. Daten zu Seitenaufrufen, Seiteneinstiegen usw.

Produktrecherche für Preisvergleiche: Robots sammeln Produktdaten und Produktpreise, damit sie der User auf den Portalen vergleichen kann.

Robot lenken über die Robots.txt

Sie als Website-Betreiber können Robots auf Ihrer Seite mithilfe einer Datei lenken und so deren Verhalten auf Ihrer Webseite regeln. Diese Datei trägt den Namen “Robots.txt” und ist in der Root Directory (Stammverzeichnis) Ihrer Webseite untergebracht. Das ist die erste Datei, die von den Robots gelesen wird und mit der Sie die Programme steuern können. Mit genauen Anweisungen können Sie den Robot, genauer gesagt den User Agent des Robots so lenken, dass er nur ganz bestimmte Wege geht bzw. nur ganz bestimmte Seiten aufsucht. Seiten zu sperren ist z.B. bei einem Webseitenumbau sinnvoll, um dem Robot keine ungewollten/falschen Daten zu liefern.

Auch wenn Sie über die Robots.txt vorgeben, was der Robot nicht durchsuchen darf, können diese Seiten trotzdem von der Suchmaschine indexiert werden. Um das zu verhindern, nutzen Sie in den Meta-Tags den Noindex-Tag oder den Canonical Tag.

Bsp. für eine Robots.txt:

User-agent: *

Disallow: /cgi-bin/

Disallow: /wp-admin/

Disallow: /trackback/

Disallow: /feed/

Disallow: /comments/

Disallow: /wp-content/uploads/

Disallow: */trackback/

Disallow: */feed/

Disallow: */comments/

Sitemap: https://www.seo-kueche.de/sitemap.xml

Jetzt den SEO-Küche-Newsletter abonnieren

Ähnliche Artikel

CSS

Was ist CSS? CSS ist die Abkürzung für Cascading Style Sheets, was sich am besten mit „gestufte Stilvorlagen“ übersetzen lässt. Dabei handelt es sich um ei-ne Gestaltungs- und Formatierungssprache, mit deren Hilfe sich das optische Erscheinungsbild elektronischer Dokumente (z. B. HTML-Websites) bestimmen lässt. Anhand einfacher Anweisungen im Quelltext ist es so möglich, gestalterische Elemente wie das Layout, die […]

Google Groups

Was ist Google Groups? Google Groups ist ein kostenloser Dienst von „Google Inc.“, welcher einen kombinierten Zugang zu Usenet, Diskussionsforen und Social Communitys ermöglicht. Durch den Online-Dienst können Internetforen durchsucht sowie eigene „Groups“ (deutsch = Gruppen) erstellt werden. Geschichte von Google Groups Google Groups wurde 2001 im Rahmen einer Übernahme […]

Entitäten

Was ist eine Entität? Der von dem lateinischen Wort „ens“ (deutsch: „Ding“ oder „Seiendes“) abgeleitete Begriff Entität findet sich in der Philosophie, Informatik und Semantik. Er beschreibt ein Objekt, das sich eindeutig identifizieren lässt und Informationen beinhaltet. Entitäten können sowohl in der realen Welt existierende Dinge (auch „Benannte Entitäten“ genannt) […]

Datenbank

Was ist eine Datenbank? Eine Datenbank ist ein elektronisches System, in dem sich größere Datenmengen zentral speichern lassen. Ein Datenbanksystem (DBS) setzt sich aus zwei Teilen zusammen: einem Datenbankmanagementsystem (DMBS) und der Datenbank (DB) im eigentlichen Sinne, in der die Menge der zu verwaltenden Daten (auch Datenbasis genannt) gespeichert ist. Heute verwenden nahezu alle IT-Anwendungen wie ERP-, CRM- und Warenwirtschafts-Systeme, aber auch Suchmaschinen […]

Google Alerts

Was ist Google Alerts? Google Alerts ist ein seit 2014 existierender kostenloser Dienst der Suchmaschine Google. Jeder Nutzer kann Benachrichtigungen für beliebige Keywords oder Begriffe einrichten und Google benachrichtigt per E-Mail oder über seinen RSS-Feed, wenn die Suchmaschine einen passenden neuen Eintrag in ihrer Ergebnisliste findet. Alerts informieren Benutzer automatisch, […]

Release Management

Release Management einfach und verständlich erklärt Der Begriff Release Management beschreibt die Planung, Umsetzung und das Controlling von Softwareentwicklungsprozessen und der angewendeten IT-Infrastruktur. Release Management – Definition Durch das Release Management wird es möglich, einen Überblick über den gesamten Entwicklungsprozess von Softwares, Web-Anwendungen und deren Updates sicherzustellen. Das Release Management […]