Skip to main content

Robot


PDF herunterladen

Was ist ein Robot?

Ein Robot ist ein Programm, dass für die Suchmaschinen selbstständig das Internet nach neuen Inhalten durchsucht und diese erfasst, bewertet und indexiert. Statt Robots wird häufig auch die Kurzform “Bot” genutzt. Alternative Bezeichnungen sind Spider oder Crawler. Heutzutage bestehen etwa 40 Prozent des weltweiten Web Traffics aus Robots.

Funktionsweise eines Robots

Der Robot durchsucht automatisiert Dokumente im Web und folgt dabei auch externen und internen Links. Dadurch kann er beispielsweise feststellen, welche Linkbeziehungen zwischen welchen Webseiten bestehen. Bevor er “loslegt” benötigt der Robot natürlich eine genau definierte Aufgabe. Dadurch kann er bspw. Informationen einer Kategorie zuordnen. Nach und nach werden so alle Seiten erfasst und katalogisiert. Da der Robot seine Aufgabe ständig wiederholt, werden auch neue Informationen mit aufgenommen und indexiert.

Es gibt jedoch auch Informationen/Seiten, die dem Robot verwehrt bleiben. Das passiert z.B. bei Seiten, die nur durch einen Login oder über eine Suchmaske erreichbar sind.

Einsatzmöglichkeiten für Robots

In der Regel werden Robots dazu genutzt, Indizes zu erstellen, die für Suchmaschinen die Basis für die Einordnung von Suchergebnissen liefern. Dabei werden die Robots so programmiert, dass sie ganz spezifisch suchen, z.B. nach aktuellen Nachrichten oder nur bestimmten thematisch relevanten Links folgen.

Beispiele für Robot-Typen:

Data-Mining: Robots suchen gezielt nach Daten wie E-Mail-Adressen oder Telefonnummern.

Webanalyse: Robots sammeln u.a. Daten zu Seitenaufrufen, Seiteneinstiegen usw.

Produktrecherche für Preisvergleiche: Robots sammeln Produktdaten und Produktpreise, damit sie der User auf den Portalen vergleichen kann.

Robot lenken über die Robots.txt

Sie als Website-Betreiber können Robots auf Ihrer Seite mithilfe einer Datei lenken und so deren Verhalten auf Ihrer Webseite regeln. Diese Datei trägt den Namen “Robots.txt” und ist in der Root Directory (Stammverzeichnis) Ihrer Webseite untergebracht. Das ist die erste Datei, die von den Robots gelesen wird und mit der Sie die Programme steuern können. Mit genauen Anweisungen können Sie den Robot, genauer gesagt den User Agent des Robots so lenken, dass er nur ganz bestimmte Wege geht bzw. nur ganz bestimmte Seiten aufsucht. Seiten zu sperren ist z.B. bei einem Webseitenumbau sinnvoll, um dem Robot keine ungewollten/falschen Daten zu liefern.

Auch wenn Sie über die Robots.txt vorgeben, was der Robot nicht durchsuchen darf, können diese Seiten trotzdem von der Suchmaschine indexiert werden. Um das zu verhindern, nutzen Sie in den Meta-Tags den Noindex-Tag oder den Canonical Tag.

Bsp. für eine Robots.txt:

User-agent: *

Disallow: /cgi-bin/

Disallow: /wp-admin/

Disallow: /trackback/

Disallow: /feed/

Disallow: /comments/

Disallow: /wp-content/uploads/

Disallow: */trackback/

Disallow: */feed/

Disallow: */comments/

Sitemap: https://www.seo-kueche.de/sitemap.xml

Jetzt den SEO-Küche-Newsletter abonnieren

Ähnliche Artikel

Semiotik

Was ist Semiotik? Definition und Erklärung Semiotik ist die Wissenschaft bzw. Lehre von den Zeichen und Zeichensystemen. Sie befasst sich mit der Untersuchung, wie Bedeutungen erzeugt und vermittelt werden. Die Semiotik erforscht alle Arten von Zeichen, von Wörtern und Bildern bis hin zu Gesten und Symbolen, und wie diese in […]

TikTok

Was ist TikTok? TikTok ist eine Social-Media-Plattform, die vom chinesischen Technologieunternehmen ByteDance betrieben wird. Das Videoportal wurde im September 2016 eingeführt und ist als mobile App für die Betriebssysteme Android und iOS verfügbar. TikTok hat sich weltweit zu einem kulturellen Phänomen entwickelt und wird von einer breiten Zielgruppe begeistert angenommen, […]

StartPage

Was ist die StartPage? StartPage ist eine Suchmaschine, welche die eingegebenen Suchanfragen der User an Google weiterleitet und dadurch anonymisiert die Suchergebnisse anzeigt. Startpage will damit den Datenschutz ihrer Nutzer gewährleisten und verfolgt einen ähnlichen Weg wie Ixquick. Die datenschutzfreundliche Suchmaschine StartPage ist eine Suchmaschine im Internet, die im Jahr […]

Webhosting

Was ist ein Webhosting? Unter Webhosting wird die Bereitstellung von Webspace sowie die Unterbringung (Hosting) von Websites auf dem Server eines Internet Service Providers (ISP) bezeichnet. Webhosting ist ein Internetdienst, der es ermöglicht, eine Website oder Webseite im Internet zu erstellen, zu veröffentlichen und zu verwalten. Webhosting: Definition Ein Webhosting-Anbieter, […]

ChatGPT

Was ist ChatGPT? ChatGPT ist ein sprach- und textbasierter Chatbot, welcher vom US-amerikanischen Unternehmen OpenAI entwickelt und im November 2022 veröffentlicht wurde. Die KI basiert auf einem innovativen Sprachmodell, das menschliche Kommunikation simuliert. ChatGPT: Definition ChatGPT versteht Texteingaben in natürlicher Sprache und produziert Antworten zu verschiedensten Themen. Dabei kann das […]

Native Advertising

Was ist Native Advertising und was sind Native Ads? Native Advertising (zu Deutsch „Werbung im bekannten Umfeld“) bezeichnet eine subtile Form der Werbung, bei der gezielt Inhalte präsentiert werden, die sich nahtlos in den Kontext einer Website einfügen. Im Fokus dieser Werbeform steht die Verschmelzung von werblichen Botschaften mit den […]