Was ist eine Entität?
Der von dem lateinischen Wort „ens“ (deutsch: „Ding“ oder „Seiendes“) abgeleitete Begriff
Entität findet sich in der Philosophie, Informatik und Semantik. Er beschreibt ein Objekt, das sich eindeutig identifizieren lässt und Informationen beinhaltet. Entitäten können sowohl in der realen Welt existierende Dinge (auch „Benannte Entitäten“ genannt) wie zum Beispiel Orte, Fahrzeuge oder Bauwerke als auch abstrakte Sachverhalte (auch „Konzepte“ genannt) wie Ernährung oder Recht sein. Jede Entität gehört mindestens einem Entitätstyp an (z. B. Mountainbike dem Typ Fahrrad), enthält bestimmte Attribute (z. B. Standort bei Gebäuden, oder Alter bei Personen) und kann in Beziehung zu anderen Entitäten stehen.
Eine wichtige Rolle spielen Entitäten bei der Suchmaschinenoptimierung und im Speziellen bei der semantischen Optimierung von Webinhalten. Denn Marktführer Google hat sich mit der Einführung des Knowledge-Graph im Jahr 2012 und dem Hummingbird-Algorithmus im Jahr 2013 von dem über viele Jahre genutzten und vorwiegend keywordorientierten Ranking verabschiedet. Statt lediglich die gesuchten Wörter mit Inhalten von Websites abzugleichen, denkt die Suche von Google mit und versucht mit der Hilfe von Entitäten die Bedeutung einer Suchanfrage besser zu verstehen und dem Nutzer relevantere Ergebnisse zu liefern.
Beispiele für Entitäten
Wie in der Einführung erklärt, kann es sich bei Entitäten sowohl um Objekte aus der realen Welt als auch um Konzepte handeln. Um dies besser zu veranschaulichen, haben wir im Folgenden einige Beispiele für die verschiedenen Entitätsformen zusammengestellt.
Beispiele für benannte Entitäten:
- Personen wie Angela Merkel, Larry Page und Joe Biden
- Orte wie Berlin, New York, Köln und Silicon Valley
- Organisationen wie Apple, Google und Microsoft
- Produkte wie das Apple iPhone oder der Google Assistant
- Events wie Rock am Ring oder die Leipziger Buchmesse
Beispiele für abstrakte Objekte / Konzepte:
- Mathematische Konzepte wie Entfernung, Höhe oder Menge
- Psychologische Konzepte wie Gedanken, Emotionen oder Identität
- Physische Konzepte und Naturphänomene wie Kraft, Gravitation und Wind
- Soziale Konzepte wie Menschenrechte, Frieden oder Recht
Entitäts-Attribute
Eine Entität besitzt verschiedene Attribute, die sie beschreiben. Erst sie machen eine Entität einzigartig und identifizierbar. Nehmen wir zum Beispiel die Person Olaf Scholz. Allein vom Namen her lässt sich nicht zwei-felsfrei darauf schließen, dass es sich um den Bundeskanzler der Bundesrepublik Deutschland handelt. Dazu sind Attribute erforderlich. Denn der Name Olaf Scholz kommt in Deutschland mehrfach vor. Attribute, die bei der Identifizierung helfen können, sind das Alter, der Geburtsort und die Körpergröße. Ebenso können veröffentlichte Bücher oder auch die Zugehörigkeit zu einer Partei dabei helfen, unsere Person Olaf Scholz als Bundeskanzler zu identifizieren. Ein weiterer Baustein sind Beziehungen zu anderen Entitäten. Dabei könnte es sich um andere Staatsoberhäupter handeln. So könnte man auch ohne das Wissen, dass Olaf Scholz Bundeskanzler ist, zu der Annahme kommen, dass er eine wichtige Persönlichkeit innerhalb der Regierung ist. Mehr zum Thema Beziehungen zwischen Entitäten finden sich weiter unten in diesem Artikel.
Ein weiteres Beispiel, das die Bedeutung von Attributen zeigt, sind Entitäten, die für verschiedene Dinge stehen können. Eines davon ist der Mustang. Denn hierbei kann es sich einerseits um das amerikanische MuscleCar Mustang von Ford, andererseits aber auch um das ebenfalls aus den USA stammende Wildpferd handeln. Erst durch Attribute lassen sich die beiden Entitäten zweifelsfrei unterscheiden. Denn während der Ford Mustang Attribute wie Höchstgeschwindigkeit, Anzahl Sitze, Ladevolumen oder Verbrauch besitzt, verfügt das Pferd Mustang über Eigenschaften wie Größe, Herkunft oder Lebenserwartung.
Entitäts-Typen
Entitäts-Typen (auch Entitäts-Arten, -Gruppen oder -Klassen genannt) fassen Entitäten zusammen, die gleiche oder ähnliche Attribute besitzen. So können zum Beispiel TV-Serien immer Attribute wie Darsteller, Genre, Erstausstrahlung und Anzahl der Staffeln zugeordnet werden, wodurch der Entitäts-Typ klar definiert ist. Gleiches gilt für die Klasse Person oder Mensch, die immer die Attribute Geburtsort, Geburtsdatum und Wohnort enthält oder den Typ Stadt, der stets Attribute wie Bevölkerung, Bürgermeister oder Fläche in km² aufweist. Eine Entität kann aber nicht nur einem, sondern auch mehreren Entitätstyp angehören. Ein Beispiel dafür ist Berlin, das in Googles Knowledge-Graph insgesamt fünf Entitäts-Typen zugeordnet ist [1]. Neben Ort (Place) und Stadt (City) handelt es sich dabei um die Entitäts- Typen Verwaltungsbereich (AdministrativeArea), Ding (Thing), Friedhof (Cemetery) und Sehenswürdigkeiten und historische Gebäude (LandmarksOrHistoricalBuildings).
Verschiedene Entitäts-Typen helfen Suchmaschinen wie Google, Entitäten zu organisieren und Suchanfragen von Nutzern richtig einzuordnen. In der Theorie ist die Anzahl an Entitäts- Typen unendlich. Google nutzt jedoch nur eine gewisse Anzahl Typen, um Informationen für die Nutzung im Knowledge-Graph zu gruppieren. Dazu gehören laut eigenen Angaben [2] des Suchmaschinenanbieters unter anderem folgende Typen:
- Book
- BookSeries
- EducationalOrganization
- Event
- GovernmentOrganization
- LocalBusiness
- Movie
- MovieSeries
- MusicAlbum
- MusicGroup
- Organization
- Periodical
- Person
- Place
- SportsTeam
- TVSeries
- VideoGame
- Website
Eine umfangreichere Auswahl an Entitäts-Typen findet sich auf der Website von Schema.org.
Beziehungen zwischen Entitäten
Eine wichtige Eigenschaft von Entitäten ist ihre Vernetzung untereinander. Diese Beziehungen helfen Suchmaschinen, die Bedeutung einer Suchanfrage sowie die Relevanz von Inhalten für diese besser bestimmen und reichhaltigere Ergebnisse liefern zu können. Ein Beispiel, das die Vernetzung zwischen Entitäten sehr gut veranschaulicht, ist die Google- Suche nach „US-Präsident“. Diese liefert als Ergebnis eine Entitäten-Box für US-Präsident Joe Biden (Stand 07/2022) mit Attributen wie Geburtsdatum, Geburtsort oder Heiratsort. In diesem Fall existiert eine Beziehung zwischen der Person Joe Biden und der abstrakten Entität des Amts des US-Präsidenten. Ergänzend liefert Google zu der Suchanfrage eine Liste mit ehemaligen US-Präsidenten und Personen, die in Beziehung zum aktuellen US-Präsidenten Joe Biden stehen, wie zum Beispiel die aktuelle Vizepräsidentin Kamala Harris, Ehefrau Jill Biden oder Sohn Hunter Biden. Diese Beziehungen werden auch bei Suchanfragen wie „Joe Biden Ehefrau“ (Ergebnis: Entitäten-Box für Jill Biden) oder „Joe Biden Vizepräsidentin“ (Ergebnis: Entitäten-Box für Kamala Harris) sichtbar.
Ein weiteres Beispiel sind Sänger John Lennon und die Band The Beatles. Sowohl John Lennon als auch The Beatles sind Entitäten, die über John Lennon, der Gitarrist der Band war, in Verbindung stehen. Sichtbar wird diese Beziehung bei einer Suche nach „The Beatles Mitglieder“, zu der Googles Knowledge-Graph eine Entitäten-Box mit einer Auflistung aller Bandmitglieder inklusive des 1980 ermordeten Gründungsmitglieds ausspielt.
Google nutzt verschiedene Möglichkeiten, um Beziehungen zwischen Entitäten zu erkennen und in der Suche darzustellen. Ein Weg sind Suchanfragen: Werden einzelne Entitäten häufig in Kombination gesucht, ist eine Beziehung wahrscheinlich. Auch externe Datenbanken und Websites wie Wikipedia, Wikidata, IMDb, etc. verwendet Google, um Beziehungen zwischen Entitäten zu erkennen und im Knowledge-Graph zu speichern. Eine weitere Möglichkeit sind Q&A-Websites. Google besitzt ein Patent [3], in dem der Suchmaschienanbieter beschreibt, wie er Informationen zur Beziehung zwischen Entitäten durch das Extrahieren von Daten aus Frage-und-Antwort-Websites gewinnen kann.
In dem im Jahr 2018 veröffentlichten Patent nennt Google als Beispiel die Frage „Wer ist die Frau von Barack Obama?“. Durch Abfragen einer ganzen Reihe von Q&A-Websites soll das System in der Lage sein, aus bestehenden Beziehungen zu Barack Obama wie „Laura Bush“, „Hillary Clinton“ und „Michelle Obama“ die richtige Ehefrau zu identifizieren. Dazu soll das System die Daten aggregieren und die potenziellen Ergebnisse mit einem Score versehen. Für das Scoring entscheidend ist unter anderem die Frequenz, mit der die potenzielle Verbindung auf den untersuchten Websites vorkommt.
Relevanz und Beziehungen
In der Praxis ist für Google wichtig, die Relevanz von Beziehungen zwischen einzelnen Entitäten einschätzen zu können. Ein Beispiel hierfür liefert Ron Wood, der seines Zeichens Gitarrist der Rockband Rolling Stones ist. Bei einer Google-Suche nach „Ron Wood“ erscheint rechts in der Entitäten-Box unter dem Namen Ron Wood der Zusatz „Musiker“. Der Gitarrist ist aber auch ein sehr erfolgreicher Maler, jedoch sieht Google die Relevanz für die Verbindung zum Entitäts-Typ Musiker in diesem Fall als höher an. Um die Relevanz von Beziehungen zu ermitteln, zieht Google wahrscheinlich die Häufigkeit von Nennungen auf Websites sowie in Suchanfragen heran. In dem zuvor genannten Beispiel dürften also mehr Suchen nach dem Muster „Ron Wood Musiker“ bei Google eingehen als zum Beispiel „Ron Wood Maler“ oder „Ron Wood Künstler“. Dies veranlasst Google dazu, Ron Wood dem Entitäts-Typ Musiker zuzuordnen.
Wie unterscheidet Google einzelne Entitäten?
Google speichert in seiner Knowledge-Graph-Datenbank angeblich mehrere Milliarden
Entitäten. Um jede davon eindeutig über verschiedene Anwendungen hinweg identifizieren und Verwechslungen bei gleichnamigen Entitäten mit unterschiedlicher Bedeutung (z. B. Apple als Technologie-Konzern und als Obst oder Queen als Rockband und als Königin von Großbritannien) vorbeugen zu können, erhält jede einzelne Entität einen einzigartige URI („Uniform Resource Identifier“). Google nutzt zu diesem Zweck die sogenannten MREIDs („Machine-Readable Entity IDs“), die aus einer zufälligen Zeichenkette bestehen. Mithilfe dieser Identifikationsnummern lässt sich britische Rockband Queen (MREID: /m/0bk1p) eindeutig von Queen Elizabeth II (MREID: /m/0d1_f) unterscheiden. Über die Knowledge-Graph API von Google lassen sich die Entitäten samt der dazugehörigen MREIDs abrufen. Über Links im Format https://www.google.de/search?kgmid=/m/0bk1p (Rock-band Queen) lassen sich die Entitäten direkt innerhalb der Google-Suche ansprechen.
Welche Relevanz haben Entitäten für die Suchmaschinenoptimierung?
Mit dem Hummingbird-Algorithmus und dem Knowledge-Graph hat Suchmaschinenriese Google schon vor einigen Jahren die Weichen für die semantische Suche gestellt und damit das Ende des keywordorientierten Rankings eingeläutet. Die Graphen-Datenbank setzt sich aus sogenannten Knoten und Kanten zusammen. Die Entitäten sind in diesem Fall die Knoten und die Kanten stehen für die Beziehungen, in denen die Entitäten zueinanderstehen. Mit dieser Datenbank kann Google auch Suchanfragen beantworten, in denen der vom Nutzer gesuchte Begriff gar nicht mehr vor-kommt.
Für die Optimierung von Websites bedeutet das, dass das reine Nutzen einzelner Keywords in Inhalten nicht mehr ausreicht, um langfristig zu einem Thema gute Rankings zu erzielen. Vielmehr ist es nötig, sich auch semantisch mit dem jeweiligen Begriff auseinanderzusetzen und somit einen größeren Bereich abzudecken. Eine Hilfe können dabei Tools wie der Entity Explorer sein, die eine Suche nach Entitäten und mit ihnen verwandten Be-griffen erlauben.
Ein weiteres Tool ist die Natural Language API Demo von Google. Die Demo ermöglicht eine Analyse von Texten hinsichtlich ihrer Optimierung auf eine Entität. Dazu nutzt sie einen sogenannten „Salience Score“, der von 0 bis 1 reicht. Ein Score von 1 bedeutet, dass ein Text besonders stark auf eine Entität optimiert ist. Neben dem Optimieren von Textinhalten kann es außerdem sinnvoll sein, Webinhalte mit Semantic Markup auszuzeichnen.
Weblinks
- Google Natural Language API – https://cloud.google.com/natural-language/
- Entity Explorer – https://entityexplorer.com/
- MREID Resolver für Google Knowledge-Graph – https://angryloki.github.io/mreid-resolver/
- Knowledge-Graph Search API – https://developers.google.com/knowledge-graph/reference/rest/v1/