Skip to main content

Data Warehouse


PDF herunterladen

Was ist ein Data Warehouse?

Bei einem Data Warehouse (manchmal auch Datenlager genannt, kurz: DWH) handelt es sich um ein zentrales Datenbanksystem, das sich in Unternehmen zu Analyse- und Prognosezwecken einsetzen lässt. Für diesen Zweck sammelt und verdichtet das System relevante Daten aus verschiedenen heterogenen Datenquellen wie zum Beispiel dem Customer Relationship Management (CRM), Human Resources (HR) oder Enterprise Resource Planning (ERP) und stellt diese nachgelagerten Anwendungen zur Verfügung.

data warehouse was ist data warehouse

Data Warehouse einfach erklärt

Ein Data Warehouse ist vereinfacht gesagt eine Sammlung von Informationen, die aus den unterschiedlichsten Quellen stammen können. Dabei kann es sich sowohl um unternehmensinterne Datenquellen wie CRM-Systeme handeln als auch um externe Datenquellen wie zum Beispiel News-Feeds, Wetterberichte, Web-Analytics-Programme oder soziale Medien. Die Quelldaten, die im Data Warehouse gespeichert werden sollen, können strukturiert, teilstrukturiert oder unstrukturiert sein.

Im Rahmen des sogenannten ETL-Prozesses (Abkürzung für: Extract, Transform, Load) werden die gegebenenfalls unterschiedlich strukturierten Daten zusammengeführt, vereinheitlicht und miteinander verknüpft in einer Datenbank im Data Warehouse gespeichert. So können Nutzer unter anderem mittels Business Intelligence- und Analyse-Tools oder Excel/Spreadsheets auf die Daten zugreifen und beispielsweise Kunden oder Geschäftsprozesse ganzheitlicher analysieren, um auf dieser Basis wichtige Entscheidungen zu treffen [1].

Charakteristika von Data Warehouses

Ein Data Warehouse zeichnet sich durch einige typische Charakteristika aus. Dazu gehören:

Themenorientierung: Die Daten in einem Data Warehouse sind themenbezogen. Es enthält also Informationen zu bestimmten Themen und nicht etwa zu Geschäftsvorgängen. Mögliche Themen können zum Beispiel Kunden, Produkte oder auch Verkäufe sein. Solch ein Data Warehouse könnte beispielsweise Antworten auf Fragen wie „Wer war im vergangenen Jahr unser bester Kunde?“ oder „Wer wird voraussichtlich im kommenden Jahr unser bester Kunde sein?“ liefern.

Vereinheitlichung: Die aus verschiedenen Quellen wie zum Beispiel Word- oder Excel-Dokumenten, Flat-Files oder Cloud-Datenbanken stammenden Daten weisen häufig unterschiedliche Strukturen auf. Vor der Speicherung im Data Warehouse werden diese Daten hinsichtlich der Auszeichnung ihrer Metadaten und ihres Formats vereinheitlicht. Auf diese Weise wird sichergestellt, dass sich nur durch das System les- und auswertbare Daten im Data Warehouse befinden.

Beispiel: Daten zum Geschlecht von Kunden liegen in einer operationalen Quelldatenbank im Format „Mann“, „Frau“, in einer zweiten im Format „m“, „f“ und in einer dritten im Format „1“, „0“ vor. Zur Speicherung im Data Warehouse werden die Datenbanken auf das Format „m“, „f“ vereinheitlicht [2].

Zeitorientierung: Um zeitliche Entwicklungen und Veränderungen nachvollziehen zu können, enthält jeder Datensatz, der im Data Warehouse gespeichert wird, einen zeitlichen Bezugsfaktor. Auf diese Weise ist beispielsweise möglich, anhand der historischen Daten Kaufmuster von Kunden oder bestimmte Trends zu erkennen.

Beständigkeit: Um Daten über längere Zeiträume sinnvoll auswerten zu können, ist es wichtig, dass die Datensätze im Data Warehouse lückenlos sind. Aus diesem Grund spielt die Beständigkeit der Daten eine wichtige Rolle. Daten können deshalb weder gelöscht noch verändert oder aktualisiert werden. Auch werden keine Daten überschrieben, wenn neue hinzugefügt werden [3].

Arten von Data Warehouses

Grundsätzlich wird zwischen drei Arten von Data Warehouses unterschieden:

1. Enterprise Data Warehouse

Das Enterprise Data Warehouse (kurz: EDW) dient als zentrale Datenbank, die den Zweck hat, die Entscheidungsfindung im gesamten Unternehmen zu erleichtern. Der große Vorteil dieser Art von Data Warehouse besteht darin, dass sie Nutzern Zugriff auf organisationsübergreifende Informationen bietet, einen einheitlichen Ansatz für die Datendarstellung verfolgt und die Ausführung komplexer Abfragen ermöglicht [4].

2. ODS-Betriebsdatenspeicher

Diese Art von Data Warehouse wird in Echtzeit aktualisiert. Es wird oft für Routinetätigkeiten wie das Speichern von Mitarbeiterdaten bevorzugt. Ein ODS-Betriebsdatenspeicher ist erforderlich, wenn ein Data-Warehouse-System die Berichtsanforderungen des Unternehmens nicht unterstützt [5].

3. Data-Mart

Bei einem Data-Mart handelt es sich um einen Teilauszug aus einem Data Warehouse. Er enthält meist nur Daten zu einem bestimmten Themenbereich und dient häufig einzelnen Abteilungen im Unternehmen zu Analysezwecken. Ein Data-Mart verbessert durch seine geringere Größe die Performance von Abfragen im Data Warehouse und erleichtert den Zugang zu bestimmten Daten. Ein Grund für das Arbeiten mit Data Marts können Datenschutzbestimmungen (DSGVO) sein. Denn in der Regel darf nicht jede Abteilung oder jeder Anwender auf sämtliche Daten im Data Warehouse zugreifen. Mit einem Data-Mart lässt sich dies lösen, da Nutzer so nur auf bestimmte Daten aus dem Data Warehouse zugreifen können [6].

Data Warehouse vs. Data Lake

Wenn es um das Speichern von Big Data geht, taucht neben dem Data Warehouse häufig auch der Data Lake auf. Zwar sind sich die beiden Konzepte ähnlich, doch grundsätzlich handelt es sich um unterschiedliche Systeme, was sich unter anderem in der Datenstruktur und in der Zielgruppe der Daten zeigt. Ein großer Unterschied ist zum Beispiel die Art, wie die beiden Systeme Daten speichern: Während der Data Lake ähnlich wie ein großer See funktioniert und Daten aus ihm zufließenden Quellen in ihrem Rohformat speichert, werden diese im Data Warehouse vor dem Speichern bereinigt und in ein einheitliches Format gebracht. Bei einem Data Lake erfolgt diese Aufbereitung erst, wenn die Daten weiterverarbeitet werden sollen. Die Speicherung von Daten in einem Data Lake hat nicht immer einen konkreten Zweck. In manchen Fällen dient sie nur dazu, die Daten bei Bedarf zur Hand zu haben. Data Warehouse enthalten hingegen nur bereits verarbeitete Daten, die in einem Unternehmen für einen bestimmten Zweck zum Einsatz kommen. Dadurch lassen sie sich schnell für Berichte oder Datenanalysen nutzen [7].

Data Warehouse in der Praxis

Airlines

Airlines bietet ein Data Warehouse den Vorteil, dass sich durch die sinnvoll miteinander verknüpften Daten beispielsweise die Profitabilität von Flugrouten auf Basis der Fluggastzahlen und des Kerosinverbrauchs analysieren lässt. Routen, die nicht rentabel sind, können so aus dem Angebot gestrichen und die Profitabilität der Airline erhöht werden.

Krankenhäuser

Im Krankenhaus lässt sich ein Data Warehouse auf vielfältige Weise einsetzen. Unter anderem lässt sich durch das Zusammenführen von Daten aus verschiedenen Quellen wie dem Labor der Verlauf von Erkrankungen einzelner Patienten besser vorhersagen. Auch ist es möglich, mit einem Data Warehouse individuelle Therapiepläne zu erstellen und die Abrechnung mit Versicherungen einfacher und schneller zu gestalten.

Reisebranche

Unternehmen aus der Reisebranche kann das Data Warehouse zum Beispiel helfen, Kunden auf Basis ihrer Reisegewohnheiten und ihres Feedbacks besondere Angebote zukommen zu lassen. Auch die Zufriedenheit der Kunden mit ihrer Unterkunft lässt sich mit einem Data Warehouse steigern, indem beispielsweise begeisterten Tennisspielern gezielt ein Hotelaufenthalt mit Tennisplatz angeboten wird.

Versicherungsbranche

Eine Möglichkeit für Krankenversicherungen bietet das Data Warehouse in Kombination mit IoT-Devices wie Fitnessarmbändern oder Körperfettwaagen. Diese Daten lassen sich zusammen mit anderen Gesundheitsdaten nutzen, um zum Beispiel individuelle Versicherungstarife zu berechnen. In der Kfz-Versicherung können IoT-Devices Telemetriedaten aus Autos liefern, die es zusammen mit anderen Daten ermöglichen, das individuelle Schadensrisiko vorherzusagen und auf dieser Basis Tarife anzupassen [8].

Vor und Nachteile von Data Warehouses

Die Nutzung von Data Warehouses bietet Unternehmen zahlreiche Vorteile. Besonders, wenn es um das Speichern und Auswerten großer Datenmengen aus unterschiedlichen Quellen geht, ist das Data Warehouse ein nützliches Tool. Es kann – insbesondere mit Bezug auf die rechtlichen Bestimmungen – aber auch Nachteile mit sich bringen. Im Folgenden sind die wichtigsten Vor- und Nachteile eines Data Warehouses aufgelistet:

Vorteile von Data Warehouse

  • besitzt eine große Kapazität, um große Mengen an Daten zu speichern
  • ist in der Lage Daten aus unterschiedlichen Quellen zu speichern
  • gewährleistet eine hohe Datenqualität und Datenkonsistenz
  • ermöglicht einen Überblick über historische Daten
  • bildet die Grundlage für wertvolle Auswertungen
  • erhöht die Produktivität

Nachteile von Data Warehouse

  • kann bei falscher Handhabung zu datenschutzrechtlichen Problemen führen
  • zunehmend lange Ladezeiten bei steigendem Datenvolumen
  • eignet sich nicht für kleine Unternehmen
  • kann hohe Kosten verursachen

Videos zu Data Warehouse

Jetzt den SEO-Küche-Newsletter abonnieren

Ähnliche Artikel

Paretoprinzip

Das Pareto-Prinzip einfach erklärt Das Paretoprinzip, auch bekannt als 80/20-Regel, ist eine Faustregel, die besagt, dass in vielen Situationen etwa 80 Prozent der Ergebnisse oder Auswirkungen durch nur 20 Prozent der Ursachen, Anstrengungen oder Aufwand hervorgerufen werden. Ein einfaches Beispiel für das Pareto-Prinzip: In einem Unternehmen erzielen möglicherweise 20 Prozent […]

htaccess-Datei

Was ist die htaccess-Datei? Die .htaccess-Datei ist eine Konfigurationsdatei für Webserver, die in der Regel auf Webservern verwendet wird. Vereinfacht gesagt kann sie verwendet werden, um bestimmte Einstellungen für eine Website oder einen Verzeichnisbereich innerhalb der Website zu konfigurieren. Zum Beispiel kann sie verwendet werden, um Passwörter für bestimmte Bereiche […]

Buzzword

Was ist ein Buzzword? Der Begriff Buzzword, auch Schlagwort, Catchword oder Catchphrase genannt, beschreibt einen Ausdruck oder Spruch, der besondere Aufmerksamkeit erregen und Inhalte überzeugend mitteilen soll. Meist handelt es sich dabei um einzelne Wörter oder kurze Phrasen, die Sachverhalte kurz und prägnant wiedergeben sowie beim Rezipienten Interesse und Wiedererkennen […]

Sitemap

Was ist die Sitemap.xml? Eine Sitemap ist eine Seitenübersicht oder eine Art Inhaltsverzeichnis, das die Darstellung einer Webseite vollständig und hierarchisch wiedergibt. Sie dient in erster Linie dazu, den Bots verschiedener Suchmaschinen wie Google oder Bing die Erfassung von Webseiteninhalten zu vereinfachen. Die Sitemap.xml steuert die Indexierung der Website bei […]

CSS

Was ist CSS? CSS ist die Abkürzung für Cascading Style Sheets, was sich am besten mit „gestufte Stilvorlagen“ übersetzen lässt. Dabei handelt es sich um eine Gestaltungs- und Formatierungssprache, mit deren Hilfe sich das optische Erscheinungsbild elektronischer Dokumente (z. B. HTML-Websites) bestimmen lässt. Anhand einfacher Anweisungen im Quelltext ist es so möglich, gestalterische Elemente wie das […]

Google Groups

Was ist Google Groups? Google Groups ist ein kostenloser Dienst von „Google Inc.“, welcher einen kombinierten Zugang zu Usenet, Diskussionsforen und Social Communitys ermöglicht. Durch den Online-Dienst können Internetforen durchsucht sowie eigene „Groups“ (deutsch = Gruppen) erstellt werden. Geschichte von Google Groups Google Groups wurde 2001 im Rahmen einer Übernahme […]