Skip to main content

Data Warehouse


PDF herunterladen

Was ist ein Data Warehouse?

Bei einem Data Warehouse (manchmal auch Datenlager genannt, kurz: DWH) handelt es sich um ein zentrales Datenbanksystem, das sich in Unternehmen zu Analyse- und Prognosezwecken einsetzen lässt. Für diesen Zweck sammelt und verdichtet das System relevante Daten aus verschiedenen heterogenen Datenquellen wie zum Beispiel dem Customer Relationship Management (CRM), Human Resources (HR) oder Enterprise Resource Planning (ERP) und stellt diese nachgelagerten Anwendungen zur Verfügung.

data warehouse was ist data warehouse

Data Warehouse einfach erklärt

Ein Data Warehouse ist vereinfacht gesagt eine Sammlung von Informationen, die aus den unterschiedlichsten Quellen stammen können. Dabei kann es sich sowohl um unternehmensinterne Datenquellen wie CRM-Systeme handeln als auch um externe Datenquellen wie zum Beispiel News-Feeds, Wetterberichte, Web-Analytics-Programme oder soziale Medien. Die Quelldaten, die im Data Warehouse gespeichert werden sollen, können strukturiert, teilstrukturiert oder unstrukturiert sein.

Im Rahmen des sogenannten ETL-Prozesses (Abkürzung für: Extract, Transform, Load) werden die gegebenenfalls unterschiedlich strukturierten Daten zusammengeführt, vereinheitlicht und miteinander verknüpft in einer Datenbank im Data Warehouse gespeichert. So können Nutzer unter anderem mittels Business Intelligence- und Analyse-Tools oder Excel/Spreadsheets auf die Daten zugreifen und beispielsweise Kunden oder Geschäftsprozesse ganzheitlicher analysieren, um auf dieser Basis wichtige Entscheidungen zu treffen [1].

Charakteristika von Data Warehouses

Ein Data Warehouse zeichnet sich durch einige typische Charakteristika aus. Dazu gehören:

Themenorientierung: Die Daten in einem Data Warehouse sind themenbezogen. Es enthält also Informationen zu bestimmten Themen und nicht etwa zu Geschäftsvorgängen. Mögliche Themen können zum Beispiel Kunden, Produkte oder auch Verkäufe sein. Solch ein Data Warehouse könnte beispielsweise Antworten auf Fragen wie “Wer war im vergangenen Jahr unser bester Kunde?” oder “Wer wird voraussichtlich im kommenden Jahr unser bester Kunde sein?” liefern.

Vereinheitlichung: Die aus verschiedenen Quellen wie zum Beispiel Word- oder Excel-Dokumenten, Flat-Files oder Cloud-Datenbanken stammenden Daten weisen häufig unterschiedliche Strukturen auf. Vor der Speicherung im Data Warehouse werden diese Daten hinsichtlich der Auszeichnung ihrer Metadaten und ihres Formats vereinheitlicht. Auf diese Weise wird sichergestellt, dass sich nur durch das System les- und auswertbare Daten im Data Warehouse befinden.

Beispiel: Daten zum Geschlecht von Kunden liegen in einer operationalen Quelldatenbank im Format “Mann”, “Frau”, in einer zweiten im Format “m”, “f” und in einer dritten im Format “1”, “0” vor. Zur Speicherung im Data Warehouse werden die Datenbanken auf das Format “m”, “f” vereinheitlicht [2].

Zeitorientierung: Um zeitliche Entwicklungen und Veränderungen nachvollziehen zu können, enthält jeder Datensatz, der im Data Warehouse gespeichert wird, einen zeitlichen Bezugsfaktor. Auf diese Weise ist beispielsweise möglich, anhand der historischen Daten Kaufmuster von Kunden oder bestimmte Trends zu erkennen.

Beständigkeit: Um Daten über längere Zeiträume sinnvoll auswerten zu können, ist es wichtig, dass die Datensätze im Data Warehouse lückenlos sind. Aus diesem Grund spielt die Beständigkeit der Daten eine wichtige Rolle. Daten können deshalb weder gelöscht noch verändert oder aktualisiert werden. Auch werden keine Daten überschrieben, wenn neue hinzugefügt werden [3].

Arten von Data Warehouses

Grundsätzlich wird zwischen drei Arten von Data Warehouses unterschieden:

1. Enterprise Data Warehouse

Das Enterprise Data Warehouse (kurz: EDW) dient als zentrale Datenbank, die den Zweck hat, die Entscheidungsfindung im gesamten Unternehmen zu erleichtern. Der große Vorteil dieser Art von Data Warehouse besteht darin, dass sie Nutzern Zugriff auf organisationsübergreifende Informationen bietet, einen einheitlichen Ansatz für die Datendarstellung verfolgt und die Ausführung komplexer Abfragen ermöglicht [4].

2. ODS-Betriebsdatenspeicher

Diese Art von Data Warehouse wird in Echtzeit aktualisiert. Es wird oft für Routinetätigkeiten wie das Speichern von Mitarbeiterdaten bevorzugt. Ein ODS-Betriebsdatenspeicher ist erforderlich, wenn ein Data-Warehouse-System die Berichtsanforderungen des Unternehmens nicht unterstützt [5].

3. Data-Mart

Bei einem Data-Mart handelt es sich um einen Teilauszug aus einem Data Warehouse. Er enthält meist nur Daten zu einem bestimmten Themenbereich und dient häufig einzelnen Abteilungen im Unternehmen zu Analysezwecken. Ein Data-Mart verbessert durch seine geringere Größe die Performance von Abfragen im Data Warehouse und erleichtert den Zugang zu bestimmten Daten. Ein Grund für das Arbeiten mit Data Marts können Datenschutzbestimmungen (DSGVO) sein. Denn in der Regel darf nicht jede Abteilung oder jeder Anwender auf sämtliche Daten im Data Warehouse zugreifen. Mit einem Data-Mart lässt sich dies lösen, da Nutzer so nur auf bestimmte Daten aus dem Data Warehouse zugreifen können [6].

Data Warehouse vs. Data Lake

Wenn es um das Speichern von Big Data geht, taucht neben dem Data Warehouse häufig auch der Data Lake auf. Zwar sind sich die beiden Konzepte ähnlich, doch grundsätzlich handelt es sich um unterschiedliche Systeme, was sich unter anderem in der Datenstruktur und in der Zielgruppe der Daten zeigt. Ein großer Unterschied ist zum Beispiel die Art, wie die beiden Systeme Daten speichern: Während der Data Lake ähnlich wie ein großer See funktioniert und Daten aus ihm zufließenden Quellen in ihrem Rohformat speichert, werden diese im Data Warehouse vor dem Speichern bereinigt und in ein einheitliches Format gebracht. Bei einem Data Lake erfolgt diese Aufbereitung erst, wenn die Daten weiterverarbeitet werden sollen. Die Speicherung von Daten in einem Data Lake hat nicht immer einen konkreten Zweck. In manchen Fällen dient sie nur dazu, die Daten bei Bedarf zur Hand zu haben. Data Warehouse enthalten hingegen nur bereits verarbeitete Daten, die in einem Unternehmen für einen bestimmten Zweck zum Einsatz kommen. Dadurch lassen sie sich schnell für Berichte oder Datenanalysen nutzen [7].

Data Warehouse in der Praxis

Airlines

Airlines bietet ein Data Warehouse den Vorteil, dass sich durch die sinnvoll miteinander verknüpften Daten beispielsweise die Profitabilität von Flugrouten auf Basis der Fluggastzahlen und des Kerosinverbrauchs analysieren lässt. Routen, die nicht rentabel sind, können so aus dem Angebot gestrichen und die Profitabilität der Airline erhöht werden.

Krankenhäuser

Im Krankenhaus lässt sich ein Data Warehouse auf vielfältige Weise einsetzen. Unter anderem lässt sich durch das Zusammenführen von Daten aus verschiedenen Quellen wie dem Labor der Verlauf von Erkrankungen einzelner Patienten besser vorhersagen. Auch ist es möglich, mit einem Data Warehouse individuelle Therapiepläne zu erstellen und die Abrechnung mit Versicherungen einfacher und schneller zu gestalten.

Reisebranche

Unternehmen aus der Reisebranche kann das Data Warehouse zum Beispiel helfen, Kunden auf Basis ihrer Reisegewohnheiten und ihres Feedbacks besondere Angebote zukommen zu lassen. Auch die Zufriedenheit der Kunden mit ihrer Unterkunft lässt sich mit einem Data Warehouse steigern, indem beispielsweise begeisterten Tennisspielern gezielt ein Hotelaufenthalt mit Tennisplatz angeboten wird.

Versicherungsbranche

Eine Möglichkeit für Krankenversicherungen bietet das Data Warehouse in Kombination mit IoT-Devices wie Fitnessarmbändern oder Körperfettwaagen. Diese Daten lassen sich zusammen mit anderen Gesundheitsdaten nutzen, um zum Beispiel individuelle Versicherungstarife zu berechnen. In der Kfz-Versicherung können IoT-Devices Telemetriedaten aus Autos liefern, die es zusammen mit anderen Daten ermöglichen, das individuelle Schadensrisiko vorherzusagen und auf dieser Basis Tarife anzupassen [8].

Vor und Nachteile von Data Warehouses

Die Nutzung von Data Warehouses bietet Unternehmen zahlreiche Vorteile. Besonders, wenn es um das Speichern und Auswerten großer Datenmengen aus unterschiedlichen Quellen geht, ist das Data Warehouse ein nützliches Tool. Es kann – insbesondere mit Bezug auf die rechtlichen Bestimmungen – aber auch Nachteile mit sich bringen. Im Folgenden sind die wichtigsten Vor- und Nachteile eines Data Warehouses aufgelistet:

Vorteile von Data Warehouse

  • besitzt eine große Kapazität, um große Mengen an Daten zu speichern
  • ist in der Lage Daten aus unterschiedlichen Quellen zu speichern
  • gewährleistet eine hohe Datenqualität und Datenkonsistenz
  • ermöglicht einen Überblick über historische Daten
  • bildet die Grundlage für wertvolle Auswertungen
  • erhöht die Produktivität

Nachteile von Data Warehouse

  • kann bei falscher Handhabung zu datenschutzrechtlichen Problemen führen
  • zunehmend lange Ladezeiten bei steigendem Datenvolumen
  • eignet sich nicht für kleine Unternehmen
  • kann hohe Kosten verursachen

Videos zu Data Warehouse

Jetzt den SEO-Küche-Newsletter abonnieren

Ähnliche Artikel

Google Groups

Was ist Google Groups? Google Groups ist ein kostenloser Dienst von „Google Inc.“, welcher einen kombinierten Zugang zu Usenet, Diskussionsforen und Social Communitys ermöglicht. Durch den Online-Dienst können Internetforen durchsucht sowie eigene „Groups“ (deutsch = Gruppen) erstellt werden. Geschichte von Google Groups Google Groups wurde 2001 im Rahmen einer Übernahme […]

Entitäten

Was ist eine Entität? Der von dem lateinischen Wort “ens” (deutsch: “Ding” oder “Seiendes”) abgeleitete Begriff Entität findet sich in der Philosophie, Informatik und Semantik. Er beschreibt ein Objekt, das sich eindeutig identifizieren lässt und Informationen beinhaltet. Entitäten können sowohl in der realen Welt existierende Dinge (auch “Benannte Entitäten” genannt) […]

Datenbank

Was ist eine Datenbank? Eine Datenbank ist ein elektronisches System, in dem sich größere Datenmengen zentral speichern lassen. Ein Datenbanksystem (DBS) setzt sich aus zwei Teilen zusammen: einem Datenbankmanagementsystem (DMBS) und der Datenbank (DB) im eigentlichen Sinne, in der die Menge der zu verwaltenden Daten (auch Datenbasis genannt) gespeichert ist. Heute verwenden nahezu alle IT-Anwendungen wie ERP-, CRM- und Warenwirtschafts-Systeme, aber auch Suchmaschinen […]

Google Alerts

Was ist Google Alerts? Google Alerts ist ein seit 2014 existierender kostenloser Dienst der Suchmaschine Google. Jeder Nutzer kann Benachrichtigungen für beliebige Keywords oder Begriffe einrichten und Google benachrichtigt per E-Mail oder über seinen RSS-Feed, wenn die Suchmaschine einen passenden neuen Eintrag in ihrer Ergebnisliste findet. Alerts informieren Benutzer automatisch, […]

Release Management

Release Management einfach und verständlich erklärt Der Begriff Release Management beschreibt die Planung, Umsetzung und das Controlling von Softwareentwicklungsprozessen und der angewendeten IT-Infrastruktur. Release Management – Definition Durch das Release Management wird es möglich, einen Überblick über den gesamten Entwicklungsprozess von Softwares, Web-Anwendungen und deren Updates sicherzustellen. Das Release Management […]

Google Doodle

Was ist Google Doodle? Als Google Doodle (deutsch: Kritzelei, Gekritzel ) bezeichnet der US-amerikanische Suchmaschinenbetreiber Google die unterschiedliche Darstellung seines Firmenlogos auf der Startseite und in den Suchergebnisseiten (kurz: [a href=https://www.seo-kueche.de/lexikon/serp-search-engine-result-page/]SERP[/a]). Seit 1998 ist es bei dem Tech-Unternehmen Tradition, zu besonderen Anlässen wie Geburtstagen wichtiger Persönlichkeiten aus Kunst und Wissenschaft, […]