Data Vault

Data Vault 2.0 ist eine Weiterentwicklung von Data Vault 1.0 und erweitert diesen Standard um eine Referenzarchitektur und eine einheitliche, agile Vorgehensweise. Daneben werden Empfehlungen für die (automatisierte) Implementation der ETL-Prozesse gegeben.

Die Dörffler & Partner GmbH bietet Ihnen Data-Vault-Beratung und -Implementierung an.

In den nächsten Abschnitten stellen wir kurz die “Säulen” von Data Vault 2.0 vor. Wenn Sie weitere Fragen haben, können Sie uns gerne unter DataVault@doerffler.com kontaktieren.

 

DATA-VAULT-2.0-ARCHITEKTUR

Die Data-Vault-2.0-Architektur adressiert typische Anforderungen an ein Enterprise Data Warehouse durch:

  • Ein hochflexibles Datenmodell, welches „evolutorisches“ Wachstum erlaubt
  • Eine dreischichtige Architektur (Raw Vault, Business Vault, Information Marts)
  • Strikte Trennung von Lade- und Business-Logik
  • Frühzeitiger Integration der Daten über die Business-Schlüssel
  • Speicherung der Historie im Raw Vault
  • Bereitstellung mehrerer Information Marts um die unterschiedlichen Anforderungen der Informationskonsumenten zu erfüllen
  • Iteratives Hinzufügen neuer Datenquellen und Geschäftsregeln, um neue oder sich ändernde Anforderungen zu erfüllen
  • Einfache Bereitstellung von (virtuellen) Raw-Marts, zur frühzeitigen Interaktion mit den Informationsnutzern
  • Managed Self-Service BI
  • Möglichkeit der Virtualisierung von Business Vault und Marts
  • Unterstützung von heterogenen und unstrukturierten Datenquellen, sowie NoSQL (und NewSQL)
  • Unterstützung von Echtzeitdaten (aus SOA/ESB) ohne Änderungen an der DWH-Architektur
  • Hoch skalierbare Architektur / geeignet für MPP und VLDW (Very Large Data Warehouses)
Schematischer Aufbau eines Data-Vault-basierten Data Warehouses

Schematischer Aufbau eines Data-Vault-basierten Data Warehouses(Grafik nach Dan Linstedt)

Im Raw Vault (unterste Schicht des DWH) werden die Daten über die Business-Schlüssel integriert und historisiert. Eine Aufbereitung (beispielsweise eine Aggregation oder Umrechnung) der Daten, sowie die Anwendung von komplexen Business-Regeln, aber auch Daten-Korrekturen, finden erst auf dem Weg in das Business Vault oder die Auswertungsschicht (Data Access Schicht) statt. Marts können relativ schnell für spezielle Anwendungsfälle erzeugt werden. Sie werden typischerweise nach dem dimensionalen Modell (Sternschema) modelliert, können aber auch als relationale Reportstrukturen oder speziell für Data Mining Zwecke aufgebaut werden.

DATA-VAULT-2.0-METHODIK

Viele Teams wünschen sich eine agile Vorgehensweise die speziell auf die Anforderungen für Data Warehouse-Entwicklungen zugeschnitten ist. Erfahrungen zeigen, daß reine Ansätze aus der agilen Software-Entwicklung, beispielsweise Scrum, nur unzureichend in Data Warehouse-Projekten eingesetzt werden kann. Mit der Einführung einer einheitlichen Vorgehensweise hat Dan Linstedt auf diesen Bedarf reagiert. Die Data-Vault-2.0-Methodik vereint Konzepte aus Scrum, CMMI, traditioneller Softwareentwicklung (SDLC), Total Quality Management (TQM), Six Sigma, PMP und Function Point Analyse (FPA).

Ähnlich wie bei der agilen Vorgehensweise mit Scrum ist es das Ziel den Endanwendern verwendbare Funktionen innerhalb kurzer Sprints zur Verfügung zu stellen. Daher wird nicht horizontal “Schicht-für-Schicht” komplett ausgearbeitet, sondern einzelne Funktionen vertikal durch die Schichten der Data-Vault-2.0-Architektur “durchgestochen”. Durch die Data-Vault-2.0 Modellierung ist das Enterprise Data Warehouse schnell erweiterbar, eine zwingende Voraussetzung für dieses agile Vorgehen.

DATA-VAULT-2.0-MODELLIERUNG

Eine zwingende Voraussetzung für eine agile Vorgehensweise wie in der Data-Vault-2.0-Methodik ist die Fähigkeit das bestehende Datenmodell schnell um weitere Funktionalitäten zu erweitern. Die Data-Vault-2.0-Modellierung ist der Schlüssel für diese Voraussetzung. Sie trennt Business-Schlüssel (Hubs), Verbindungen von Business-Schlüsseln (Links) und Kontext (Satelliten) in eigene Entitäten. Die Modellierungsform ist extrem flexibel und bietet einige Vorteile. Das Modell erlaubt ein „evolutionäres“ Wachstum, daher sind Erweiterungen des bestehenden Modells ohne Auswirkung auf das bestehende Modell möglich.

Durch die Verwendung von Information Marts (aka Data Marts) greift der Endanwender weiterhin auf die gewohnten mehrdimensionalen Modelle zu die dann wie üblich auch durch OLAP-Würfel oder ein relationales Berichtswesen dargestellt werden können.

Top