Es ist daher fraglich, ob diese Ansätze bei allen modernen Fragestellungen und Anforderungen der heutigen Zeit noch angemessen sind. Aus dieser Überlegung heraus entstand der Data Vault-Modellierungsansatz.
Herausforderungen klassischer Data Warehouses
Im Data Warehouse-Umfeld gibt es zwei bekannte Modellierungsansätze nach Kimball und Inmon, die seit unzähligen Jahren verwendet werden, wenn es um die Speicherung von Daten geht. Diese müssen sich jedoch immer mehr den wachsenden Herausforderungen stellen:
Neue Anforderungen
Größere Datenmengen
Wachsende IT-Kosten
Was ist Data Vault?
Data Vault ist eine Modellierungstechnik, die insbesondere für agile Data Warehouses geeignet ist. Sie bietet eine hohe Flexibilität bei Erweiterungen, eine vollständige Historisierung der Daten und erlaubt eine Parallelisierung der Datenladeprozesse.
Dieser hybride Ansatz vereint alle Vorteile der dritten Normalform mit dem Sternschema. Gerade in der heutigen Zeit müssen Unternehmen in immer kürzeren Zyklen ihre Geschäfte transformieren und diese Transformationen im Data Warehouse abbilden. Data Vault unterstützt genau diese Anforderungen, ohne die Komplexität des Data Warehouses im Laufe der Zeit wesentlich zu erhöhen. Anders als bei Kimball und Inmon entfallen dadurch die immer stärker wachsenden IT Kosten für die umfangreichen Implementierungs- und Testzyklen sowie eine lange Liste von möglichen Abhängigkeiten.
Vorgehensweise bei Data Vault
Die Datenintegrationsarchitektur des Data Vault-Ansatzes verfügt über robuste Standards und Definitionsmethoden, die Informationen zusammenführen, um sie sinnvoll zu nutzen. Das Modell besteht aus drei grundlegenden Tabellentypen:
Hub (blau)
Enthält eine Liste eindeutiger Geschäftsschlüssel, wie z.B. KundennummernLink (orange)
Stellt Beziehungen zwischen den Geschäftsschlüsseln her. Links werden häufig verwendet, um Änderungen in der Datengranularität zu behandeln und die Auswirkungen des Hinzufügens eines neuen Geschäftsschlüssels zu einem verknüpften Hub zu reduzieren.
Satellit (türkis)
Enthält beschreibende Attribute, die sich im Laufe der Zeit ändern können. Wo Hubs und Links die Struktur des Datenmodells bilden, enthalten die Satelliten zeitliche und beschreibende Attribute einschließlich Metadaten, die sie mit ihrem übergeordneten Hub oder den Link-Tabellen verknüpfen.
- Massive Reduzierung von Entwicklungszeit bei der Implementierung von Business-Anforderungen
- Früherer Return of Investment (ROI)
- Skalierbares Data Warehouse
- Nachvollziehbarkeit aller Daten bis zum Quellsystem
- Near-Real-Time Beladung (neben klassischem Batch Lauf)
- Big Data Processing (>Terabytes)
- Iterative, agile Entwicklungszyklen mit inkrementellem Ausbau des DWHs
- Wenige, automatisierbare ETL Patterns
Marc BastienSoftware Architect