Charakteristika von Modellierungsmustern

FOKUSARTIKEL
Analyse von Charakteristika von Modellierungsmustern und Ansätzen
Charakteristika von Modellierungsmustern
Heutzutage gibt es verschiedene neuartige agile Datenmodellierungsansätze, um die individuellen Anforderungen
und Beschränkungen der Datenmodellierung für das unternehmensweite Data Warehouse zu adressieren. Diese
Ansätze stellen bestimmte Techniken bereit, um diesen Anforderungen und Beschränkungen zu begegnen. Während
es mehrere Charakteristika gibt, die diese Ansätze unterscheiden, konzentriert sich diese Analyse auf drei bestimmte Charakteristika bzw. Kriterien, die im Folgenden im Einzelnen dargestellt werden.
Im Fokus dieser Untersuchung stehen die drei folgenden
Charakteristika:
ÂÂ Zusammengesetzte gegenüber zerlegte Tabellenformen
ÂÂ Abstrahierte gegenüber Geschäftskonzept-Orientierung
ÂÂ Generischer gegenüber beschriebener Zusammenhang
Zunächst werden diese drei Charakteristika definiert. Auf
dieser Basis werden spezifische Modellierungsansätze betrachtet und es wird besprochen, wie sich diese Ansätze den
drei Charakteristika zuordnen lassen.
Abb. 1: Entität und Ensemble
Charakteristika
Zusammengesetzte gegenüber zerlegte Tabellenformen
einer vereinigten Zerlegung, was bedeutet, dass alle Teile
als Ganzes betrachtet werden und auch nur Bedeutung in
der Beziehung zum Ganzen haben.
Zusammengesetzte Tabellenformen sind der Standard
in der Datenmodellierung über die letzten 30 Jahre gewe- Abstrahierte gegenüber Geschäftskonzept-Orientierung
sen. Heute sind die noch immer vorherrschenden Formen Abstrahierte Konzepte sind eine Form von supertypisierdie dritte Normalform 3NF und die dimensionale Model- ten oder hochlagigen Entitäten. In der Auswirkung sind
lierung. In beiden Formen wird ein Kerngeschäftskonzept dies Klassifizierungen von Dingen, welche wir auf höheren
durch eine Entität (oder Dimension) repräsentiert, welche Ebenen von Taxonomien oder Hierarchien finden. So sind
den Geschäftsschlüssel und alle Kontextattribute innerhalb ein Kunde, ein Käufer oder ein Mitarbeiter alle Typen von
Partnern auf einer abstrahierten Ebene. Wir tendieren dazu,
derselben Tabelle führt.
Zerlegte Tabellenformen: Es wird für die Modellie- abstrahierte Konzepte vorrangig für die Informationsmodelrung des Data Warehouse üblicher, dass Formen verwendet lierung zu verwenden, und so finden wir diese auch häufig
werden, die eine Art der
Tabellenzerlegung praktizieren. Dies bedeutet,
dass Geschäftsschlüssel
und Kontextattribute, die
Kerngeschäftskonzepte
bilden, in eine Menge von
zusammenhängenden Tabellen übersetzt werden.
Diese Tabellen sind Teile
eines Ganzen – ein Ensemble – und zusammen
bilden diese dieselbe Information ab, wie diese in
einer zusammengesetzten
Tabellenform
gebildet
würde.
Abbildung 1 zeigt
eine zusammengesetzte
Tabellenform
(Entität)
Abb. 2: Dieses Diagramm illustriert die Geschäftskonzeptebene im Vergleich zu abstrahierten und mehr
neben einer zerlegten Taspezifischen Ebenen. Bemerkenswert ist, dass die Ebene des Konzeptes durch die Frequenz der gegenbellenform (Ensemble).
Ein Ensemble entspricht wärtigen Nutzung im Geschäftsalltag bestimmt wird (die Anzahl der Nennungen im Geschäftsalltag).
02
ONLINE THEMENSPECIAL DATA VAULT MODELING
FOKUSARTIKEL
Abb. 3: Generisches Name/Wert-Paar und beschriebenes Modell
in Industriereferenzmodellen. Und es gibt diejenigen, die
abstrahierte Konzepte in der Datenmodellierung verwenden
(logisch und physisch).
Geschäftskonzepte oder Kerngeschäftskonzepte sind die
geschäftsgetriebenen, natürlichen Ebenen von Entitäten. Sie
repräsentieren die Ebene auf der das Geschäft Transaktionen erstellt und durchführt, diskutiert, anwendet und darauf
berichtet. So sind ein Kunde, ein Käufer und ein Mitarbeiter
Geschäftskonzepte.
Generischer gegenüber beschriebener Zusammenhang
Ein generischer Zusammenhang bezieht sich auf generische
Formen, welche bei der Erzeugung und der Speicherung
von beschreibenden Daten zu den Konzepten in unserem
Data Warehouse angewendet werden. Üblicherweise besteht
diese generische Form aus einem Name-Wert-Paar (NWP),
obgleich es auch andere Formen von n-strukturierten Daten
sein können. Auf diese Weise werden die Daten ohne ein definiertes und modelliertes Schema (beschreibendes Datenmodell) gespeichert. Datensätze/Zeilen bestehen in diesen
Tabellen aus zwei Teilen:
1. dem Namen des Attributs oder der Kennzeichnung und
2. dem dazugehörigen Datenwert für diesen Eintrag.
Ein Beispiel für diese Tabelle, die genau zwei Attribute enthält: Name und Wert. Die Datensätze in dieser Tabelle definieren dann den Attributnamen, der zu dem dazugehörigen
Wert passt (vorname: Hans; nachname: Hultgren; email:
[email protected] und anderes). Dieser Ansatz wird manchmal als datengetrieben oder vertikal/senkrecht beschrieben.
Ein beschriebener Zusammenhang bezieht sich auf gegenwärtig modellierte Schemata, die spezifische Attributnamen im Datenmodell enthalten. Dies ist der traditionelle Ansatz in der Datenmodellierung, in dem der Zusammenhang,
der die Entität oder das Konzept definiert, analysiert, gestaltet und in einer Tabellenstruktur modelliert wird. Dieser
Ansatz wird manchmal als modellgetrieben oder horizontal/
waagerecht beschrieben.
Bemerkenswert ist an
dieser Stelle, dass die MWP (NVP) Form oben links genau
zwei Attribute hat, Name und Wert. Diese Form kommuniziert nicht die geplanten (vorweggenommenen, erwarteten
oder erforderlichen) Kontextattribute. Um zu verstehen,
welche Typen von Kontextattributen existieren, müssen wir
die Daten in der Tabelle abfragen.
In dem beschriebenen Modell oben rechts können wir
sehen, dass das Schema selbst die spezifischen Attribute
kommuniziert, die in das Modell Einzug gefunden haben.
In diesem Fall kommuniziert das Modell selbst die spezifischen Kontextattribute, die existieren.
Zusammenfassung der Charakteristika
Die drei Hauptmerkmale der oben genannten Ansätze sind
eine Untermenge mehrerer Modellierungscharakteristiken,
die wir betrachten müssen, wenn wir eine Modellierungsform für unser Data Warehouse festlegen. Der Fokus dieser
Analyse liegt im Vergleich verschiedenartiger Modellierungsansätze. Für Vergleichszwecke ist diese Analyse auf
die oben diskutierten drei Faktoren beschränkt.
Modellierungsansätze
In dieser Analyse betrachten wir nur „Data Vault“-Modellierung, „Anker“-Modellierung, „3NF normalisiert“ und
„Dimensionale“ Modellierung. Die Modellierungsansätze,
die in eine breitere Analyse fallen, sind zusätzlich zu den
bisher genannten „Focal Point“-Modellierung, Head & Version und 3NF generisch.
Die Abbildungen 4–7 zeigen anhand von Schiebereglern
die Nähe der jeweiligen Modellierungsarten zu den Enden
der drei Charakteristika.
Bemerkenswert ist, dass sich alle vier Modellierungsansätze hinsichtlich der Geschäftsorientierung und des
beschriebenen Zusammenhangs sehr ähnlich sind. Keiner
dieser Ansätze bewegt sich zu abstrahierten Konzepten oder
generischen Zusammenhängen hin. Allerdings lässt sich
ONLINE THEMENSPECIAL DATA VAULT MODELING
03
FOKUSARTIKEL
Abb. 4: Data-Vault-Modellierung
Abb. 5: Anker-Modellierung
Abb. 6: 3NF Normalisierte Modellierung
Abb. 7: Dimensionale Modellierung
zwischen den erstgenannten (Data Vault und Anker) und
den letztgenannten Formen (3NF Normalisiert und Dimensional) ein Unterschied feststellen, nämlich eine Zerlegung
der Tabellen (Data Vault und Anker) im Gegensatz zu einer Zusammensetzung der Tabellen (3NF Normalisiert und
Dimensional). Dies ist eine sehr wichtige Beobachtung,
weil uns diese Modellierungsansätze eine andere, im Wesentlichen aber gleiche Sicht auf denselben Zusammenhang
ermöglichen.
Data Warehouse zu modellieren, ohne die Geschäftsorientierung und den beschriebenen Zusammenhang zu verlieren.
Anker-Modellierung und Data Vault sind zwei Modellierungsansätze, die durch die Zerlegung in Teile Änderungen
im Geschäftsmodell flexibler abbilden können. Beide folgen
dem Gedanken der Zerstörungsfreiheit. Einmal modellierte
Entitäten sollen im Grundsatz nicht mehr verändert werden.
Die Formen, die abstrahierte Konzepte oder generische
Zusammenhänge verwenden, repräsentieren eine weitere
Menge von Modellierungsansätzen.
Schlussbemerkung
Diese Analyse soll darstellen, dass zerlegte Tabellenformen
eine weitere Möglichkeit darstellen, das unternehmensweite
Hans Hultgren ist ein Data-Warehousing- und Business-Intelligence-Lehrer, Autor, Trainer und Berater. Der Text wurde
aus dem Englischen übersetzt und in Passagen erweitert von Oliver Cramer.
04
ONLINE THEMENSPECIAL DATA VAULT MODELING