Inside Data Lake (Teil 10)

Business Glossar – da geht noch viel mehr

Werden Finanzdaten aus unterschiedlichen Quellen und Verarbeitungsphasen in einem Data Lake gespeichert, so wird eine gute Strategie für deren Verwaltung benötigt. Wichtiger Bestandteil ist dabei die Erstellung eines Business Glossars, bestehend aus einer übergeordneten fachlichen Beschreibung der vorhandenen Datenbereiche, Entitäten und Attribute als wesentliche Elemente. Aber der Nutzen kann signifikant erhöht werden, wenn das Business Glossar – in Anlehnung an relationale Datenmodelle – um weitere Strukturelemente ergänzt wird.

Wer kann mit wem? Oder: Welche Beziehungen existieren im Data Lake?

Je größer ein Data Lake angelegt ist, desto wahrscheinlicher ist die Existenz von Abhängigkeiten und Beziehungen zwischen den Daten.

Diese Beziehungen weisen eigene Eigenschaften auf, deren Verständnis elementar für die Verwendung der eigentlichen Daten ist. So wie im Anglerparadies zum Beispiel bekannt sein muss, welche Fischsorten – wie in unserer Illustration dargestellt – symbiotisch zusammenleben und daher in den gleichen Regionen zu finden sind, ist es für die Datenabnehmer eines Data Lake wichtig, Informationen über die Beziehung zwischen den verschiedenen Daten zu erhalten:

  • Welche Beziehungen kann/darf/muss ein Geschäft zu einem oder mehreren Partnern in welchen Rollen (zum Beispiel Kreditnehmer, Sicherheitengeber) aufweisen?
  • Muss einem Partner ein Rating zugeordnet sein? Und wenn ja, welche Ratingart (externes Rating und/oder internes Rating)?
  • Welche Eigenschaften müssen diese Ratings wiederum in Abhängigkeit von der Beziehung zu einem Partner aufweisen (zum Beispiel Ratingalter, Aktualität)?

Ohne Kenntnis und Verständnis der Beziehungen und ihrer Eigenschaften erfolgt die Nutzung der Daten nach dem Prinzip „Try & Error“ und führt damit zu Ineffizienzen und Doppelarbeiten. Das Verständnis und damit auch die Sicherstellung der referenziellen Integrität und der Qualität von Daten ist ohne eine fachliche Dokumentation (und deren Anwendung), der über einzelne Entitäten hinweg geltenden Definitionen/Anforderungen nicht erreichbar.

Relationen als Orientierungshilfe im Beziehungschaos der Daten

Dabei können die Beziehungen zwischen Daten unterschiedlicher Natur sein, wie die folgenden Beispiele zeigen:

  • Die Zuordnung von Entitäten aus zwei oder mehr Entitätsmengen zueinander gibt Auskunft über die Zugehörigkeit von Daten (zum Beispiel Kunde/Konto-Beziehung). Analog einem relationalen Datenmodell sind auch hier unterschiedliche Kardinalitäten möglich (1:n, m:n etc.).
     
  • Auch Spezialisierungen von Daten können über Relationen abgebildet werden. Dabei wird eine Entität als Teilmenge einer anderen Entität abgebildet und deklariert, wobei sich die spezialisierte Entität durch besondere Eigenschaften (nur für diese Entität geltende Attribute und/oder Beziehungen) gegenüber der übergeordneten, generalisierten Datenmenge auszeichnet. Ein typischer Fall hierfür sind Daten-Taxonomien, das heißt Klassifizierungen und Unterklassifizierungen von Daten (zum Beispiel Geschäft -> Aktivgeschäft -> Kredit -> Dispo).
     
  • Die Beschreibung des fachlichen Zusammenhangs (zum Beispiel Formel, Methodik oder Ermittlungsvorschrift) zwischen den Eingabe- und Ausgabedaten einer Operation liefert Informationen zum Erzeugungs- beziehungsweise Veredelungsprozess von Daten.

Die Dokumentation solcher Datenzusammenhänge in einem Business Glossar, verbunden mit dem Mapping der konkreten Daten des Data Lake auf diese übergeordneten Glossar-Begriffe, ermöglicht den Daten-Abnehmern erst die Orientierung und Identifizierung der benötigten Daten für ihre Anwendungszwecke.

Auch birgt das Zusammenführen unterschiedlichster Daten aus unterschiedlichen Geschäftsbereichen in einem Data Lake die Möglichkeit, Zusammenhänge von Daten zu erkennen, die noch nicht im Fokus waren. Diese gilt es zu verstehen, zu dokumentieren und zu nutzen!

10.03.2022