Inside Data Lake (Teil 9)

Business Glossar – geht da noch mehr?

Um Transparenz über die in einem Data Lake bereitgestellten Daten zu erhalten, ist die Existenz eines Business Glossars eine wichtige Voraussetzung. Es enthält detaillierte Informationen über die vorhandenen Daten, von der fachlichen Beschreibung bis hin zur Dokumentation der Verantwortlichkeiten. Damit ermöglicht es eine Abschätzung, ob neue Anwendungsfälle mit dem vorhandenen Datenhaushalt abgedeckt werden können oder neue Daten in den Data Lake aufgenommen werden müssen. Aber ist damit das Nutzenpotential eines Business Glossars bereits ausgereizt?

Neue Use-Cases für das Business Glossar

Für die erfolgreiche Jagd auf seinen Fisch muss der Jäger nicht nur wissen, welche Fische im See zu finden sind, sondern auch, wo er seinen Fisch im See zu suchen hat. Erst dann kann er gezielt jenes Fischrevier ansteuern, in dem sich die gewünschte Beute befindet. Auch im Data Lake benötigt man - gerade in Zeiten von Big Data - Transparenz darüber, wo die gewünschten Daten zu finden sind. Daten, die einer bestimmten fachlichen Definition entsprechen, können durchaus in verschiedenen bereits angelieferten oder im Data Lake veredelten Dateien oder Datenstrukturen enthalten sein. Die Kunst besteht oft darin, die geeignetste Stelle für eine Datenselektion zu finden.

Darüber hinaus ist es wichtig, in den Weiten eines Data Lake mit heterogenen Datenstrukturen und möglichen Datenredundanzen eine einheitliche Definition für gleiche, aber an verschiedenen Orten vorliegende Daten zu verwenden. Denn dies verhindert sicher zu erwartende Missverständnisse beim Informationsaustausch über einzelne Objekte des Data Lake und deren Verwendung.

Mit welchen Lösungen kann man beide Anforderungen in einem Schritt erfüllen?

Das Mapping dezentraler Definitionen auf ein zentrales Business Glossar sichert ein übergreifend eindeutiges Verständnis von Daten

Die Lösung ist einfach und wird auch schon in anderen Architekturen erfolgreich eingesetzt. Für alle wesentlichen Datenobjekte des Data Lake erfolgt eine Zuordnung (Mapping) auf die jeweils zugehörige übergreifende Datendefinition des Business Glossars. Diese Zuordnungen werden im Business Glossar dokumentiert und allgemein zugänglich gemacht. Damit kann bei einer konkreten fachlichen Datenanforderung, ausgehend von den fachlichen Definitionen des Business Glossars, die Identifikation der potenziellen Datenquellen leicht erfolgen. Andersherum wird beispielsweise bei einer Abstimmung von Daten mit unterschiedlicher Herkunft (zum Beispiel Front-to-Back Reconciliation) schnell erkannt, ob es sich bei den verwendeten Datenfeldern jeweils um gleiche oder abweichende fachliche Inhalte handelt.

Das Mapping der dezentralen Definitionen auf ein zentrales Glossar ermöglicht eine übergreifende Vereinheitlichung fachlicher Begriffe, ohne lokale Dokumentationen anpassen zu müssen. Dies wäre in vielen Fällen sehr aufwändig, beziehungsweise bei eingesetzter Kaufsoftware von Drittanbietern nur schwer möglich. Somit können eindeutige, übergreifend zuordenbare fachliche Definitionen sichergestellt werden, ohne dezentrale Formulierungen ändern zu müssen.

Eine umfängliche Nutzung erfordert allerdings auch eine großflächige Umsetzung der Zuordnungen zwischen Datenfeldern und übergreifenden fachlichen Definitionen auf der Datenlandkarte. Liefern bei der Erstellung eines Glossars schon fachliche Definitionen erster Teile des Datenkatalogs einen Nutzen, so sind - bei den genannten Anwendungsfällen - Mappings dieser Definitionen auf Datenfelder erst dann sinnvoll nutzbar, wenn sie für alle betroffenen Datenbereiche des Data Lake durchgeführt wurden.

10.02.2022