Die Diskussion um das Thema Data Lake ist oft sehr technologiegetrieben. Dies zeigt schon alleine die schiere Anzahl an Implementierungsansätzen und die endlose Produktlandschaft. Sobald ein Data Lake das Proof-Of-Concept-Stadium verlässt und erwachsen wird, kommt allerdings oft die Einsicht, dass zu einer Integration in eine Enterprise-Landschaft mehr als nur ein gutes technisches Fundament gehört. Insbesondere organisatorische, rechtliche und regulatorische Faktoren werden oft sträflich vernachlässigt, was sich bei einer Eingliederung in existierende Strukturen sowie im produktiven Alltagsbetrieb schnell rächt.
Dieser Artikel stellt den dritten und damit letzten Teil einer Serie zur Bestandsaufnahme von Data Lakes in der Praxis dar und befasst sich mit den Bereichen Organisation und Governance. Ziel ist es hierbei Punkte aufzuzeigen, die es bei einer Umsetzung eines organisatorischen Rahmenkonzepts für einen Data Lake zu beachten gilt und Denkanstöße für praxistaugliche Lösungen zu geben. Die Diskussion teilt sich hierbei, wie Abbildung 1 zeigt, in externe Faktoren, wie bspw. Datenschutz und andere rechtliche Vorgaben, auf die Unternehmen selbst meist keinen direkten Einfluss haben und interne Faktoren, wie die Integration in eine Aufbau- und Ablauforganisation und die Etablierung einer passenden Data Governance.

A) Datenschutz und Rechtliches
Die zunehmend wichtige Rolle von Daten im Alltag geht auch mit einer stärkeren Regulierung zur Sicherstellung einer rechtskonformen Speicherung und Auswertung einher. Sei es die Europäische Datenschutz-Grundverordnung (DSGVO) oder das vor Kurzem in Kraft getretene brasilianische Äquivalent LGPD. Die Einhaltung der Vorgaben stellt unter Anderem spezielle Anforderungen and die Organisation und die Prozesse innerhalb eines Data Lakes. Im Folgenden werden einige dieser Aspekte erläutert.
Datensparsamkeit
Die Idee der Datensparsamkeit ist es nur so viele Daten zu sammeln, wie unbedingt notwendig. Dieses Konzept scheint auf den ersten Blick konträr zu der Idee eins Data Lakes, da hier meist eher das Mantra „erstmal alles speichern“ gilt. Dieser Widerspruch relativiert sich allerdings, da ein Großteil der Vorgaben sich nur auf personenbezogene Daten beziehen.
Privacy By Design und Privacy Enhancing Technologies
Zur Einhaltung der Vorgaben bei personenbezogenen Daten, können verschiedene Methoden zum Einsatz kommen, wie bspw. eine Datenarchitektur, die eine Trennung von den eigentlichen und den zugehörigen Identitäten ermöglicht oder die personenbezogenen Daten ausreichend anonymisiert. Am effektivsten ist hierbei aber natürlich eine direkte Vermeidung der Aufzeichnung von personenbeziehbarer Daten. Damit wird auch eine unabsichtliche Speicherung und Verarbeitung direkt ausgeschlossen.
Auswertung: Anonymize-then-Mine vs. Mine-then-Anonymize
Wenn es an die Auswertung der Daten geht kann man zwei Vorgehensmodelle unterscheiden. Bei der Ersten werden die Daten zuerst anonymisiert und dann ausgewertet (Anonymize-then-Mine). Damit stehen zum Zeitpunkt der Auswertung schon keine personenbezogenen Daten zur Verfügung und somitkönnen auch Drittparteien die Auswertungen problemlos durchführen. Allerdings geht dieser Ansatz auch mit einem Informationsverlust einher, da sich viele interessante Erkenntnisse oft erst durch den Personenbezug ergeben. Eine Auswertung der Originaldaten und eine anschließende Anonymisierung der Ergebnisse (Mine-then-Anonymize) bietet daher oft mehr Möglichkeiten zur Erstellung genauerer Modelle und Auswertungen. Allerdings muss dabei sichergestellt werden, dass die auswertende Partei die entsprechenden Berechtigungen besitzt bzw. Dateneigentümer ist.
B) Organisation
Ein Data Lake beinhaltet oft Daten aus zahlreichen verschiedenen Unternehmensbereichen und hat damit eine größere Bandbreite als ein traditionelles Data Warehouse, welches oft eher im Controlling und Finance-Bereich angesiedelt ist. Entsprechend vielfältig sind natürlich die Stakeholder, die mit einem Data Lake interagieren. Diese Gemengelage spiegelt sich auch in der Aufbau- und Ablauforganisation eine Data Lakes wieder.

Wer sind die Stakeholder? Eine funktionale und fachliche Betrachtung
Um passende Organisationsstrukturen um einen Data Lake herum aufzubauen, sollte zuerst die Frage nach den Stakeholdern geklärt werden. Wie Abbildung 2 zeigt, kann hierbei sowohl eine fachliche Perspektive (Welche Geschäftsbereiche/Abteilungen sind betroffen?) als auch die funktionale Zuordnung (Wer verantwortet welche Aufgaben?) zum Einsatz kommen. Durch die Bandbreite sind diese Betrachtungen nicht immer trennscharf. Traditionell trennen sich die Aufgaben in die Entwicklung und den Betrieb eines Data Lakes, die eigentliche Auswertung von Daten (Analytics & Data Science) sowie regulatorische Aufgaben (Governance & Qualität). Fachliche Sta-keholder sind hierbei meist die IT-Abteilung sowie verschiedenste Geschäftsbereiche. Zudem haben natürlich auch andere datennahe Abteilungen, wie bspw. ein BICC oder die Rechtsabteilung ein gewisses Interesse an einem Data Lake.
Governance Gremium
Entsprechend der Anzahl an Stakeholdern und deren breite organisatorischen Verteilung, bieten sich föderierte Organisationswerkzeuge, wie etwa ein interdisziplinäres Governance Gremium an. Die Aufgabe eines solchen Gremiums ist es technologische Standards, Vorgaben für die Datenqualität sowie einen Rahmen für einen systematischen Betrieb und eine sinnvolle Weiterentwicklung zu definieren. Ein solches Gremium besteht dabei meist aus einer virtuellen Organisationsstruktur mit Vertretern aus den verschiedenen Interessengruppen.
Center of Excellence
Das fachliche Äquivalent des Governance Gremiums ist ein Center of Excellence, welches aus einem interdisziplinären Team von Expertenn besteht, welches die verschiedenen Stakeholder bei spezifischen Aufgaben, wie etwa dem On-Boarding neuer Datenquellen, dem Durchführen anspruchsvollerer Analyse-Vorhaben oder sonstigen Fragestellung, unterstützt. Je nach Anforderungen und Umfang der Aufgaben, kann es sich hierbei um eine feste Organisationseinheit oder eine virtuelle Struktur handeln.
C) Data Governance
Neben der Betrachtung organisatorischer Strukturen zur Eingliederung eines Data Lakes in ein Unternehmen, spielen auch die Prozesse für einen systematischen Umgang mit Daten innerhalb eines Data Lakes eine wichtige Rolle. Die unten aufgeführten Punkte werden hierbei meist unter dem Begriff der Data Governance diskutiert.

Data Lifecycle
Eines der größten Risiken eines Data Lakes ist, dass dieser sich zu einem unübersichtlichen Data Swamp (Datensumpf) entwickelt. Dies geschieht insbesondere durch nicht-vorhandende oder nicht-standardisierte Prozesse zum Umgang mit den Daten und der naiven Idee des „store now, think later“-Ansatzes. Abhilfe schafft ein klar definierter Datenlebenszyklus, wie ihn Abbildung 3 in vereinfachter Form zeigt. Insbesondere die Prozesse der Beschaffung und Qualitätssicherung sollten dabei definiert werden. Hilfreich sind zudem eine klare Verteilung von Verantwortungen (bspw. mittels Data Stewards) sowie die Vorgabe konkreter Qualitäts- und Dokumentationsstandards. Um einen maximalen Wertbeitrag zu erreichen, sollte der Datenlebenszyklus zudem auch Vorgaben für Analyseprozesse sowie für das Rückspielen von Erkenntnissen und Feedback nach einem Einsatz im Feld umfassen.
Data Stewardship
Ein häufiges Problem ist es, dass sich für bestimmte Datensätze niemand verantwortlich fühlt oder der eigentlich fachlich Verantwortliche kein eigenes Interesse an der Pflege der Daten hat. Ein Lösungsansatz ist es explizite Datenverantwortliche (Data Stewards) zu benennen, die fachliche Fragen zu den Daten beantworten können und auch Aussagen zu Qualität und Richtigkeit machen können. Von Vorteil ist es zudem, wenn eine gewisse Affinität zur Datenanalyse besteht, um auch nachgeschaltete Prozesse bestmöglich zu unterstützen. Bei der Idee von Data Stewards ist es zudem entscheidend, die Pflichten und Aufgaben konkret zu benennen und auch entsprechende Anreize oder Sanktionen zur Erfüllung dieser zu etablieren.
Metadaten
Das Schmiermittel einer funktionierenden Data Governance und eines Data Lakes im Generellen sind Metadaten – also „Daten über Daten“. Dies sind bspw. Informationen zu deren Ursprung, den Qualitätsgrad oder eine fachliche und zeitliche Einordnung. Viele dieser Daten können automatisch erfasst und dokumentiert werden. Ein großer Mehrwert liegt allerdings meist in den impliziten Metadaten, die oft nur in den Köpfen der Mitarbeiter vorhanden sind, wie bspw. die Bedeutung einzelner Kennzahlen für Geschäftsentscheidungen. Hier sollte ein entsprechendes Metadatenkon-zept erarbeitet werden, um diese Daten zu explizieren und bei weiteren Analysen zu berücksichtigen. Vielversprechende Ansätze gibt es hier in Kombination mit sogenannten Datenkatalogen, die schon im letzten Artikel kurz thematisiert wurden.
Zusammenfassung
Es zeigt sich, dass ein Data Lakes zur vollen Entfaltung seines Potentials mehr als nur eine gute technische Lösung sein muss. Ein sinnvolles organisatorische Rahmenwerk umfasst Maßnahmen zur Einhaltung und Dokumentation von regulatorischen Vorgaben, ein durchdachtes Konzept zur organisatorischen und prozessualen Eingliederung in ein Unternehmen sowie die Etablierung und Durchsetzung einer passenden Data Governance.
Die Berücksichtigung dieser Faktoren stellt eine konsequente Ausrichtung am Business sicher, ermöglicht einen effizienten Langzeitbetrieb und ist damit das beste Mittel zu verhindern, dass aus einem klaren Data Lake ein trüber Data Swamp wird.
Mit diesem Artikel zu „Organisation & Governance“ schließt die Serie „Data Lake – eine Be-standsaufnahme in drei Akten“. Lesen Sie auch die anderen Beiträge zum Thema „Begriff und Motivation“ sowie „Architektonische Fragestellungen“.
Sie wollen mehr erfahren?
[1] TDWI Seminar “Data-Lake-Ansätze und Best Practices”
[2] TDWI E-Book: “Der Data Lake als zentrales Element in Analytics-Architekturen“
[3] TDWI E-Book: “Data Governance – Betriebliche Daten als Wirtschaftsgüter verstehen und behandeln“
https://www.tdwi.eu/wissen/studien-buecher/e-books/wissen-titel/tdwi-e-book-data-governance.html
* Der Beitrag spiegelt die Meinung des Autors wider und ist keine allgemeingültige Meinung des TDWI. Als TDWI bieten wir die Plattform, alle Themen und Sichtweisen zu diskutieren. *
Schreibe einen Kommentar