TDWI Blog

Data Lake – eine Bestandsaufnahme in drei Akten: Begriff und Motivation (1)

Der Begriff Data Lake wird seit einigen Jahren heiß diskutiert. Bis heute gibt es kein einheitliches Verständnis und die Erwartungen der Anwender liegen verteilt zwischen universellem Heilsbringer und großer Festplatte. Diese Serie betrachtet das Konzept Data Lake auf Basis aktueller Entwicklungen sowie Erfahrungen in der Praxis und versucht dabei das breite Spektrum an Begrifflichkeiten und Ansätzen einzuordnen. Dieser erste Artikel der Serie betrachtet dabei initial den Begriff des Data Lakes und die zugrundeliegende Motivation.

Was ist ein Data Lake?

Im Zuge der digitalen Transformation spielt der Rohstoff Daten eine immer wichtigere Rolle. Die Erhebung und Auswertung von Daten ist dabei traditionell eine Kernkompetenz des Bereichs Business Intelligence und Analytics (BIA). Aktuelle Trends wie Big Data, Industrie 4.0 und das Internet der Dinge verändern die Anforderungen an BIA allerdings enorm. Immer mehr Daten müssen immer schneller erhoben, gespeichert und ausgewertet werden. Traditionelle Ansätze aus der dispositiven Datenhaltung, wie die Idee eines zentralen Data Warehouse als konsistenter Single-Point-of-Truth, stoßen hierbei immer öfter an ihre Grenzen.

Als Lösung wurde vor einigen Jahren die Idee des Data Lakes geboren. Dieser sehr griffige und bildhafte Begriff wurde mit Freuden von der Marketing-Maschinerie der Industrie aufgenommen und dementsprechend gibt es bis heute zahlreiche unterschiedliche Verständnisse und Erwartungen im Zusammenhang mit dem Thema Data Lake. Manche Definitionen heben hierbei die Speicherung von großen Mengen unstrukturierter Rohdaten hervor („Ein #DataLake ist wie eine überdimensionierte Festplatte, auf der alles an einem Ort gespeichert wird“ [1]), andere legen den Schwerpunkt eher auf den Einsatz zahlreicher heterogener Systeme („a concept that includes a collection of storage instances of various data assets“ [2]). Abhängung vom Anwendungsfall hat jede dieser Beschreibungen seine Berechtigung. Ein etwas weiter gespannte Arbeitsdefinition für diese Serie könnte daher wie folgt lauten.

Ein Data Lake ist eine Sammlung von Komponenten und Konzepten zur Speicherung, Verwaltung und Bereitstellung von Daten jeglicher Art (strukturiert, unstrukturierter sowie Rohdaten) einer Organisation.

Arbeitsdefinition Data Lake

Data Lake ist nicht gleich Data Lake

Bei Diskussionen mit Anwendern und Architekten ergibt sich manchmal der Eindruck bei einem Data Lake handelt es sich sprichwörtlich um eine eierlegende Wollmilchsau und durch die richtige Implementierung würden sich alle Probleme nahezu von selbst lösen. Dem ist aber natürlich meist nicht so. Für eine nüchterne Nutzenanalyse ergibt es daher Sinn zuerst die unterschiedlichen Motive zur Etablierung eines Data Lakes zu verstehen.

Abb. 1.: Motive zur Etablierung eines Data Lakes
  1. Data Lake zur Speicherung von Massendaten
    Viele Organisationen müssen mit großen und unstrukturierter Datensätze, wie bspw. Sensordaten in der Produktion oder Log-Daten aus dem Internet, umgehen. Data-Lake-Ansätze ergänzen hier traditionelle Datenarchitekturen oft mit NoSQL-Datenbanken oder verteilten Dateisystemen wie HDFS (Hadoop), um viele Datensätze effizient zu speichern und zu verarbeiten.
  2. Data Lake zur Verarbeitung von Daten in Echtzeit
    Neue Anwendungsfälle, wie bspw. eine Realtime-Überwachung einer Fahrzeugflotte oder die operative Entscheidungsunterstützung in der Produktion, erfordern teils eine schnellere (oft nahezu Echtzeit) Verarbeitung von Daten. In den letzten Jahren gab es im Bereich des Daten-Streamings zahlreiche technologische Entwicklungen, die einen großen Einfluss auf die Methodik der Datenverarbeitung und die darunterliegenden Systemlandschaften hatten.
  3. Data Lake als Quelle für neue Data-Science- und Machine-Learning-Anwendungen
    Ein weiterer großer Treiber ist die steigende Relevanz von Data Science und anderen analytischen Methoden, wie Machine oder Deep Learning. Diese Ansätze erfordern oft eine große Menge an Rohdaten (siehe auch Punkt 1) und bringen neue Systeme zur Analyse und Verarbeitung der Daten mit sich, die meist nicht Teil der traditionellen BI-Produkte sind.
  4. Data Lake zur Bändigung heterogener Systemlandschaften
    Die zuvor angeführten Punkte führen meist zu einer höheren Komplexität der IT-Landschafen. Oft ist das Ziel eines Data Lakes daher auch die Schaffung flexiblere Strukturen zur Bändigung dieser Komplexität und zur Integration der neuen Analytics-Systeme in eine bestehende Data-Warehouse-Architektur.

In der Praxis lässt sich durch die kausalen Zusammenhänge der Motive oft eine Kombination der verschiedenen Punkte beobachten. Des Weiteren betiteln nicht alle Organisationen ihre Vorhaben als Data Lake. Gerne hört man auch Begriffe wie Data Hub, zentrale Datenplattform oder Data-Science-Sandboxes. Die grundsätzlichen Intentionen dieser Ansätze gleichen allerdings meist dem, was man unter dem Thema „Data Lake“ subsumiert.

Zusammenfassung

Auch wenn es verschiedene Verständnisse über den Umfang und die Aufgabe eines Data Lakes gibt, zeigt sich ein Konsens darin, dass ein Data Lake eine Sammlung von Komponenten und Konzepten zur Speicherung, Verwaltung und Bereitstellung von Daten jeglicher Art ist und damit als Reaktion auf die neuen Anforderungen an BIA-Landschaften gesehen werden kann. Entsprechend dieser breiten Definition gibt es auch unterschiedliche Motive zum Aufbau eines Data Lakes in einer Organisation. Die prominentesten sind hierbei die Massendatenspeicherung, die Verarbeitung von Daten in Echtzeit, die steigende Wichtigkeit von Data Science und anderen analytischen Ansätzen sowie die Bändigung heterogener Systemlandschaften. Auch wenn in der Praxis nicht immer die Rede von einem Data Lake ist, verfolgen viele Unternehmen Ansätze, die sich sehr gut in diese Thematiken einordnen lassen.

Der nächste Teil dieser Serie beschäftigt sich mit verschiedenen Architekturansätzen zur Implementierung eines Data Lakes in der Praxis.

Quellen

[1] https://www.alexanderthamm.com/de/artikel/grundlagen-anwendungsfaelle-data-lake/
[2] https://www.gartner.com/en/information-technology/glossary/data-lake

Sie wollen mehr erfahren:

[1] TDWI Seminar “Data-Lake-Ansätze und Best Practices”
https://www.tdwi.eu/akademie/seminarsuche/seminardetails/seminar-titel/data-lake-ansaetze-und-best-practices.html
[2] TDWI E-Book: “Der Data Lake als zentrales Element in Analytics-Architekturen“
https://www.tdwi.eu/wissen/studien-buecher/e-books/wissen-titel/tdwi-e-book-der-data-lake-als-zentrales-element-in-analytics-architekturen.html

3 Kommentare

    1. Danke für den Kommentar. ERP Systeme sind traditionel eher operative Vorsysteme, die meist Daten für analytische System bereitstellen, also bspw. Bestellungen werden als aggregierte Verkaufszahlen in einem Data Warehouse bereitgestellt. Durch den technologischen Fortschritt verschmelzen hier die Grenzen aber immer mehr und viele operative Datenbanken bieten die Möglichkeit direkt analytische Auswertungen zu fahren (bspw. per In-Memory-Technologie bei Hana). ERP-Systeme sehe ich daher eher als eine Komponente für die auch Datenmanagement-Ansätze angewendet werden sollten bzw. die in ein übergreifendes Datenmanagement integriert werden sollten.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert