20. TDWI Roundtable München am 26.11.2019
Die globale Konkurrenz zwingt Unternehmen heutzutage zu einer immer größeren Geschwindigkeit bei der Umsetzung von Projekten. Das gilt auch für Projekte, bei denen es um die Integration von Daten und den Aufbau von Datalakes, Data Warehouses oder Plattformen für Machine Learning geht. Thema des Abends war daher die Betrachtung von Möglichkeiten zur Steigerung der Produktivität von solchen Projekten durch einen generischen Ansatz: Man leistet gewisse Vorarbeiten, um anschließend wesentlich schneller und mit höherer Qualität konkrete Anwendungsfälle bzw. Projekte umsetzen zu können.
Herr Henrik Behrens von der Data Reply GmbH führte in das Thema ein, indem er folgende Fragen beantwortete:
- Was meinen wir mit „Datenplattform“?
- Was können generische Komponenten sein?
Zum Thema gab es anschließend zwei Fachvorträge jeweils der Unternehmen ProSiebenSat.1 und Allianz Clobnal Corporates & Specialities (AGCS). Beide Unternehmen haben den gewählten Ansatz auch in Form einer Live-Demo präsentiert, so dass die Anwesenden einen sehr konkreten Eindruck von der jeweiligen Arbeitsweise bekamen:
Im Vortrag „Winning the productivity race“ haben Johannes Dieterich und Alexander Crusciel von ProSiebenSat.1 gezeigt, wie sie Model Driven Development (MDD) mit einem generischen Plattform-Ansatz kombiniert haben, um die Time-to-Market zu minimieren. Dabei kam ein Framework zum Einsatz, das eine selbstentwickelte Kommandosprache für die Definition der Ladestrecken verwendet und in einer sehr rudimentären Form von Herrn Behrens beim 15. TDWI Roundtable in München unter dem Titel „Implementierung eines DWH mit Spark in 60 Minuten“ vorgestellt worden war. Außerdem kommt mit dem „MID Innovator“ ein Modellierungswerkzeug zum Einsatz, mit dem eine Geschäftsobjektmodellierung gemacht wird, aus der vollautomatisch ein Raw Data Vault-Datenmodell und das Mapping zu den Quelltabellen generiert wird. Das Framework erlaubt es, das Mapping einzulesen und führt dann automatisch die notwendigen Ladeprozesse mit Spark aus, ohne dass eine Programmierung seitens der Anwender erforderlich wäre. Für den Business Vault und die Datamarts definieren die Anwender die fachliche Logik in Form von Views, und das Framework erledigt die Materialisierung dieser Views automatisch in der richtigen Reihenfolge und erlaubt diverse Delta-Modi zur inkrementellen Aktualisierung der transformierten Daten.
Der zweite Vortrag „Data Warehouse Automation mit Domain Specific Languages und Data Vault“ von Wolfgang Tanzer (AGCS), Johannes Reitzner und Mathias Höreth (metafinanz) zeigte einen Ansatz, bei dem eine Sprache zur Definition von Data Vault-Strukturen mit fachlicher Logik entwickelt wurde, die eine frühe Validierung erlaubt. Damit ist gemeint, dass Fehler bereits automatisch während der Eingabe gefunden werden, bevor der Code tatsächlich deployt und ausgeführt wird. Weitere Vorteile dieses Ansatzes sind neben der automatischen Generierung des Codes auch das einfache Refactoring des Datenmodells und die Generierung von Data Lineage-Graphen.
Das Interesse der Teilnehmer war groß: Der Roundtable war schon Tage vorher ausgebucht, und es gab während der Vorträge zahlreiche Fragen und Diskussionen, und auch nach Ende der Vorträge gab es noch einen intensiven Austausch zwischen den Teilnehmern beim Buffet bis zum Ende der Veranstaltung um 21.15 Uhr.
Hello to every body, it’s my first pay a quick visit of
this webpage; this blog includes amazing and actually good material for readers.