TDWI Blog

TDWI Young Guns Mailing Juni 2020 | Transparency in Machine Learning

Christian Url und Raphael Branger

Vorstellung

Christian ist seit einem halben Jahr bei den Young Guns in Wien. Er hat soeben sein Statistikstudium abgeschlossen und arbeitet bei mayato, einem BI-Consultingunternehmen. Ein großes Interesse liegt in der Tranzparenz von Machine Learning Modellen und damit befasst sich auch seine Masterarbeit.

Raphael studierte Wirtschaftsinformatik und hält einen MA in Information Management. Heute arbeitet er als Principal Consultant Data & Analytics bei der IT-Logix AG mit über 18 Jahren Praxiserfahrung im Business Intelligence und Datawarehousing Umfeld. Seit 2019 engagiert er sich für den Aufbau der TDWI Young Guns Community in der Schweiz.

Persönliche Worte über Beweggründe, Motivation und Themeneinleitung

Transparenz von Machine Learning Modellen wird ein immer wichtigeres Thema, denn gerade „Black-Box-Modelle“ erfreuen sich großer Beliebtheit ob ihrer guten Vorhersagegüte. Black-Box-Modelle sind, wie der Name es schon sagt, Modelle, die einem Algorithmus folgen, dessen Entscheidungen allerdings nicht direkt nachvollziehbar sind. Damit die Vorhersagen aber möglichst transparent sind, also z.B. einzelne Gruppen nicht ungleich behandelt werden, oder der Einfluss einzelner Variablen auf das Ergebnis gemessen werden soll, ist es wichtig, diese Modelle und vor allem die Entscheidungen der Modelle auch als Mensch nachvollziehen zu können.

Betrachten wir beispielsweise folgende Fragestellung: „Wie viele Fahrräder werden an einem Tag ausgeliehen?“ Hier kann nun von Interesse sein, warum die Vorhersage für die Tage schwankt, also „welche Variable hat einen wie starken Einfluss auf die vorhergesagten Werte?“ In diesem Fall können Methoden wie Partial-Dependence-Plots hilfreich sein, die modellagnostisch sind und somit nicht auf einen bestimmten Algorithmus basieren. Eine weitere Möglichkeit ist es, das komplexe Modell – nehmen wir ein Neuronales Netz – mit einem Einfacheren, z.B. einer logistischen Regression, zu nähern. In Letzterer können die Ergebnisse einfach interpretiert werden und eventuell sieht man auch einige Zusammenhänge, die das Neuronale Netz modelliert.

Ein weiterer Ansatz liegt in der Modellierung von Vorhersageintervallen, denn oftmals ergeben Machine Learning Modelle nur Punktschätzer. Vorhersageintervalle können hier hilfreich sein, um eine Güte dieser Vorhersagen ableiten zu können. Diese Problematik kann unter anderem bei Random Forests beobachtet werden – ein Modell, bei dem als Vorhersage lediglich ein einzelner Wert geschätzt wird. Ein Lösungsansatz sind die Quantilen Random Forests. Das sind Modelle, die neben des Schätzers auch noch weitere Werte für Intervallgrenzen liefern. Man kann also schon folgern, in welchem Bereich der Vorhersagewert mit 95%-iger Wahrscheinlichkeit liegt. Nachdem die Schätzer der Intervallgrenzen recht unstabil sind, haben wir in meiner Masterarbeit ein anderes Verfahren entwickelt: Man schätzt die IQR (interquartile range, also die Quantile, in denen jeweils 25% und 75% der Ergebnisse liegen) mittels eines Quantilen Regression Forests und streckt diese durch multiplikative Dehnungsfaktoren zu validen Vorhersageintervallen eines selbstgewählten Levels (conformal inference). Somit kann also die Fragestellung „Wie viele Fahrräder werden an einem Tag ausgeliehen“ nicht nur mit einer einzelnen Zahl beantwortet werden, sondern man kann sagen „mit 95%-iger Wahrscheinlichkeit zwischen 50 und 100, im Mittel 80“. Hier sieht man auch gleich, dass die Intervalle eben nicht symmetrisch sein müssen, was gerade bei echten Daten ohnehin kaum der Fall ist.

Aber bilde dir deine eigene Meinung – Hier ein paar spannende Links und Empfehlungen:

Meine Fragen

  1. Wart ihr schon mal mit Fragestellungen der Interpretierbarkeit von Machine Learning Ergebnissen konfrontiert?
  2. Welche Methoden habt ihr verwendet, um diese Fragestellungen zu adressieren?
  3. Glaubt ihr, dass sich der Fokus stärker auf die Themen von Fairness und Transparenz in Machine Learning richten wird?

Was meint ihr? Beteiligt euch jetzt an der Diskussion bei LinkedIn oder Slack.

Mein Highlight

Mein bisheriges Highlight bei den Young Guns war das virtuelle BarCamp im Mai 2020. Es gab die bisher einzigartige Möglichkeit ortsungebunden Erfahrungen miteinander auszutauschen. So konnten sich Teilnehmer*innen aus dem gesamten DACH-Raum vernetzen. Die Themen waren entsprechend breit aufgestellt, so dass für jeden etwas dabei war. Diskutiert wurde z.B. über Data Lakes und Data Governance – weit gefächerte Begriffe also, mit denen alle Anwesenden zuvor in verschiedenstem Ausmaß in Berührung kamen. Das beflügelte einen lebhaften Austausch und die zeitliche Begrenzung der Sessions wurde bis aufs Äußerste ausgereizt. Insgesamt empfinde ich – und so war auch das Feedbeck der Teilnehmer*innen – dieses Format als eine ideale Ergänzung zu den BarCamps vor Ort.

Tipps

Vienna Deep Learning Meetup
Import AI Newsletter
The Banana Data Podcast von Dataiku

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert