Datenirrtümer nennt man Fallstricke und Stolperfallen die ihr bei eurer Arbeit mit Daten unbedingt beachten und vermeiden solltet. Die Inspiration zu dem Artikel habe ich durch ein Poster bekommen, auf das ich erst kürzlich gestoßen bin.
Wie bin ich darauf gekommen?
In meiner Arbeit begegnen mir immer wieder Irrtümer in Verbindung mit Daten. Die Firma Geckoboard hat dazu ein sehr schönes Poster auf Englisch erstellt, ihr findet es hier. (Datachoice Solutions Ltd t/a Geckoboard, 2018)
Datenirrtümer können kritisch für Erfolg- oder Misserfolg von Datengetriebenen Projekten sein. Der Artikel soll euch aufzeigen wo die Irrtümer liegen und was ihr machen könnt um diese zu umgehen. Wir haben das Thema Datenirrtümer und andere „Fails“ aus dem Bereich Data&Analytics in der vergangenen „F*-up Night“ am 20. Mai besprochen. Demnächst wird es dazu auch nochmal einen Blog-Artikel geben und die Nächste „F*-up Night“ kommt bestimmt…..
Na dann: Lasst uns gemeinsam in die Welt der Datenirrtümer eintauchen und daraus lernen.
15 DATENIRRTÜMER DIE DU VERMEIDEN SOLLTEST – Teil 1
CHERRY PICKING
Auswahl von Ergebnissen, die zu Deiner Behauptung passen und Ausschluss derer, die nicht passen.

Es Kommt in vielen Bereichen vor – besonders in der Politik. Die Wissenschaft setzt sich jedoch mit dem Thema immerhin kritisch auseinander. Ein Beispiel war zum Beispiel eine Studie zur Tumorforschung bei Tieren. Der Wissenschaftler hat in diesem Fall nur Einen von insgesamt Zwölf Fällen veröffentlicht und zwar genau den, welcher als einziger erfolgreich war. (Haverford College Introductory Psychology Fall 2015, 2015). Ein Grund für Cherry Picking ist, dass Wissenschaftler in ihrem Feld erfolgreich und glaubwürdig erscheinen müssen. Wie kann man Cherry Picking vermeiden: Es nicht tun und alle Fakten bzw. Datensets aufzeigen.
DATENFISCHEN
Wiederholtes Testen neuer Hypothesen gegen die gleichen Daten, wobei nicht berücksichtigt wird, dass die meisten Korrelationen Zufällig entstehen.

Datenfischen kommt in vielen Firmen und auch in der Wissenschaft vor, wenn es darum geht schnell Ergebnisse zu liefern. Datenkorrelationen sind jedoch eher Zufälliger Natur. Es hilft in diesem Fall, die Hypothese vorher zu definieren und danach die Daten dagegen zu testen. Im Grunde besitzt jedes Datenset eine hohe Anzahl an Hypothesen (Kalla, 2010). Wenn man Daten eine Weile hin und her schiebt und schneidet entstehen sicherlich Korrelationen. Dazu empfehle ich die Webseite Spurious Correlations. Hier werden Zufällige Diagramme übereinandergelegt, welche dann auch korrelieren.
Mein Favorit:

Kein Kommentar :D.
SURVIVORSHIP BIAS
Das Ziehen von Schlussfolgerungen aus einem unvollständigen Datensatz, weil diese Daten einige Auswahlkriterien „überlebt“ haben.

Beim analysieren von Daten ist es wichtig auch die Daten zu beachten, welche nicht „sichtbar“ sind. Zum Beispiel Google – ein absoluter Internetgewinner. Jedoch gab es (damals) ähnliche Firmen, mit einer ähnlichen Idee, die aber mit dieser Strategie gescheitert sind (zB: Lycos – kennt die noch wer? 😉). Das obere Bild referenziert auf ein Beispiel aus dem 2. Weltkrieg. Es wurde erforscht, wo die Panzerung von Flugzeugen verstärkt werden sollte. Die Ingenieure untersuchten zurückgekehrte Flugzeuge mit Einschusslöchern:

Instinktiv wollte die Navy die Teile mit den meisten Einschusslöchern verstärken. Der Statistiker Abraham Wald widersprach: Wir sehen nur die Daten von zurückgekehrten Maschinen. Alle abgestürzten Maschinen befinden sich nicht in dem Datenset. Man sollte die Teile mit den wenigsten Einschusslöchern verstärken. Durch einen Treffer in diesem Bereich ging das Flugzeug meist verloren (Melnick, 2019).
KOBRA-EFFEKT
Setzen eines Anreizes, der versehentlich das gegenteilige Ergebnis erzeugt. Wird auch als Fehlanreiz bezeichnet.

Rund um 1800 gab es eine Initiative um die Anzahl der Toten in Verbindung mit einem Kobrabiss in Indien zu reduzieren. Für jede gefangene Kobra gab es eine kleine Belohnung in Form von Geld. Einige Farmer sahen darin eine Chance etwas Geld zu verdienen und begannen mit der absichtlichen Züchtung von Kobras. Als die Regierung die Incentivierung stoppte, wurden alle Kobras in die Wildnis freigelassen und erhöhten somit die Gesamtpopulation mit den altbekannten Problemen.
Im Business-Kontext lassen sich Fehlanreize durch durchdachte und ganzheitliche KPIs verhindern. Ein Beispiel ist die Response-Zeit im Kundenservice mit einer KPI für die Kundenzufriedenheit (z.B. NPS) zu verbinden. Eine niedrige Response-Zeit kann auch einen negativen Effekt auf die Kundenzufriedenheit haben und es lohnt sich beide KPIs im Blick zu behalten. Einen guten Überblick über KPIs gibt es hier.
FALSCHE KAUSALITÄT
Fälschliche Annahme: Wenn zwei Ereignisse zusammenhängend erscheinen, muss das eine das andere verursacht haben.

Erstmal müssen wir uns Fragen was Kausalität und Korrelation (siehe Datenfischen) nicht gemeinsam haben. Korrelation misst die statistische Beziehung von zwei Variablen zueinander (je mehr A, desto mehr B). Kausale Zusammenhänge bestehen aus Ursache und Wirkung. Im oberen Beispiel wäre es somit: „Die Temperatur hat einen Einfluss auf die Anzahl Piraten – je wärmer es wird, desto weniger Piraten gibt es und vice versa“. Schön wär‘s – aber leider schwer zu glauben. Korrelationen können ein Hinweis auf einen kausalen Zusammenhang geben, eine Garantie gibt es nicht (Data EDUcation-Team , 2018).
Zum Ende des Artikels könnt ihr auch nochmal selbst eure Korrelations-Skills testen und ausbauen mit dem Retro-Spiel „Guess the Correlation“: http://guessthecorrelation.com/
Das bringt mich zum Ende des Artikels. Es gibt natürlich noch 10 mehr Datenirrtümer und diese stelle ich euch in den nächsten Teilen vor.
Seid ihr schonmal den genannten Datenirrtümern begegnet? Erzählt es mir gern in den Kommentaren oder auf einer unserer kommenden Veranstaltungen. Bis bald und bleibt Gesund.
Literaturverzeichnis
Datachoice Solutions Ltd t/a Geckoboard . (2018). Data fallacies . Abgerufen am 30. Juli 2021 von https://www.geckoboard.com/best-practice/statistical-fallacies/
Data EDUcation-Team . (2018). Korrelation vs. Kausalität . (U. Duisburg-Essen, Herausgeber) Abgerufen am 30. Juli 2021 von https://www.uni-due.de/dataedu/korrelation-vs-kausalitat/
Haverford College Introductory Psychology Fall 2015. (Herbst 2015). Cherry Picking Data. (P. 2015, Herausgeber) Abgerufen am 30. Juli 2021 von Cherry Picking Data: http://ds-wordpress.haverford.edu/psych2015/projects/chapter/cherry-picking-data/
Kalla, S. (16. Oktober 2010). Data Dredging. Abgerufen am 30. Juli 2021 von Data Dredging: https://explorable.com/data-dredging
Melnick, L. (14. Mai 2019). How to overcome survivorship bias. Von How to overcome survivorship bias: https://lloydmelnick.com/2019/05/14/how-to-overcome-survivorship-bias/ abgerufen am 30. Juli 2021
* Der Beitrag spiegelt die Meinung der Autoren wider und ist keine allgemeingültige Meinung des TDWI. Als TDWI bieten wir die Plattform, alle Themen und Sichtweisen zu diskutieren. *
Schreibe einen Kommentar