TDWI Blog

DIGITAL BARCAMP powered by TDWI Young Guns – Session über Externe Datenquellen

In dieser kurzen Serie schreiben die TDWI Young Guns über ihre Sessions im Digital BarCamp am 8. Mai. Dies ist Teil 1. Mehr zu dieser Veranstaltung erfahrt ihr hier. Wenn ihr Fragen habt, wendet euch gerne direkt an die Autoren.

Durch die Corona Pandemie waren wir am 8. Mai nach wie vor alle gezwungen Zuhause zu bleiben. Meine Young Guns Kollegen und Kolleginnen hatten die grandiose Idee ein Online BarCamp zu organisieren. Im BarCamp Nachbericht findet ihr mehr Informationen über den Ablauf, Durchführung und die anderen Sessions. Bevor ich mit meiner Session starten durfte, war ich natürlich normaler Teilnehmer des BarCamps und habe folgende Sessions besucht, die ich ebenfalls super spannend fand:

  • Agile Teams: Wie vermeidet ihr Störungen der Sprints durch dringende betriebliche Anforderungen (Plötzliche Wünsche von Chefs, Nicht-Lieferungen von Daten etc.)?
  • Data Governance: Umsetzung, Nutzen, Lessons learned. Was könnt Ihr berichten?

Meine Session hatte „Externe Datenquellen“ als Thema. In der heutigen Zeit ist es wichtiger denn je mit externen Daten zu arbeiten. Auch fachübergreifend ist dieses Thema von großer Relevanz – egal ob Analyst, BI Spezialist oder Data Scientist.

Die Vorbereitung
Zur Vorbereitung habe ich mir natürlich überlegt, welche Themenbereiche ich besprechen will:
• Welche Datenquellen nutzt ihr?
• Wofür nutzt ihr die Datenquellen?
• Wo sind die Datenquellen integriert?

Das Ganze wollte ich natürlich aber im Voraus visualisieren. Zum Glück hat mir mein geschätzter Schweizer Young Guns Kollege –Raphael Branger– ein neues Tool vorgestellt – Miro (formerly known as RealtimeBoard).

Miro Board zu Beging der Session

Das Gute an Miro ist, man kann es über einen Link teilen und jeder kann darauf zugreifen. Hier findet ihr den Link zu dem Board.

Die Session:

In der Session befanden sich 12 Teilnehmende aus allen Fachrichtungen und Industrien. Nach einer kurzen Einleitung in das Thema ging es auch direkt mit einer Diskussion rund um das Thema „Geodaten“ los. Dabei ging es darum Geodaten mithilfe eines OSM Servers zu „Geocoden“ – also die Adressen in Koordinaten umzuwandeln.

Danach ging es direkt weiter mit den Wetterdaten. Hiervon haben wir gelernt, dass es eine Wetterdaten Integration in BigQuery von Google gibt.

Auch die üblichen Datenquellen wie Twitter API, Github oder Statista kamen zur Sprache. Dabei wurden auch Use-cases angesprochen um zum Beispiel die Nutzung von Flughäfen vorherzusagen.

Als nächstes haben wir uns die offiziellen Datenprovider (Hoppenstedt, Reuters, Bloomberg) angesehen. Gerade die Kosten von diesen Providern sind ja häufig sehr hoch – man kann also mit externen Daten auch Geld verdienen ;). Für Basisinformationen kann man jedoch im deutschsprachigen Raum auch auf den Bundesanzeiger setzen.

Danach kamen wir zur Vorstellung der Web-Scraping Projekte: unter anderem Tatort-Blog, Stromblog, Stadt Hamburg Datahub und aus Datenproviderperspektive, Google Tag Manager.

Natürlich kommt man beim Thema Scraping nicht um David Kriesel herum. Seine Spiegel Mining und Bahn-Artikel stützen sich intensiv auf Scraping. Während der Diskussion hat Nils (Anwalt und Experte im Datenschutz) festgestellt, dass es in Ordnung sein könnte für statistische Zwecke öffentliche Daten im allgemeinen Interesse zu Scrapen und zu Analysieren. Wichtig ist laut Julian (Data Entrepreneur) aber auch die weitere Nutzung: „Ein kleineres Hobbyprojekt geht in Ordnung, für kommerzielle Zwecke nicht.“

Miro Board zum Ende der Session

Leider hat sich damit die Session dem Ende zugeneigt und wir sind zur Hauptsession zurückgekehrt. Es hat großen Spaß gemacht und es gab viele Insights.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert