In unregelmäßigen Abständen stellen Mitglieder der TDWI Young Guns ihre Themen und Fragestellungen vor. In diesem Monat schreibt Veronika zum Thema „Unterstützung der Aufmerksamkeit in Videokonferenzen durch KI“. Unterstützt hat sie Dr. Andreas Totok.
Die beiden freuen sich auf eure Kommentare. Beteiligt euch mit an der Diskussion. Folgt im Mailing unten unserer Slack-Einladung. Oder bringt euch bei LinkedIn ein. Wir freuen uns über über weitere Follower! Möchtet ihr auch einen Artikel für unser Mailing verfassen? Habt ihr ein spannendes Thema, welches ihr teilen wollt? Tretet mit uns in Kontakt. Wir freuen uns von euch zu hören.
Über Veronika und Andreas
Veronika ist als Master-Studentin seit einigen Monaten bei den Young Guns. Über ihr Studium der angewandten Kognitions- und Medienwissenschaften an der Universität Duisburg-Essen, das darin gewonnene Interesse an Statistik und Business Intelligence, gelangte sie in die spannende Welt der Daten. Seit 2019 arbeitet Veronika bei der adesso SE in der Line of Business Data & Analytics und ist im Bereich Business Engineering in Workshops und Projekten tätig. In diesen geht es thematisch um den Aufbau und die Nutzung zentraler Datenplattformen, unternehmensweitem Data Management sowie die Entwicklung von Data & Analytics Strategien und KI Use Cases.
Andreas Totok beschäftigt sich seit Studium und Promotion mit der Integration und der Auswertung von Unternehmensdaten. Er ist seit 2004 Mitglied im TDWI und steht den Young Guns als Mentor zur Seite. Beruflich leitet er das in der Finanz Informatik Solutions Plus beheimatete KI Competence Center für die Sparkassen-Finanzgruppe.Veronikas Konzept
Veronikas Beweggründe, Motivation und Themeneinleitung
Schon über ein Jahr hält die Corona-Krise die Welt in Atem. Doch sind gerade Krisen wertvolle Ideengeber und Motivatoren, bestehende Prozesse zu überdenken, neue Möglichkeiten und ihre Grenzen auszukundschaften, zu evaluieren sowie daraus entstehende Erkenntnisse zukunftig gewinnbringend zu nutzen. So auch der Einsatz von Videokonferenzen. In einer Studie des Borderstep Instituts wurden 500 Geschäftsreisende zu den Themen Homeoffice und Videokonferenzen in Corona-Zeiten online befragt und über 60 Prozent der Befragten gaben an, an mindestens zwei Tagen der Woche an Videokonferenzen teilzunehmen. Schüler und Studenten sind wahrscheinlich aufgrund von Home-Schooling bzw. E-Learning noch häufiger in virutellen Meetings vertreten.
Mit steigenden Impfzahlen und den damit verbundenen Debatten rund um Öffnungsstrategien sowie einer Rückkehr zur Normalität, wie man sie vor der Pandemie kannte, stellt sich unweigerlich die Frage: Welche Erfahrungen nehmen wir aus dieser Zeit mit und was passiert mit all den vorteilhaften Erkenntnissen aus Online-Konferenzen? Denn viele sind sich einig: auch nach der Corona-Pandemie wird deren Einsatz bestehen bleiben. Die Vorteile liegen auf der Hand: der Wegfall von Anfahrts- und ggf. Übernachtungskosten schonen nicht nur den Geldbeutel der Unternehmen, sondern auch die zeitlichen Ressourcen der Mitarbeiter. Im Lehrkontext kann der Wegfall des Pendelns zur (Hoch-) Schule zu mehr Kapazitäten für den Wissenserwerb und die Wissensverarbeitung führen. Ein Beitrag zum Klimaschutz könnte dadurch ebenfalls geleistet werden. So stellte die oben genannte Studie heraus, dass durch den Wegfall der Geschäftsreisen der Bahnverkehr dauerhaft um 28 Prozent, der Autoverkehr um 35 Prozent und der Flugverkehr um 22 Prozent zurückgehen könnten. Schon alleine durch den Geschäftsreiseverkehr könnten so die Treibhausgasemissionen um 3 Millionen Tonnen jährlich reduziert werden.
Die Nutzung von Videokonferenzen bringt jedoch auch Herausforderungen mit sich. Es treten Effekte wie Überforderung, Ermüdung sowie Ablenkung auf. Durch den Wegfall von kurzen Kaffeepausen oder auch einfach nur dem Gang zum nächsten Konferenzraum (oder Hörsaal), erhöht sich die Arbeitsbelastung. In den einzelnen Online-Meetings mit wechselnden Themen und Teilnehmenden, die sich terminlich aneinander reihen, wird volle Aufmerksamkeit und Konzentration erwartet. Als wäre das nicht genug, können verstärkt Unsicherheiten auftreten, da unsere Wahrnehmung für die Stimmung und Haltung der Teilnehmenden über das Videobild stark eingeschränkt ist. Gestik und Mimik geben uns im realen Leben ein klares Feedback, wie auch die Körperhaltung. Wie sitzt jemand da? War das ein Nicken oder ein leichtes Augenbrauchenzucken? All diese Signale geben uns Rückmeldung über Zustimmung oder Ablehnung aber auch darüber, ob sich Müdigkeit breit macht. Die Suche nach diesen Signalen, verbunden mit der verstäkten Arbeitsbelastung, kostet uns viel Energie. Eine zentrale aber leider auch endliche Ressource rückt somit in den Fokus: unsere Aufmerksamkeit.
Diese Erkenntnis sowie der wachsende Datenverkehr durch den Einsatz der Video-Telefonie und ihre absehbar weitere Nutzung könnte jedoch auch zur Optimierung genutzt werden. Wenn uns Fahrassistenzsysteme darauf hinweisen können, dass wir müde werden und eine Pause brauchen, warum sollte das dann nicht auch in Videokonferenzen der Fall sein? Weiter gedacht könnte anonymisiert an den Sprecher gespiegelt werden, ob vielleicht eine Auflockerungseinheit oder Pause eingelegt werden sollte, da die Audienz nicht mehr fokussiert oder zu sehr abgelenkt scheint. Gleichzeitig würde so die Effizienz von Video-Konferenzen und die Produktivität jedes Einzelnen gesteigert werden können. Durch eine verbesserte Balance von Belastung und Pausen, verbesserte Selbstwahrnehmung und -regulation würde weiter ein wertvoller Beitrag für das psychische Wohlbefinden am Arbeitsplatz geleistet werden können.
In einem Studentenprojekt zum Anfang der Pandemie entwickelte ich mit Kommilitoninnen eine Projektidee, bei der auf Basis von Videodaten Signale der Unaufmerksamkeit anhand der Kopfposition sowie Gesichts- und Augenmerkmale identifiziert werden. Ziel war es, ein System zu entwerfen, das in der Lage ist, umgehend einzugreifen und Lernende in ihrer Selbstregulation zu unterstützen. In diesem Kontext wurde ein Konzept für ein System entwickelt, das Aufmerksamkeit mittels Machine Learning vorhersagt und Empfehlungen zur Verbesserung dieser, z.B. durch verschiedene kleine Übungen, generiert. Vorstellbar wären entsprechende unmittelbare Hinweise über Unaufmerksamkeit als PopUp-Nachricht. Mittels Deep Learning und neuen Feedback-Daten für das System, also ob es richtig lag oder nicht, sollte die Trefferwahrscheinlichkeit verbessert werden. Auch der Lehrende sollte über die aktuelle Aufmerksamkeit der Studierenen Feedback erhalten. Desweiteren könnte am Ende einer Online-Konferenz eine Zusammenfassung der Aufmerksamkeit sowohl den Studierenden als auch Lehrenden als weiterer Bestandteil der Optimierung der virtuellen Zusammenarbeit dienen.
Videodaten würden hauptsächlich die visuelle Aufmerksamkeit messen. Als Weiterentwicklung wäre daher denkbar auch biometrische oder diverse Daten von Input-Devices wie Tastatur, Maus, Mikrofon (Geräuschepegel der Umgebung) in das System und dessen Aufmerksamkeitsdetektion einfließen zu lassen. Eine laute Umgebung kann zum Beispiel nachweislich zu Konzentrationsschwierigkeiten und verminderter Arbeitsleistung führen. Selbst bei Hintergrundgeräuschen mit niedrigem Niveau kann die Verarbeitung im Kurzzeitgedächtnis, das logische Denkvermögen und das Wohlbefinden signifikant beeinträchtigt werden. Daher wäre es denkbar, dass ein hoher Geräuschpegel als Einflussvariable in die Klassifikation einfließen sollte.
Der Einsatz eines solchen Systems (ggf. auch im Kontext von Videokonferenzen in Unternehmen) bietet vielversprechende Möglichkeiten, muss aber weitere Themenbereiche berücksichtigen. Da wäre u.a. die Echtzeitverarbeitung der Daten zu nennen, deren Leistung und Performance von vielen verschiedenen Parametern abhängig ist. Außerdem wird der Nutzer in seiner häuslichen und privaten Umgebung aufgezeichnet, weshalb dieser sich in seiner Privatsphäre gestört und dadurch verunsichert fühlen könnte. Der Datenschutz muss oberste Priorität haben, sodass die gewonnen Informationen nicht missbräuchlich genutzt werden können. Eine falsch-negative Einschätzung der Aufmerksamkeit könnte außerdem einen gegenteiligen Effekt nach sich ziehen, indem es erst aufgrund des falschen Feedbacks zu Unaufmerksamkeit kommt. Außerdem muss im Zuge der Gleichberechtigung und Fairness berücksichtigt werden, dass das System niemanden benachteiligt oder diskriminiert.
Zu Anfang der Pandemie brachte Zoom ein Feature auf den Markt, das sich ähnlichen Ideen bediente – vielleicht ein Beispiel, wie es nicht gehen sollte. Bei dem Feature wurde die Aufmerksamkeit der Zuhörer nicht auf Grundlage ihrer Bild- oder Audiodaten gemessen, sondern auf Grundlage dessen, ob der Nutzer die Zoom Meeting-Ansicht geöffnet und aktiv hatte oder nicht. Wenn ein Teilnehmer den Zoom Desktop Client oder die Mobile App für mehr als 30 Sekunden nicht „im Fokus“ behielt, so wurde dem Gastgeber eine Uhranzeige neben dem Namen des Teilnehmers aufgeblendet. Diese Verfolgungsfunktion konnte zwar auch deakiviert werden, der Administrator konnte sie aber für alle Benutzer verbindlich machen. Zum 2. April 2020 wurde dieses Feature eingestellt.
Microsoft plant, das Wohlbefinden mit Hilfe von biometrischen Daten zu messen und damit die laufende Arbeit in MS-Office-Anwendungen zu unterstützen. Wenn das Belastungsniveau vom System als zu hoch beurteilt wird, soll der Algorithmus darauf hinweisen und Vorschläge machen, wie das Stressniveau reduziert werden könnte.
Dies zeigt die unendliche Weite von Möglichkeiten und Potenzialen, wie Daten aus sowie für Videokonferenzen nutzbringend verwertet werden könnten. In einem privaten Studenten-Projekt versuchen wir nun, diese Idee umzusetzen und daraus Expertise zu gewinnen. Im Sinne: Der Weg ist das Ziel. J Wer uns darin unterstützen möchte, ist herzlich eingeladen sich bei mir zu melden.
Andreas Kommentar zum Konzept
Wie reagiert man auf das geänderte Kommunikationsverhalten in Corona-Zeiten? Video- bzw. Webkonferenzen sind allgegenwärtig und aus unserem Büroalltag nicht mehr wegzudenken. Nicht jeder ist diese Arbeitsform allerdings gewöhnt und wie schnell lässt man sich in Meetings durch Sofortnachrichten, eintreffende E-Mails oder andere Reize ablenken? Dabei lässt die Aufmerksamkeit nach und man verpasst wichtige Informationen. Man selbst wird möglicherweise unzufrieden und fühlt sich überfordert. Im Unterschied zum klassischen Meeting im Konferenzraum erhält der Sender von Informationen nur ein schwaches Gefühl dafür, ob seine Inhalte wirklich den Empfänger erreicht haben.
Veronika stellt in Ihrem Beitrag einen spannenden Ansatz dar, wie man Menschen bei ihrer Kommunikation im Home-Office bzw. der Kommunikationen zwischen räumlich verteilten Standorten durch automatisierte Hinweise unterstützen kann. Dabei setzt sie auf Erkenntnisse aus der Kognitionspsychologie auf und kombiniert diese mit den aktuellen Möglichkeiten von visuellen Erkennungsmethoden des maschinellen Lernens. Nach meiner Einschätzung ist der Ansatz voraussichtlich kurzfristig technisch umsetzbar wie beispielsweise die automatische Verfolgung von Blickrichtungswechseln. Es ist plausibel, dass dies kombiniert mit weiteren Faktoren zu einer guten Wahrscheinlichkeitseinschätzung der Aufmerksamkeit der Teilnehmer führen kann. Auf dieser Basis können den Teilnehmern Hinweise wie „macht doch mal Pause“ oder „bitte zuhören“ in eine laufende Sitzung eingeblendet werden.
Auch wenn der Ansatz in der Theorie sehr schlüssig konzipiert ist, kann dieser in der Praxis schnell zu Konflikten führen. So besitzen wir in Deutschland eine gesetzlich verankerte starke betriebliche Mitbestimmung. Ein gerade hinsichtlich des Einsatzes von IT-Systemen immer wieder sehr kontrovers diskutiertes Thema ist die automatisierte Leistungskontrolle. So ist es beispielsweise nicht erlaubt, Mitarbeiter am Arbeitsplatz dauerhaft mit einer Videokamera zu überwachen. Wie schnell kann die vorgestellte Aufmerksamkeitserkennung aber in diese Richtung gedeutet werden?
Aus meiner Sicht sollte das Konzept von vornherein diese kritischen Punkte behandeln und diesen durch passende Maßnahmen entgegenwirken. Eine Möglichkeit ist, in der Implementierung jeden Personenbezug zu vermeiden. Es sollten keine Aufmerksamkeitsdaten über die einzelnen Teilnehmer gespeichert oder protokolliert werden. Mögliche Ergebnisdaten für den Moderator einer Konferenz sollten nur auf aggregierter Ebene ausgewiesen werden und auch nur, wenn eine vorher festgelegte Teilnehmerzahl erreicht wurde. Selbst dann können Ergebnisdaten aber noch kritisch gesehen werden. Am besten wäre es wahrscheinlich, wenn Aufmerksamkeitshinweise dem Moderator und den Teilnehmern nur situativ angezeigt und in keiner Form gespeichert bzw. ausgewertet würden.
Ansonsten warte ich gespannt auf die Realisierung eines Prototyps. Ich könnte mir als Basis hierfür gut einen Fork des quelloffenen Jitsi-Meet vorstellen.
Veronikas Literaturempfehlungen
- Inspirierendes Buch:
KI verändert die Spielregeln: Geschäftsmodelle, Kundenbeziehungen und Produkte neu denken (Volker Gruhn, Andreas von Hayn)
- Artikel zu Microsofts Vorhaben (Danke Andreas!):
Microsoft will mit Biometrie Wohlbefinden messen https://www.com-magazin.de/news/microsoft/microsoft-biometrie-wohlbefinden-messen-2661998.html
- Presseartikel zu Mindeststandards für Videokonferenzen vom Bundesamt für Sicherheit in der Informationstechnik:
Mindeststandards für Videokonferenzen: Damit Vertrauliches vertraulich bleibt https://www.bsi.bund.de/DE/Service-Navi/Presse/Pressemitteilungen/Presse2021/210316_Mindeststandards-Videokonferenzen.html
Veronikas Fragen an euch
- Welche weitere Themen sollten aus Eurer Sicht bei einer Einführung eines solchen Systems berücksichtig werden?
- Welche Algorithmen würden sich Eurer Meinung nach für eine schnelle aber auch gute Vorhersage der Aufmerksamkeit anbieten?
- Würdest Du so ein Plug-In/Feature nutzen? Warum oder warum nicht?
Was meint ihr? Beteiligt euch jetzt an der Diskussion bei LinkedIn oder Slack.
Veronikas Highlight
Hier möchte ich auf die F*ckUp Night am 20.05.2021 eingehen: Virtuell und trotzdem eine super spannende Veranstaltung, die grade Einsteigern die Angst vor dem Scheitern nimmt. Unter dem Motto „Irren ist menschlich“ zeigten verschiedene Sprecher auf, dass Projekte nicht immer nach Plan laufen und generell Flexibilität der Projektbeteiligten einen hohen Stellenwert einnimmt. Es ist die Art und Weise, wie wir mit Fehlern umgehen und das diese bei richtiger Kommunikation einen echten Mehrwert zur Weiterentwicklung beitragen können. Dies wiederrum kann dann immer noch zum Erfolg führen. Sich vom Schock erholen, Selbstreflektion sowie Weiter- und Bessermachen – das ist meine persönliche Lesson Learned aus der Veranstaltung.
* Der Beitrag spiegelt die Meinung der Autoren wider und ist keine allgemeingültige Meinung des TDWI. Als TDWI bieten wir die Plattform, alle Themen und Sichtweisen zu diskutieren. *
Schreibe einen Kommentar