Facial Recognition

IBM nutzt Fotos eines Österreichers, um AI für Gesichtserkennung zu trainieren

Jakob Steinschaden13. März 2019, 10:11

Startup Interviewer: Gib uns dein erstes AI Interview

Wenn du dem Österreicher Georg Holzer einmal vor die Linse gelaufen bist, dann kann es ein, dass der IT-Riese IBM Fotos von dir zur Entwicklung von Technologien für Gesichtserkennung verwendet. Vor mehreren Jahren hatte Holzer Bilder auf die damals zu Yahoo gehörende Foto-Plattform Flickr geladen und unter Creative-Commons-Lizenz zur nicht-kommerziellen Nutzung durch andere freigegeben.

Über Flickr zu IBM

Mehrere Jahre später finden sich 746 Flickr-Fotos des Kärntners nun in einem Datenset wieder, das IBM zur Erforschung von Künstlicher Intelligenz zur Gesichtserkennung verwendet bzw. das Datenset Forschern zur Verfügung stellt. Das so genannte „Diversity in Faces Dataset“ enthält laut IBM Daten zu rund einer Million menschlichen Gesichtern. Ziel des Projekts ist, Gesichtserkennung zu verbessern, weil diese oft männliche Weiße besser erkennt als Frauen oder Menschen mit anderer Hautfarbe.

Um Künstliche Intelligenz zu trainieren, brauchen Unternehmen und Forscher viele Daten – und IBM hat sich diese bei Flickr besorgt und stellt sie online zur Verfügung. Um an die Daten zu kommen, müssen Forscher den Nutzungsbedingungen zustimmen und einen Fragebogen von IBM ausfüllen. IBM muss dann der weiteren Verwendung zustimmen. Die Daten stammen aus einem Set von 99,2 Millionen Fotos and 0,8 Millionen Videos von Flickr, die unter dem Kürzel „YFCC100M“ bekannt sind.

„Ein Weckruf für alle“

„Das ist ein Weckruf für alle, die Fotos auf Plattformen posten. Meine Intention war, gemeinsame Erinnerungen mit Freunden festzuhalten, und nicht, IBM Fotos zur Erforschung von Gesichtserkennung zu schenken“, so Holzer zu Trending Topics. „Ich werde von IBM verlangen, dass sie die Fotos aus dem Datenset entfernen.“

Zwei Fotos, die betroffen sind:

Holzer war zuerst von einer Journalistin von NBC darauf aufmerksam gemacht worden, dass seine Fotos von IBM verwendet werden. Dutzende weitere Fotografen und deren Creative-Commons-Bilder sind ebenfalls betroffen. Ob eigene Bilder betroffen sind, kann man hier checken. Dazu muss man die Flickr-ID eingeben.

„IBM behauptet zwar, dass sie kein kommerzielles Produkt daraus bauen, aber von einem börsennotierten Unternehmen muss man annehmen, dass sie kommerzielle Interessen verfolgen“, so Holzer weiter. Bisher ist nicht bekannt, welche Organisationen das Datenset von IBM bekommen haben. Das Unternehmen gibt an, die Gesichtsdaten selbst nicht zu kommerziellen Zwecken verwenden, sondern lediglich Wissenschaftlern zur Verfügung zu stellen.

Schwierige Entfernung

Um Fotos aus den Datenset zu entfernen, müssen sich Betroffene an IBM wenden und dem Unternehmen einen direkten Link zu dem Bild senden. Dazu muss man aber erst einmal herausfinden, ob man auf einem der knapp eine Million Fotos zu sehen ist. Jene Organisationen, die das Datenset bereits bekommen haben, können aber weiter mit den darin enthaltenen Bilderdaten arbeiten.

„Das ist das schmutzige kleine Geheimnis von KI-Trainingssets. Forscher greifen oft auf Bilder zurück, die sie sich da draußen besorgen können“, sagte Jason Schultz, Professor der NYU School of Law, gegenüber NBC. Kritik an dem „Diversity in Faces Dataset“ gibt es auch deswegen, weil es dazu genutzt werden könnte, um Minderheiten per Gesichtserkennung zu identifizieren.