So stolperte Amazon in die Bias-Falle: Seit 2014 hat ein Team aus einem guten Dutzend Maschine-Learning-Spezialisten in Edinburgh an einer KI-Anwendung gewerkelt, die anhand von Bewerbungsunterlagen geeignete Kandidaten ermitteln sollte. Das Problem dabei: Die KI wertete Frauen ab und fischte aus dem digitalen Bewerbungsstapel lediglich die Männer heraus.
Der Grund: Eine Verzerrung („Bias“) der Trainingsdaten. Machine-Learning-Modelle müssen anhand von „korrekten“ Beispieldaten trainiert werden, etwa den Bewerbungsunterlagen von erfolgreichen Mitarbeitern. Da es hier aber um technische Berufe ging, spiegelt der Trainingsdatensatz deren Problematik wieder: Männer stellen die Mehrheit. Das Modell hat also gelernt, dass ein wichtiges Merkmal erfolgreicher Kandidaten das männliche Geschlecht ist.
Das Problem von Amazon zeigt, dass die Auswahl der Trainingsdaten entscheidend ist für den Erfolg einer KI-Anwendung. Mit dem richtigen Dataset kann die KI-Anwendung korrekt arbeiten – egal, ob es um Kandidatenauswahl oder jede andere Art von Aufgabe geht. Doch einfach ist die Bestimmung eines Dataset nicht, es können eine Reihe von Schwierigkeiten auftauchen.
Repräsentativität – Verzerrung durch Auswahl der Daten
Ein Dataset muss für seinen Anwendungsbereich repräsentativ sein, also (annähernd) vollständig über sämtliche möglichen Merkmale und Merkmalskombinationen streuen. Sonst kommt es zu schlechten Ergebnissen: Da gab es diese KI, die Schiedsrichter in einem Schönheitswettbewerb spielen sollte. Natürlich ist sie mit Fotos von Models trainiert worden, doch „Persons of Color“ waren dabei unterrepräsentiert. Und so wurden nur europäisch oder asiatisch aussehende Menschen als schön gekennzeichnet.
Doch wie erhält man einen repräsentativen Datensatz? Lediglich möglichst viele Daten zu sammeln, führt nicht weiter. Auch eine noch so große Datenmenge bewirkt nicht, dass der Datensatz insgesamt repräsentativ für etwas ist, was in der Soziologie „Grundgesamtheit“ heißt. Damit ist der Bereich gemeint, für den diese Daten eine Aussage treffen sollen – beispielsweise die Grundgesamtheit „deutsche Gesellschaft“ oder „Verbraucher zwischen 16 und 46“.
Damit eine valide Aussage entsteht, muss die Auswahl des Datensatzes zufällig sein, ohne Regeln, Voraussetzungen oder Vorurteile. Eine reine und wissenschaftlich korrekte Zufallsauswahl ist in der Praxis allerdings unmöglich. Data Scientists müssen also auf eine Heuristik zurückgreifen, bei der Merkmalsvielfalt und Vollständigkeit wichtige Kriterien sind. Was das genau bedeutet, hängt vom Anwendungsbereich ab. So müsste eine Computer-Vision-Anwendung, die Hunde von Katzen unterscheiden kann, für ihre Trainingsdaten Fotos von allen möglichen Hunde- und Katzenrassen präsentiert bekommen.
Framing – Verzerrung in der Realität
Ein weiteres heuristisches Kriterium ist Framing: Der Realitätsbereich, in dem die KI-Anwendung eingesetzt wird, ist häufig bereits verzerrt. Die Amazon-KI ist ein gutes Beispiel dafür. Technische Berufe sind üblicherweise sehr stark männlich „geframet“. Dies beginnt beim geringen Interesse der Mädchen für MINT-Fächer in den Schulen, setzt sich in den entsprechenden Studiengängen fort und wird schließlich zur Realität des überwiegend männlichen Berufs.
Es ist offensichtlich, dass hier Talente verloren gehen. So ist es für die Kandidatenauswahl eine gute Idee, gleich viele Profile von Männern und Frauen als Trainingsdatensatz zusammenzustellen. Doch das Framing betrifft nicht nur das Geschlecht. Ein anderes Merkmal könnte der (Aus-)Bildungsabschluss sein. In einem „ungeframeten“ Datensatz könnten unter Umständen auch Kandidaten ohne Hochschulabschluss oder Quereinsteiger ganz ohne formelle Abschlüsse vorkommen.
Das zeigt, dass die anfängliche Entscheidung über Ziel und Aufgabe der KI-Anwendung wichtig ist. Wer die Wirklichkeit lediglich abbilden will, muss auf Repräsentativität des Datensatzes achten, wer normative Ziele hat, eher auf eine mögliche Verzerrung das Realitätsbereichs. Wenn beispielsweise eine KI-Anwendung zur Auswahl von Bewerbern dafür sorgen soll, dass normalerweise wenig berücksichtigte Kandidaten eine größere Chance bekommen, muss der Datensatz entsprechend korrigiert werden.
Bestätigungsfehler – Verzerrung durch Vor-Urteile
Hier taucht allerdings sofort das nächste Problem bei der Auswahl von Daten auf: Der Bestätigungsfehler. Er kann in drei unterschiedlichen Varianten vorkommen:
- Die Daten werden intuitiv ausgewählt, weil sie sich „richtig anfühlen“ und mit den Vorannahmen des Auswählenden übereinstimmen. Das Ergebnis der KI-Anwendung ist dann genau das, was der menschliche Nutzer „immer schon wusste“. In diesem Fall fehlt es an einem genauen Konzept zur Daten- und Merkmalsselektion und der Aufmerksamkeit für Verzerrungen.
- Die Daten werden systematisch so ausgewählt, dass sie zu dem vermuteten oder gewünschten Ergebnis passen. Leider passiert das häufig in Unternehmen: Eine in der Hierarchie höher stehende Person akzeptiert nur eine bestimmte Datenauswahl und erreicht damit das erwartete und nützliche Ergebnis.
- Die Daten besitzen einen unerkannten Bias und werden auch für den Test des Neuronetzes genutzt. Diese Vorgehensweise ist häufig, ein Dataset wird geteilt und je die Hälfte zum Training und zum Überprüfen der Ergebnisse eingesetzt. In diesem Fall bestätigt sich der Bias in einem vermeintlich validen Ergebnis – Entwickler kennen das als „Garbsage in, Garbage out“.
Der letzte Punkt ist besonders wichtig. Ein ML-Modell sollte möglichst immer an Daten getestet werden, die entweder direkt aus der Praxis kommen oder auf andere Weise gewonnen werden. In der Bilderkennung beispielsweise sollten die Datasets aus unterschiedlichen Quellen kommen, um mögliche VErzerrungen besser zu erkennen.
Seltene Ereignisse – Verzerrung durch den Faktor Zeit
Eine weitere Form der Verzerrung ist das Problem der seltenen Ereignisse, das besonders für autonome Fahrzeuge kritisch ist. Ihre ML-Modelle werden mit Aufzeichnungen von Fahrsituationen trainiert, etwa Videodaten aus Fahrerperspektive oder 360°-Darstellungen von Lidar-Scannern, die Bilder mit Laser-Abtastung erzeugen. Waymo und andere Entwickler autonomer Fahrzeuge zeichnen jede gefahrene Meile auf und bauen so nach und nach einen Datensatz aus alltäglichen Fahrsituationen auf.
Inzwischen sind diese Datasets gigantisch und erfassen viele, aber leider nicht alle denkbaren Fahrsituationen. Denn jeder menschliche Autofahrer kennt seltene Ereignisse – etwa der bunte Spielzeugball, der über die Straße rollt und Sekundenbruchteile später von einem rennenden Kleinkind verfolgt wird. Wie oft erlebt jemand diese Situation in seinem Leben tatsächlich? Keinmal, einmal, zweimal? Die meisten wohl selten. Trotzdem reagiert jeder Mensch sofort richtig. Damit eine Auto-KI diese Situation zweifelsfrei erkennt, müssen die Trainingsdaten eigentlich viele Varianten enthalten, etwa rollende Bälle unterschiedlicher Größe, Spielzeuge mit Rädern oder Haustiere.
Nur: Seltene Ereignisse in der Realität sind in einem durch Beobachtung erzeugten Dataset ebenfalls selten. Dies zeigte sich an einem tragischen Unfall mit einem autonomen Auto. Die KI erkannte die Gefahr nicht, als eine Frau nachts bei schlechter Beleuchtung ihr Fahrrad quer über eine mehrspurige Straße schob. Es gibt kaum einen Ausweg, als einfach immer weiter echte Fahrdaten zu sammeln. Deshalb ist hier ausnahmsweise die Größe des Datensatzes recht wichtig. Den größten hat Tesla, aus diesem Grunde sprechen einige KI-Experten dem Unternehmen von Elon Musk Vorteile bei der Entwicklung eines autonomen Autos zu.
Das ideale Dataset gibt es nicht
Die oben geschilderten Verzerrungen in Datasets sind nur einige Probleme. Es gibt noch weitere Verzerrungen, die in vielen Situationen zu Schwierigkeiten führen: Zu wenige geeignete Daten trotz eines großen Datasets, fehlerhafte Daten, den Mittelwert verzerrende Extremwerte, zu strenge oder zu schwache Auswahlkriterien für Daten, falsch ausgewählte Merkmale für das Training und einiges mehr.
Ohne Sorgfalt und Überlegung bei der Auswahl der Daten wird es nicht gelingen, durch das Training ein valides ML-Modell zu erhalten. Es gibt jedoch ein paar Daumenregeln. Sie helfen unter anderem dem Management eines Unternehmens, Voraussetzungen und Konsequenzen der jeweiligen Maschine-Learning-Anwendungen zu verstehen.
- Ein sehr großes (Millionen Entitäten) Dataset ist keine Garantie für gültige Ergebnisse. Allerdings muss ein sehr klein wirkendes (wenige 100 Entitäten) Dataset besonders kritisch geprüft werden.
- Annahmen und Voraussetzungen müssen geklärt werden. Es ist sinnvoll, in der Vorbereitungsphase eines ML-Projekts zu beschreiben, welche Annahmen für den Aufgabenbereich gelten und welche in den Trainingsdaten versteckt sein könnten.
- Trainingsdaten sollten einerseits zufällig ausgewählt werden und andererseits möglichst breit streuen. Historische Daten aus dem eigenen Unternehmen sind oft weniger geeignet, da sie spezifische Verzerrungen enthalten können. Die finden sich dann in den Ergebnissen wieder.
- Videobeobachtungen enthalten nur das, was tatsächlich beobachtet wurde und nicht das, was insgesamt beobachtet werden kann. Sie sind mit Vorsicht zu genießen, profitieren allerdings von der Größe des Datasets.
Quellen
- 7 Common Biases That Skew Big Data Results (Information Week)
- AI can Help Create a Better World. If we Build it Right (SingularityHub)
- AI has a bias problem that needs to be fixed (World Economic Forum)
- Amazon scraps secret AI recruiting tool that showed bias against women (Reuters)
- Four Mistakes You Make When Labeling Data (Towards Data Science)
- Four Types of Machine Learning Bias (Alegion)
- Problems in Machine Learning Models? Check your Data First (Towards Data Science)
- This is How AI Bias Really Happens and why it’s so Hard to Fix (Technology Review)
- To fix algorithmic bias, we first need to fix ourselves (Quartz)
- Towards Fairness in ML with Adversarial Networks (Go Data Driven)
- We need to build machine learning tools to augment machine learning engineers (O’Reilly Radar)
Bildquelle: Secondside / Adobe Stock