Archiv

Fallbeispiel: Statistische Irrungen

Christina B. Class,  Stefan Ullrich

Alex hat vor etwas mehr als einem Jahr seine Masterarbeit im Bereich Künstliche Intelligenz und Gesichtserkennung abgeschlossen. Sein adaptiertes selbstlernendes Verfahren konnte die bisherigen Ergebnisse der Echtzeit-Gesichtserkennung deutlich verbessern. Als er seine Abschlussarbeit auf einer Tagung vor einem Jahr vorgestellt hat, inklusive Proof-of-Concept auf der Bühne, wurde er vom Leiter der KI Forschungs- und Entwicklungsabteilung der EmbraceTheFuture GmbH angesprochen. Diese wurde vor drei Jahren gegründet, mit Schwerpunkt auf der Entwicklung angepasster Softwaresysteme, insbesondere im Bereich der intelligenten Systeme sowie Sicherheitssysteme. Nach einem kurzen Urlaub nach Ende seines Studiums nimmt Alex eine Stelle bei EmbraceTheFuture GmbH an.

In einem kleinen Team arbeitet er zurzeit imAuftrag der Bundespolizei an Gesichtserkennungssoftware für ein neues Sicherheitssystem namens ,,QuickPicScan“ an Flughäfen. In Echtzeit werden die Gesichter der Passagiere an der Sicherheitskontrolle mit Fahndungsbildern verglichen, um verdächtige Personen zur Seite zu nehmen und extra zu kontrollieren. Die Behörden erhoffen sich so, gesuchte Personen bei Flügen innerhalb des Schengenraums identifizieren zu können, da dort keine umfassenden Passkontrollen vorgenommen werden.

Zudem soll der Durchsatz der kontrollierten Personen gesteigert werden. Das System wurde mit Millionen von Bildern umfassend trainiert. Bilder von gesuchten Personen, Fahndungsbilder, sind in einer Datenbank gespeichert, auf die bei einem Bildabgleich zugegriffen wird. Dadurch kann das System leicht an aktuell gesuchte Personen angepasst werden. Am Flughafen werden Bilder aller Passagiere in niedriger Qualität aufgenommen, sobald die Sicherheitsschleuse durchschritten wird.

Wenn die Software anschlägt, wird der übliche ,,Metall gefunden“-Alarm ausgelöst. In der darauffolgenden Durchsuchung wird das Gesicht in höherer Auflösung unter besseren Lichtverhältnissen fotografiert und erneut mit den Bilddaten verglichen. Erst wenn dieser zweite Test auch positiv ist, erfolgt eine tiefergehende Kontrolle im Nebenraum mit Abgleich der Personalien. Das Ergebnis des zweiten Tests wird an einem Kontrollterminal angezeigt. Die Fotos der Passagiere werden nicht gespeichert, ein eigenes Team stellt sicher, dass die aufgenommenen Bilder wirklich aus dem Hauptspeicher gelöscht werden und nicht von außen ausgelesen werden können. QuickPicScan wurde in Simulationen sowie in einem eigens dafür gebauten Studio mit einer nachgebauten Sicherheitskontrolle und Schauspielern umfangreich getestet.

Basierend auf den Tests geht das Team von einer False Negative Rate von 1 % aus, d. h. von 100 gesuchten Personen wird eine nicht gefunden. Die False Positive Rate – Personen, die zu Unrecht als verdächtig eingestuft werden – ist kleiner als 0,1 %. Sabine, die Marketingleiterin, ist von dem Ergebnis begeistert. Nur 0,1 % Fehlerrate für unschuldige Personen, das sei ein Riesenerfolg!

Um das System unter realen Bedingungen zu testen, wird es in Abstimmung mit der Bundespolizei während zweier Sommermonate in einem kleineren Flughafen mit einem Passagieraufkommen von ca. 400.000 Passagieren pro Jahr getestet. Das Kontrollterminal wird von einem Angestellten des Auftraggebers überwacht. Von 370 Darstellern wurden ,,Fahndungsbilder“ in unterschiedlich guter Qualität und verschiedenen Positionen aufgenommen und ins System gespeist.

Während der zwei Testmonate gehen die Darsteller zu vorher zufällig festgelegten Zeiten insgesamt 1.500 Mal durch die Sicherheitskontrolle. Sie geben sich nach Durchgang der Person am Kontrollterminal zu erkennen, damit das System getestet werden kann. Aufgrund der Ferienzeit werden in den zwei Testmonaten 163.847 Passagiere kontrolliert. Bei 183 Passagieren leuchtet die Lampe fälschlicherweise auf. Bei 8 der 1.500 Sicherheitskontrollen der Darsteller wurde die Übereinstimmung nicht erkannt.

Der Gesamtprojektleiter Viktor ist begeistert. Zwar war die False Positive Rate mit 0,11% etwas schlechter als ursprünglich erhofft, die False Negative Rate mit 0,53 % aber deutlich besser als angenommen. Mit diesen Zahlen und der Fehlerrate von 0,11 % geht EmbraceTheFuture GmbH an die Presse. Die Bundespolizei kündigt den baldigen Einsatz in einem Terminal eines großen Flughafens an.

Am Abend trifft Alex seine alte Schulfreundin Vera, die zufällig in der Stadt ist. Sie arbeitet als Geschichts- und Mathematiklehrerin. Nachdem sie sich über das neueste aus ihrem Alltag und Liebesleben aufs Laufende gebracht haben, berichtet Alex Vera begeistert von dem Projekt und erzählt von der Pressekonferenz. Vera reagiert ziemlich kritisch, automatische Gesichtserkennung behagt ihr irgendwie gar nicht. Darüber hatten sie schon während Alex’ Master häufiger diskutiert. Alex berichtet begeistert von den geringen Fehlerraten, der erhöhten Sicherheit und der Möglichkeit, untergetauchte Personen zu identifizieren. Vera schaut ihn skeptisch an. Sie findet die Fehlerrate überhaupt nicht gering. 0,11 % – bei einem großen Flughafen sind das doch Dutzende Personen, die für weitere Kontrollen beiseite genommen werden. Das findet sie gar nicht lustig.

Auch fragt sie sich, wie viele Personen, von denen es Fahndungsfotos gibt, tatsächlich mit dem Flugzeug fliegen. Alex will darüber nicht wirklich was hören und beginnt, ihr den Algorithmus, den er im Rahmen der Masterarbeit weiterentwickelt hat, genauer zu erläutern…

EinigeMonate später ist das System im AirportCityTerminal fertig installiert, Beamte wurden geschult und die Presse meldet den erfolgreichen Start.Wenige Tage später fliegt Alex vom AirportCityTerminal ab und freut sich schon darauf, an QuickPicScan vorbeizugehen und sich in dem Gefühl zu sonnen, dass er einen Beitrag zu erhöhter Sicherheit leisten konnte. Doch als er in die Sicherheitsschleuse getreten ist, piepst der Metall-Alarm. Er wird gebeten, die Arme auszustrecken, die Füße abwechselnd auf einen Hocker zu stellen und zu guter Letzt geradeaus zu schauen. Er schielt nach rechts auf denMonitor der Sicherheitsbeamten und sieht, wie die kleine Kontrollleuchte am QuickPicScan-Terminal leuchtet. Hoffentlich geht das schnell, es wird knapp mit seinem Flug. Da er kein Gepäck eingecheckt hat, würden sie nicht auf ihn warten.

Er wird in einen separaten Raum geführt wo man ihn bittet, seine Papiere bereitzuhalten. Ein Beamter steht ihm gegenüber. Alex will ihm seinen Personalausweis reichen, dieser meint jedoch, dass die zuständige Kollegin gleich kommen würde, sie müsse noch jemand anderen überprüfen. Alex wird langsam ungeduldig.

Er bittet darum, dass seine Identität überprüft wird. Nein, das ginge nicht, der postierte Sicherheitsbeamte habe noch keine Einweisung für das neue System bekommen. Erst acht Minuten später taucht die verantwortliche Beamtin auf. Nach der Identitätsfeststellung ist klar, dass es sich bei Alex nicht um eine gesuchte Person handelt.

Sein Gepäck wird dennoch minutiös untersucht. ,,Ist Vorschrift“, sagt die Beamtin knapp. Alex wird unruhig, den Flieger wird er wohl verpassen. Plötzlich kommt ihm das Gespräch mit Vera wieder in den Sinn. ,,Passiert das öfter?“, fragt er mit gespielter Freundlichkeit. ,,Ach, ein paar Dutzend sind es schon am Tag“, sagt die Beamtin, als sie ihn wieder zurück ins Terminal geleitet.

Fragen

  1. Alex wurde fälschlicherweise vom System als ,,Verdächtiger“ identifiziert und hat in Folge seinen Flug verpasst. Dies bezeichnet man als false positive. In welchen Fällen muss hingenommen werden, dass es false positive gibt? Welche Folgen sind für die Betroffenen hinnehmbar? Wie müssten Entschädigungen geregelt werden?
  2. Auch Menschen können Fehleinschätzungen vornehmen. In einer ähnlich gelagerten Situation wie in der geschilderten könnte Alex auch von einem Sicherheitsbeamten zur Seite genommen werden, um genauer kontrolliert zu werden. Gibt es hier einen prinzipiellen Unterschied?
  3. Menschen haben Vorurteile. Es ist bekannt, dass ausländisch aussehende Männer zum Beispiel häufiger kontrolliert werden. Welche Chancen bestehen, solche Diskriminierungen durch Menschen mithilfe von Softwaresystemen zu verringern?
  4. Selbstlernende Algorithmen benötigen Trainingsdaten. Die Ergebnisse der Algorithmen hängen damit stark von den Trainingsdaten ab. Dies kann zu im Algorithmus manifestierter Diskriminierung führen.
  5. Denkbar ist auch, dass z. B. Gesichter einer bestimmten Personengruppe weniger genau erkannt werden, wenn weniger Trainingsdaten zur Verfügung stehen.Dies kann sich auf Hautfarbe, Alter, Geschlecht, Vorhandensein eines Barts etc. beziehen. In einem System wie dem beschriebenen könnte dies dazu führen, dass Personen mit bestimmten äußerlichenMerkmalen schneller beiseite genommen werden, um sie zu kontrollieren.Wie kann man Trainingsdaten sinnvoll wählen, umdiskriminierende Systeme nach Möglichkeit zu verhindern? Wie kann man Systeme mit Blick auf solche Diskriminierungen testen?
  6. Gibt es einen konzeptionellen Unterschied zwischen im System manifestierter Diskriminierung und Diskriminierung durch Menschen? Welche ist einfacher zu identifizieren?
  7. Menschen tendieren dazu, Antworten, die von einer Software gegeben wird, schnell zu vertrauen und Verantwortung abzugeben. Macht dies Diskriminierung durch technische Systeme besonders gefährlich? Welche Möglichkeiten der Sensibilisierung gibt es? Sollte, und wenn ja in welcher Form, eine Sensibilisierung in den Schulen erlernt werden? Ist sie Teil notwendiger digitaler Kompetenzen für die Zukunft?
  8. Zahlen für die false positive und false negative Rate werden oft in Prozent angegeben. Fehlerraten von unter 1 % klingen zuerst mal gar nicht so schlecht. Oftmals fällt es Menschen schwer, sich vorzustellen, wie viele Personen in realen Anwendungen davon betroffen wären, welche Folgen dies haben könnte und was das bedeutet. Oft werden auch beide Zahlen nebeneinander gestellt, ohne das Verhältnis zwischen Positives (in unserem Fall die Personen, die per Fahndungsbild gesucht werden) und Negatives (in unserem Fall alle anderen Passagiere) abzubilden. Oft ist dieses Verhältnis sehr unausgeglichen. Beim beschrieben Testlauf sollten 1.500 Personen (Positives) von 163.847 Passagieren identifiziert werden, also ein Verhältnis von ca. 1:100. Ist ein solcher Vergleich irreführend? Dürfen solche Zahlen in Produktbeschreibungen bzw. Marketingbroschüren genutzt werden? Handeln die Verantwortlichen von EmbraceTheFuture GmbH unethisch, wenn Sie an die Presse gehen? Gibt es andere Fehlermaße? Wie kann man Fehlerraten realistisch darstellen, sodass Systeme realistisch eingeschätzt werden?

Erschienen im Informatik Spektrum 42(5), 2019, S. 367-369, doi : 10.1007/s00287-019-01213-x

 

Leave a Reply

You can use these HTML tags

<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>