Archiv

Fallbeispiel: Vermessen

Benjamin Kees & Rainer Rehak

Franka hatte schon immer Freude an Statistik. Während der Schulzeit stieß sie damit oft auf Irritation, da solche Hobbys eher selten sind. Doch im Leistungskurs Mathematik ihres Gymnasiums fand sie Begeisterte mit der gleichen Neigung. Zahlen und das Spielen damit, war so schön eindeutig und neutral. Doch das Ausrechnen auf dem Papier ohne praktische Anwendung genügte ihr irgendwann nicht mehr, sie wollte etwas mit Statistik und für Statistiknutzung bauen. Also lernte sie noch während der Abiturphase programmieren, hauptsächlich mathe- und statistikorientierte Sprachen, aber auch solche, mit denen einfache Anwendungen und User-Interfaces gebaut werden können. Informatik und Mathematik zu studieren erschien ihr dann der nächste logische Schritt. Nach sechs Semestern war sie jedoch so unzufrieden mit den strengen Anwesenheitspflichten, den schulähnlichen Kursnachweisen und dem eindimensionalen Lehrplan, dass sie zusehends eher eigenen Projekten nachging.

Nach zwei weiteren Semestern besuchte sie gar keine Kurse mehr und wurde letztendlich exmatrikuliert, nachdem sie sich nicht mehr zurückgemeldet hatte. Das war ihr jedoch mittlerweile egal, denn sie war nun in der Community bekannt und sah sich nach richtigen Jobs um; sie wollte nun richtig loslegen. Sie stieß bald auf einige sehr gute Angebote von großen Firmen und auch welche von Startups im Bereich der automatisierten Personalevaluation. Die großen Firmen winkten jedoch alle ab, wenn sie erfuhren, dass Franka gar keinen Abschluss hatte, wie es in den Ausschreibungen gefordert war. Die Startups hingegen waren immer begeistert, denn sie hatte ja erfolgreiche Projekte und konkrete Programmierfähigkeiten vorzuweisen. Aber die Startups boten meist nur an, sie gegen eine mickrige Bezahlung anzuheuern, dafür gab es jedoch oft Firmenanteile. Franka erbat sich ein paar Tage Bedenkzeit.

Nach den letzten zwei Wochen Bewerbungsmarathon ist sie nun froh, aber etwas durcheinander. Sie erinnert sich kaum noch an einzelne Menschen und erst recht nicht, welche Büroräume zu welcher Firma gehörten – mit einer Ausnahme. Besonders bleibt ihr die Firma StudiStat im Gedächtnis. Sie ist noch klein, aber kein Startup mehr. Die Stimmung war positiv, die Leute freundlich und organisiert-zielstrebig. Die Räume waren sehr offen und modern gestaltet, jedoch sehr geschmackvoll und ohne den üblichen infantil-bunten Kreativ-Stil. Die angebotenen Aufgaben erscheinen interessant und die beiden Chefinnen haben Schneid, Humor und Kompetenz. Ursprünglich hatte die Firma eine Studierendenverwaltungssoftware für private Universitäten entwickelt, doch zunehmend wollen die Universitäten keine „schnöde Verwaltung“ mehr, sondern ein „smartes Management“, wie die Chefinnen es ausdrücken.

Sie wollen etwa bei den Studierenden-Bewerbungsprozessen automatisierte Vorfilterungen und Evaluations- sowie Voraussagefunktionen. Das bedeutet im Klartext eine statistische Auswertung der Studierendendaten inklusive Prognosen, also genau Frankas Spezialgebiet. Der Auswahlprozess der Bewerber und Bewerberinnen soll derart unterstützt werden, dass die Anzahl der Studienabbrüche möglichst gering ist und nur diejenigen zugelassen werden, die möglichst gute Abschlüsse erwerben. Daraus sollen dann Handlungsempfehlungen für die Universitätsleitung und Studierendenbetreuung abgeleitet werden. Möglicherweise könnte die Auswertung später auch auf den gesamten Zeitraum vom Studienstart bis zum Abschluss ausgedehnt werden.

Daten über Studierende, die zugrunde gelegt werden können, sind ja im Überfluss vorhanden, angefangen bei den Bewerbungsunterlagen an sich über das Kursbelegungsverhalten bis hin zu den Arbeits- und Abgabezeiten von Hausarbeiten. Die von den Universitäten genutzte Dokumenten-Cloudlösung für die Studierenden kann nämlich auch diese Daten liefern. Hinzu kommen noch Daten zu den Essgewohnheiten, die via Bezahlsmartcard erhoben werden, und perspektivisch auch die Metadaten der Kommunikation zwischen den Studierenden auf den Lernplattformen. Frankas Aufgabe bei StudiStat würde zunächst der statistische Grundbau der Optimierung der Bewerbungsauswahl werden.

Ach, denkt sich Franka, das ist genau die richtige Größe von Unternehmen und die Aufgabe ist überschaubar, aber dennoch verlockend. Sie sagt also zu und fängt zwei Wochen später dort an. Sie bekommt ihren Arbeitsplatz, ihre Login-Zugänge und sichtet erstmal die Datenbasis der teilnehmenden Universitäten. Sie sucht sich ihre statistischen Features zusammen, erdenkt Modelle, verwirft sie wieder, passt sie an, recherchiert, experimentiert und wird immer besser. Bald hat sie einen ersten Protoypen, um Kriterien zu identifizieren, die Aussagen über Leistungswahrscheinlichkeiten erlauben könnten. Noch ist nicht ganz klar, was die Ergebnisse in Form von Korrelationen, Durchschnitten und Clustern überhaupt aussagen, aber es sind erstmal konkrete Ansätze mit tatsächlichen Ergebnissen.

Nun wagt sie sich an die eigentliche Aufgabe: Gibt es Indikatoren während des Bewerbungsprozesses, die Schätzungen über die generelle Leistungserbringung oder sogar die zukünftige Abschlussnote erlauben? Dafür hat sie Zugriff auf einen vom restlichen System abgetrennten Rechner mit vorherigen, pseudonymisierten Bewerbungsunterlagen und den zu den Personen gehörenden Abschlussleistungen bzw. die Unterlagen zu vorzeitigen Studienabbrüchen. Meist handelt es sich dabei um eingescannte und danach digital geschwärzte PDF-Dokumente. Sie ist stolz, als sie alle Schrifterkennungswerkzeuge automatisiert und nun alle möglichen interessanten Daten aus den unstrukturierten Dateien in einer Datenbank vorliegen hat. Für Franka fühlt es sich an wie der morgendliche Blick auf einen spiegelglatten riesigen See, einen Datensee. Getrübt ist ihre Freude nur dadurch, dass die Anonymisierung äußerst oberflächlich durchgeführt wurde und Namen und andere persönliche Informationen trotzdem in ihrer Datenbank landen.

In der zweiten Phase wertet sie die Bewerbungs- und Abschlussdaten mit ihren Analysemodellen aus und kommt zu einem verblüffenden Ergebnis. Personen, die nicht aus großen Städten kommen, haben innerhalb der ersten fünf Semester eine signifikant höhere Abbruchquote. Ein Zusammenhang zu den jeweiligen Leistungen in den Anfangssemestern stellt sich jedoch nicht heraus.

Im Laufe der Analysen ergeben sich noch eine Reihe weiterer Zusammenhänge, die sie sich mit ihrem gesunden Menschenverstand noch weniger erklären kann. Wer oft vegetarische Mahlzeiten in der Kantine wählt, schneidet in den Zwischenprüfungen schlechter ab, hat dann aber überdurchschnittliche Abschlussnoten. Wer langsam tippt und viel in den Vormittagsstunden schreibt, ist statistisch schlechter in mathematischen Kursen, aber gleicht dies durch Noten in nicht-mathematischen Kursen wieder aus, wenn im Sommer wenig über das hochschuleigene System kommuniziert wird.

Franka erkennt, dass ihr System auf Basis der statistisch richtigen Modelle diese Ergebnisse als Grundlage für Empfehlungen nehmen müsste. Um die Abbrecherquote möglichst gering zu halten, würden also bestimmte Studierendengruppen unabhängig von ihren tatsächlichen bisherigen Leistungen benachteiligt. Oder aber sie greift ein, indem sie bestimmte Informationen aus den Bewerbungsunterlagen weniger wichtet. Damit diese Justierung jedoch nicht auffällt, müsste sie das sehr geschickt im Code und in den zugrundeliegenden Modellen verstecken. Stundenlang denkt sie nach, denn der Grund für ihre Zahlenliebe war doch ursprünglich genau die Neutralität gewesen, die nun so absurde Ergebnisse liefert.

Fragen

  • Ist der Studienabbruch Frankas nachvollziebar, weil ihr „das Studium nicht so recht passt“? Welche Verantwortung und Verpflichtung hat sie, die ihr gegebenen Möglichkeiten eines Abschlusses auch zu nutzen, wenn sie einmal angefangen hat?
  • Störte sie der schulische Universitätsbetrieb zu Recht so sehr, muss sich eine Studierende nicht manchmal einfach „zusammenreißen“?
  • Was bedeutet der Universitätsabschluss für die Firmen, warum legen sie so viel Wert darauf, obwohl Franka doch auch ohne Abschluss gute Projekte zu präsentieren hatte?
  • Ist es abgesehen vom Datenschutz ein ethisches Problem, dass die Studierenden offensichtlich sogar beim Essen überwacht werden?
  • Wie wäre die eigenmächtige Manipulation des Codes im Interesse der Gleichberechtigung zu werten?
  • Wie wäre es zu werten, wenn Franka die Benachteiligung von Nichtstädtern zu Gunsten einer wahrscheinlich geringeren Abbrecherquote in Kauf nimmt?
  • Darf Franka die nur scheinbar anonymen Informationen nutzen? Würde es ein Unterschied sein, wenn diese Informationen den entscheidenden Zusammenhang zur Abbrecherquote darstellen würden?
  • Gibt es in Bewerbungen besondere Informationen, deren automatisierte Auswertung für eine Annahmeentscheidung oder -empfehlung problematischer sind als z. B. das Aufwachsen in einer Großstadt?
  • Ist es eine Manipulation des Bewerbungsprozesses, wenn Franka die Modelle anpassen und gewichten würde, oder wäre es Manipulation, wenn sie das gerade nicht tut?

Erschienen im Informatik-Spektrum, 41 (8), 2018.

Einen Kommentar schreiben

 

 

 

Diese HTML-Tags können verwendet werden

<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>