Der Einsatz von Algorithmen in der Personalauswahl wird kontrovers diskutiert und die Existenz vom fairen Algorithmus oftmals auch generell in Frage gestellt. Klar ist, HR diskriminiert. Algorithmen, deren Trainingsdaten menschliches Verhalten widerspiegeln, jedoch auch. Wie man die Eignungsdiagnostik auf den Prüfstand stellen und die Treffgenauigkeit von Algorithmen optimieren kann, ohne Abstriche bei Diskriminierung und Fairness machen zu müssen, diskutiert der folgende Artikel von Larissa Fuchs.
Selektion und Prädiktion im Wechselspiel
Wenn Talent und Fähigkeiten zwischen Geschlechtern grundsätzlich normalverteilt sind, der Arbeitsmarkt uns jedoch starke Unterschiede in der Repräsentation aufzeigt, dann scheinen systematische Unterschiede in der Gleichheit der Möglichkeiten zwischen den Geschlechtern zu bestehen. Insbesondere in Entscheidungen, die durch Algorithmen bewertet werden, spielen vor allem zwei Faktoren eine grundlegende Rolle: Selektion und Prädiktion.
Die Selektion von Bewerbenden: Wer bewirbt sich?
Auf dem Arbeitsmarkt wird oft von der Selektion der Bewerbenden auf die zu besetzende Stelle gesprochen. Zum Beispiel bei der Überrepräsentation von männlichen Bewerbern im IT Umfeld. Die Selektion, also wer sich für eine Stelle bewirbt, legt den Grundstein für die Zusammensetzung des BewerberInnen-Pools, aus dem die HR-Abteilungen auswählen. Mit Blick auf die Fairness einer Entscheidung, ist dies nur dann ein Problem, wenn der Mangel an Frauen im BewerberInnen-Pool nicht auf Präferenzen der Bewerbenden zurückzuführen ist.
Selektion: Wer sich auf eine Stelle bewirbt
Auch wenn die Problematik der Selektion eher auf gesellschaftliche Missstände, wie beispielsweise unbewusste Stereotype oder unbewusste Voreingenommenheit zurückzuführen ist, trägt HR hier soziale und wirtschaftliche Verantwortung. Wird in der zu besetzenden Stelle explizit nach Programmierern gesucht oder wird mit einem hoch kompetitiven Umfeld sowie einer hohen variablen Vergütung oder unflexiblen Arbeitszeiten geworben, schließt man Frauen indirekt aus dem KandidatInnenpool aus.
Um in sozialen Netzwerken mit einer Stellenanzeige im IT-Bereich einen ausgeglichenen und diversen Pool anzusprechen, sind die Kosten, die für einen Click getragen werden müssen durchschnittlich höher, da Frauen seltener als Männer auf eben solche Anzeigen klicken.
Auch wenn es sinnvoll ist, bei der fortwährenden Evaluation von Entscheidungen durch Algorithmen oder Menschen die Selektion zu berücksichtigen, bedeutet dies nicht, dass man kein Problem mit Diskriminierung hat. Als verantwortungsvolles Unternehmen sollten Sie darauf Wert legen, sich im Employer Branding divers aufzustellen.
Die Eignung und die Auswirkungen auf prädiktive Validität: Wer sind die High-PerformerInnen?
Den zweiten Faktor stellt die Eignung der Bewerbenden dar. In Bezug auf die Grundgesamtheit der Menschen gibt es keine Unterschiede der Arbeitsleistung nach Geschlecht. Wieso sollte also ein Algorithmus herausfinden, dass Männer besser sind? Dies ist nur der Fall, wenn – wie oben beschrieben – eine starke geschlechterspezifische Selektion vorliegt.
In Bezug auf die Grundgesamtheit der #Menschen gibt es keine Unterschiede der #Arbeitsleitung nach #Geschlecht. #Diskriminierung #Genderequality Share on XWahrscheinlicher ist aber, dass Diskriminierung aus zum Trainieren benutzten Arbeitsmarktdaten wie Gehalt oder Beförderung im Modell nachempfunden wurde oder eine geschlechterspezifische Selektion vorliegt.
Das Trainieren eines Algorithmus ist zwar wichtig für die prädiktive Validität.
Prädiktive Validität: die Handlungsempfehlung eines Algorithmus.
Trotzdem müssen wir aber hinterfragen: Was hat diese Prädiktion, also die Treffgenauigkeit mit der die Messung das Kriterium voraussagt, ausgelöst?
Prädiktion: die Treffgenauigkeit mit der die Messung ein Kriterium voraussagt
Ist das Kriterium neutral oder schon von vorne herein verzerrt? Zum einen ist die Genauigkeit eines Algorithmus zwar von zentraler Bedeutung, zum anderen ist die Neutralität und Aussagekräftigkeit der Eigenschaften, anhand deren man die Prädiktion optimiert hat, genauso wichtig. Algorithmen – genauso wie auch eignungsdiagnostische Testverfahren – müssen also nicht nur prädiktiv, sondern auch fair sein.
Kompromisse finden
Die Realität, mit der PersonalerInnen in Unternehmen konfrontiert sind, ist ein Konglomerat aus verschiedensten Einflussfaktoren: die Selektion, die Leistung sowie die Prädiktion. Oft wird nur die durch letztere observierten Unterschiede nach Geschlecht in Entscheidungen diskutiert, die durch Algorithmen getroffen wurden. Unterschiede nach Geschlecht oder anderen sensiblen Merkmalen wie die Herkunft, schleichen sich jedoch nur in das Modell ein, wenn die Trainingsdaten Verzerrungen aufweisen oder für diese nicht korrigiert wurde.
In einer perfekten Welt, in der weder die Selektion, also die Anzahl an Frauen, die sich auf eine Stelle bewerben, noch die prädiktive Validität, sprich die Handlungsempfehlung eines Algorithmus, eine Rolle spielen, würde eine einfache Quote als Fairness Key Performance Indicator (KPI) ausreichen.
In der komplexen Realität reicht dies jedoch nicht aus. Hier kann nur ein Kompromiss helfen: Was ist eine faire Lösung und sind die angewandten Kriterien prädiktiv und neutral?
Eignungsdiagnostik revisited: Was ist denn eigentlich „gut“?
In einer vernetzten digitalen Welt im Wandel lohnt es sich, auch bereits bestehende Gütekriterien der Eignungsdiagnostik auf den Prüfstand zu stellen, um durch Algorithmen neue Möglichkeiten und Potenziale zu realisieren.
Nach wie vor ist die Konstruktvalidität, die sicherstellt, dass das Richtige gemessen wird, von großer Relevanz.
Konstruktvalidität: Sicherstellen, dass das Richtige gemessen wird.
Die Reliabilität stellt sicher, dass dies zuverlässig und objektiv abläuft. Nämlich unabhängig davon wo und wer testet.
Reliabilität: Sicherstellen, dass die Messung zuverlässig und objektiv abläuft.
Die prädiktive Validität ist nicht nur ein notwendiges, sondern auch ein vorangestelltes Kriterium. Denn wenn das Gemessene keine prädiktiven Elemente enthält, die Arbeitsmarkterfolg vorhersagen, so sind auch die anderen Gütekriterien für HR-Entscheidungen hinfällig. Im algorithmischen Kontext bedeutet das: Es hilft nicht, die Entscheidungen von Menschen in Algorithmen nachzubauen, denn so werden auch alle Verzerrungen modelliert. In diesem Fall misst die Prädiktion dann nicht das Gewünschte, sondern setzt den Status quo fort.
Hello Fairness: Want to join our club?
In guten Testverfahren sieht man, dass es kaum signifikante Unterschiede zwischen Männern und Frauen gibt, die es rechtfertigen würden, auf Basis des Geschlechtes Auswahlentscheidungen zu treffen. Das heißt: Dies ist keine Entscheidung, die in einem Algorithmus systematisch integriert sein sollte. Gleichsam sollten auch keine Testverfahren genutzt werden, die zwar fair, aber nicht prädiktiv sind. Ein Extrembeispiel wäre hier ein Würfelwurf.
Fairness steht nicht im Widerspruch zu Konstruktvalidität, Reliabilität und Objektivität. Im Gegenteil: Wenn das Gemessene zielorientiert, zuverlässig und objektiv ist, dann begünstigt dies sogar die Fairness. Unklar ist dies bei der prädiktiven Validität. Hier gilt es im Einzelfall zu diskutieren, inwieweit ein Algorithmus diskriminiert oder nicht.
Beides ist wichtig: Fairness trifft Treffgenauigkeit
Letztlich benötigen wir Auswahlinstrumente, die zwar prädiktiv sind, aber gleichzeitig sicherstellen, dass dadurch keine Diskriminierung entsteht. Wenn ein Kriterium prädiktiv ist und keine signifikanten Unterschiede in Geschlecht oder anderen sensiblen Charakteristika aufweist, dann ist es fair. Die Fairness kann also als KPI für nachhaltiges und effizientes Handeln auf dem Weg zu diverserem Output dienen.
Kritische Erfolgsfaktoren: Wie kann man als PersonalerIn handeln?
Wenn Algorithmen zur Unterstützung in Personalauswahlprozessen herangezogen werden, ist es unerlässlich, dass die Trainingsdaten gründlich geprüft und unter Umständen bereinigt wurden. Wie Letzteres richtig gelingt, ist aber ohne statistisches Know-How nicht zu beantworten. Dies vermeidet, dass auf Basis verzerrter menschlicher Entscheidungen trainiert wird und sich diese im Algorithmus manifestieren.
Außerdem sollte jedem Modell eine Idee oder ein zugrunde liegendes Konstrukt, welches zu messen ist, zugrunde liegen. Im nächsten Schritt wird validiert statt trainiert. Durch das Validieren der Idee, wird überprüft, inwieweit der Messwert überhaupt relevant ist. Dies ist beispielsweise der Fall, wenn das Konstrukt IQ gemessen wird und gezeigt wird, dass der gewählte Test einen signifikanten Einfluss auf die spätere Jobperformance hat.
Die Funktionsweise des Trainierens ist gegensätzlich: Das abgebildete Endergebnis wird betrachtet und es wird versucht, dies nachzubilden. Dies ist jedoch sehr anfällig für Fehler und es können sich leicht Verzerrungen einschleichen.
Trainieren: Versuch das abgebildete Endergebnis nachzubilden.
Vor dem Einsatz des Algorithmus sollten in Studien belegte Gütekriterien aufgewiesen werden. Diese weisen im besten Fall eine starke prädiktive Validität, müssen aber auch die Fairness zwischen Gruppen messen und mitberücksichtigen. Wenn keine Studie vorliegt, so kann diese eigenständig durchgeführt werden. Um sich zu beteiligen können Unternehmen entweder mit einer Universität kooperieren oder auf die vielzähligen Angebote am Markt, die sich auf Recruiting-Algorithmen spezialisieren, zurückgreifen.
Während des Einsatzes sollte fortlaufend die Entscheidungen des Algorithmus, aber auch der Recruitment-Prozess als Ganzes evaluiert werden. Fairness ist messbar und kann als relevanter KPI im Recruiting dienen. Hierzu haben wir im Rahmen des FAIR Projektes den FAIR Index entwickelt.