Künstliche Intelligenz in der Personalauswahl
von Daria Bielefeld (2. Semester Master Psychologie – Human Performance in Sociotechnical Systems, Technische Universität Dresden)
„Fast. Fair. Flexible.“ – damit wirbt ein großer US-amerikanischer Anbieter für seine Technologie zur KI-gestützten Personalauswahl (HireVue, 2022). Anstelle eines Bewerbungsgesprächs mit einem Recruiter oder einer Recruiterin beantworten Bewerber:innen von der Software eingeblendete Fragen und werden dabei gefilmt. Anschließend entscheidet eine künstliche Intelligenz darüber, wie geeignet die Bewerber:innen für die jeweilige Stelle sind. Das soll nicht nur Zeit und Ressourcen sparen, sondern auch zu objektiveren Urteilen führen und die Fairness im Bewerbungsprozess erhöhen. Namhafte Unternehmen wie Goldman Sachs, Unilever oder JP Morgan nutzen die Technologie bereits – und es werden wohl weitere folgen. KI in der Personalauswahl stellt aktuell einen regelrechten HR-Trend dar und wird in diesem Rahmen vielfältig diskutiert (Haufe, 2022; Lampart, 2022).
Schenkt man den Marketing-Botschaften einer wachsenden Anzahl an Softwareanbietern Glauben, haben die Algorithmen das Potenzial, den Auswahlprozess geeigneter Bewerber:innen regelrecht zu revolutionieren. Denn wo Menschen beteiligt sind, werden automatisch Fehler gemacht. Klassische Urteilsverzerrungen unterlaufen selbst den erfahrensten HR-Experten und -Expertinnen und können mitunter weitreichende Folgen haben (Kanning, 2019). Die KI-basierte Personalauswahl hingegen verspricht maximale Objektivität. Zudem sind Unternehmen zunehmend bemüht, sich als besonders innovativ zu präsentieren und so vielversprechende Potenzialträger:innen anzuziehen. Die Nutzung von
künstlicher Intelligenz als innovatives Verfahren könnte demnach auch der Employer Branding Strategie von Unternehmen Rechnung tragen (Schick & Fischer, 2021).
Jedoch lohnt sich bei aller Begeisterung für die neueste Technologie auch ein kritischer Blick auf die Verfahren. Bringen KI-basierte Methoden der Personalauswahl einen entscheidenden Vorteil gegenüber herkömmlichen Methoden wie etwa der psychologischen Testdiagnostik? Und wie sehen Bewerber:innen die Nutzung künstlicher Intelligenz im Auswahlprozess? Um diese Fragen zu beantworten, werden im Folgenden zwei Ansätze der KI-basierten Personaldiagnostik – die Analyse sprachlicher Parameter und die Analyse visueller Parameter – vorgestellt und Ihre Eignung zur Vorhersage beruflicher Leistung anhand neuerer Studienergebnisse diskutiert. Zudem werden Ergebnisse aktueller Studien zur Akzeptanz der KI-basierten Personalauswahl dargelegt und es soll abschließend ein praxisbezogenes Fazit gezogen werden.
Analyse sprachlicher Parameter
Ein möglicher Ansatzpunkt für die KI-basierte Diagnostik ist die Sprache. Einige Anbieter:innen nehmen mit ihrer Technologie die geschriebene Sprache in den Fokus und analysieren etwa die Satzlänge oder die Verwendung bestimmter Worte wie Personalpronomen oder Artikel. Andere Unternehmen ziehen zur Analyse die gesprochene Sprache heran und fokussieren sich z. B. auf die Sprachlautstärke, die Sprechgeschwindigkeit oder die Betonung. Der zugrundeliegende Gedanke dabei ist, dass Sprachparameter Aufschluss über die Persönlichkeit der Bewerber:innen geben sollen, was wiederum zur Vorhersage beruflicher Leistung genutzt wird (Kanning et al., 2019). Geht man zunächst von dem Idealfall aus, dass ein Algorithmus anhand von sprachlichen Parametern die Persönlichkeit von Bewerber:innen ebenso gut diagnostizieren kann wie ein herkömmlicher psychometrischer Test, muss man dennoch kritisieren, dass Persönlichkeitseigenschaften allein nicht als Prädiktor für berufliche Leistung geeignet sind, da sie nur einen geringen Teil der Varianz aufklären (Barrick et al., 2001; Kanning, 2018). Eine Studie von Malhotra et al. (2018) untersuchte beispielsweise den Zusammenhang zwischen der von einem Algorithmus zur Sprachanalyse gemessenen Extraversion von Manager:innen und der Performance ihrer Unternehmen in „Mergers & Acquisition“-Situationen (M&A). Die Ergebnisse zeigen tatsächlich einen positiven Zusammenhang zwischen der per Sprachanalyse gemessenen Extraversion der Manager:innen und der Wahrscheinlichkeit für M&A sowie des finanziellen Umfangs von M&A (Malhotra et al., 2018).
Allerdings klärt die Extraversion nur zwischen 0,5 und 3 % der Varianz der M&A Performance auf, während beispielsweise die Geschlechterheterogenität der Vorstände immerhin zwischen 13 und 54 % Varianzaufklärung liefert (Kanning, 2021; Malhotra et al., 2018).
Es empfiehlt sich daher in der Eignungsdiagnostik, Persönlichkeitseigenschaften lediglich ergänzend zu aussagekräftigeren Methoden wie etwa der Arbeitsprobe hinzuzuziehen, wenn es um die Vorhersage beruflicher Leistung geht. Ein weiterer Kritikpunkt an der Sprachanalyse ist, dass Sprache für die Persönlichkeitsdiagnostik nicht so gut geeignet ist wie ein klassischer psychometrischer Test. Zahlreiche Studien zur Sprachanalyse untersuchen die Zusammenhänge von Sprachparametern mit den Big Five (Persönlichkeitsmodell mit den Facetten Offenheit für Erfahrungen, Gewissenhaftigkeit, Extraversion, Verträglichkeit nach Neurotizismus nach Goldberg, 1981). Moreno et al. (2021) konnten in ihrer Metaanalyse nach den Konventionen von Cohen (Cohen, 1988) schwache bis mittlere Zusammenhänge zwischen Sprachdaten und den Big Five, gemessen mit dem Persönlichkeitsfragebogen NEO-FFI (Borkenau & Ostendorf, 2008), nachweisen. Eine weitere Studie von Yarkoni (2010) untersuchte über 70 Sprachparameter bei Blogger:innen und fand nach den Konventionen von Cohen (Cohen, 1988) nur geringe, nach Bosco (Bosco et al., 2015) mittlere Korrelationen einzelner Sprachparameter mit den Big Five (ebenfalls mit dem NEO-FFI [Borkenau & Ostendorf, 2008] gemessen). Diese Ergebnisse legen nahe, dass man die Persönlichkeit tatsächlich um ein Vielfaches genauer mit dem NEO-FFI (Borkenau & Ostendorf, 2008) messen kann als mit einem Algorithmus zur Sprachanalyse. Dies sollte mit Blick auf Kosten und Aufwand auch das wesentlich wirtschaftlichere Vorgehen darstellen (Kanning, 2021; Schwertfeger, 2015). Abgesehen davon, dass Sprache die Persönlichkeitseigenschaften von Bewerber:innen weniger gut abbildet als ein validierter Persönlichkeitstest und Persönlichkeit allein wenig geeignet ist, um berufliche Leistung vorherzusagen, besteht noch ein weiteres Problem mit der Analyse von Sprachparametern. Denn Sprache ist über die Zeit hinweg keineswegs so stabil wie Persönlichkeitseigenschaften. Pennebaker et al. (2003) untersuchten in einer Studie den Gebrauch von Alltagssprache bei jungen Erwachsenen über einen Zeitraum von vier Wochen. Zur Auswertung nutzten sie das Linguistic Inquiry and Word Count (LIWC), ein Programm zur Textanalyse, welches die genutzten Worte in über 80 linguistische Kategorien einordnet. In ihrer Studie verwendeten Pennebaker und seine Kolleg:innen (2003) 23 dieser Kategorien und ermittelten anhand von zwei Messzeitpunkten die Retest-Reliabilität, welche ein Maß für die zeitliche Stabilität von Eigenschaften ist. Für die linguistischen Standardkategorien fand sich eine durchschnittliche Korrelation zwischen den Messzeitpunkten von r = .41, was einer Varianzaufklärung von 16,8 % entspricht. Bei den Kategorien für Worte, die auf psychologische Prozesse hinweisen, fand sich sogar nur eine durchschnittliche Test-Retest-Korrelation von r = .24, was einer Varianzaufklärung von gerade einmal 5,8 % Prozent entspricht (Pennebaker et al., 2003). Würde man also aufgrund der Sprachanalyse zum ersten Messzeitpunkt ein Persönlichkeitsprofil erstellen, erhielte man nach vier Wochen zum zweiten Messzeitpunkt womöglich ein deutlich anderes Ergebnis. Dies ist für ein diagnostisches Instrument zur Messung der Persönlichkeit nicht akzeptabel, möchte man doch ein zeitlich stabiles Merkmal erfassen.
Die Sprachanalyse in der Personalauswahl stützt sich zudem nicht auf alltägliche Sprachsamples oder private Niederschriften, sondern zieht zur Auswertung beispielsweise das Anschreiben heran oder analysiert paraverbale Cues aus einem Einstellungsinterview. Man kann jedoch davon ausgehen, dass viele Bewerber:innen ein Anschreiben nicht selbst verfassen oder sich zumindest stark an Textbausteinen aus der Ratgeberliteratur orientieren (Kanning, 2019). Außerdem sind Menschen durchaus dazu in der Lage, ihre Sprache auch auf paraverbaler Ebene je nach Situation bewusst zu steuern. So sprechen Frauen laut einer Studie von Berg et al. (2017) heutzutage beispielsweise deutlich tiefer als noch vor einigen Jahren, ohne dass sich biologische Faktoren verändert hätten. Die Autor:innen begründen diese Entwicklung damit, dass Frauen ihre Stimmhöhe vermutlich bewusst anpassen, da eine tiefe, maskuline Stimme eher mit Kompetenz und Stärke assoziiert wird (Berg et al., 2017). Auch hängt die Sprache stark vom situativen Kontext ab, sodass etwa die Aufregung in einer Bewerbungssituation die gesprochene Sprache und somit das auf ihrer Basis erstellte Persönlichkeitsprofil signifikant beeinflussen werden (Schwertfeger, 2015).
Analyse visueller Parameter
Das Prinzip hinter der Analyse visueller Parameter im Rahmen der Personalauswahl ähnelt der Idee der Sprachanalyse. Auch hier sollen Persönlichkeitseigenschaften der Bewerber:innen gemessen werden, die dann zur Vorhersage beruflicher Leistung genutzt werden. Grundlage für diese Einschätzung sind Aspekte wie die Köperhaltung, Gestik oder Mimik. Die Problematik, dass Persönlichkeitseigenschaften keinesfalls dazu taugen, allein und für sich eine ausreichend valide Prognose der beruflichen Leistung zu treffen, gilt auch für die Verfahren zur Analyse visueller Parameter. Darüber hinaus lässt sich wie auch bei der Sprachanalyse kritisieren, dass visuelle Informationen nur wenig Informationen über die Persönlichkeit von Bewerberi:nnen liefern. Breil et al. (2021) untersuchten in einer Metaanalyse, inwiefern nonverbale Cues wie unter anderem Mimik und Körpersprache als valide Hinweise dienen können, um auf die Persönlichkeit von Personen zu schließen. Wie auch in anderen Studien, wurden die Big Five als Persönlichkeitsmerkmale herangezogen, mit denen die visuellen Parameter korreliert wurden. Die Ergebnisse zeigen für 5 die meisten nonverbalen Cues eher kleine Korrelationen, einzelne Werte bewegen sich im mittleren Bereich. Die maximalen Werte für alle fünf Persönlichkeitsdimensionen schwanken zwischen r = -.21 und r = .31 (Breil et al., 2021). Es besteht also durchaus ein Zusammenhang zwischen einzelnen nonverbalen Cues und bestimmten Persönlichkeitseigenschaften, allerdings würde auch in diesem Fall der NEO-FFI (Borkenau & Ostendorf, 2008) deutlich validere Ergebnisse liefern, wenn man die Persönlichkeit von Bewerber:innen anhand der Big Five beschreiben möchte.
Akzeptanz KI-basierter Personalauswahl durch Bewerber:innen
Neben einer kritischen Reflexion der Gütekriterien von KI-basierten Auswahlverfahren ist es für Unternehmen auch bedeutsam, einen Blick auf die Akzeptanz der Methoden zu werfen. Neuere Studien zeigen, dass Bewerber:innen die Nutzung von künstlicher Intelligenz im Auswahlprozess durchaus kritisch bewerten. Mirowska (2020) untersuchte den Einfluss von Informationen über die Verwendung von künstlicher Intelligenz auf das Bewerbungsverhalten. Es zeigte sich, dass die Bewerbungsabsicht sowie die Absicht, ein Jobangebot anzunehmen, signifikant niedriger waren, wenn Bewerber:innen die Information erhielten, dass ein Unternehmen im Auswahlprozess künstliche Intelligenz nutzt. Im Gegensatz dazu waren die Absichten, sich zu bewerben bzw. ein Jobangebot anzunehmen höher, wenn die Auswahl von Menschen durchgeführt wird (Mirowska, 2020). Eine weitere Studie von Kanning et al. (2019) konnte zeigen, dass die Verwendung von digitalen Methoden wie der KI-basierter Sprachanalyse zwar dazu führt, dass Unternehmen als moderner wahrgenommen werden, die Arbeitgeberattraktivität jedoch signifikant geringer ist. Im Vergleich zur Sichtung von Bewerbungsunterlagen und dem klassischen Einstellungsinterview bewerteten Bewerber:innen die Sprachanalyse negativer mit Blick auf ethische Gesichtspunkte. Auch die generelle Akzeptanz der KI-basierten Methode war signifikant geringer als die Akzeptanz herkömmlicher Methoden. Zudem gehen digitale Methoden der Personalauswahl mit einem für Arbeitgeber:innen ungünstigen erwarteten Bewerber:innenverhalten einher (Kanning et al., 2019). Die Forschung zeigt also, dass KI-basierte Methoden zur Personalauswahl – anders, als von den Software-Anbietern angepriesen – zum aktuellen Stand nicht geeignet sind, reliable und valide Auswahlentscheidungen zu treffen. Ebenso scheinen Bewerber:innen den Einsatz künstlicher Intelligenz wenig attraktiv zu finden, was mit Blick auf die Employer Branding Strategie von Unternehmen nicht zu vernachlässigen ist. Weitere Kritikpunkte wie die mangelnde Transparenz der Algorithmen, Datenschutzrechtliche Fragestellungen sowie gar die Reproduktion von Rassismen durch künstliche Intelligenz lassen den Einsatz solcher Methoden gegenwärtig bestenfalls fragwürdig erscheinen (Kanning,
2021; Orwat, 2020; Schwertfeger, 2015). Stattdessen sollten Unternehmen für die Personalauswahl lieber auf valide Methoden der Eignungsdiagnostik setzen, etwa durch den Einsatz geeigneter Leistungstests, Arbeitsproben und maßgeschneiderter Assessment Center. Nichtsdestotrotz lohnt es sich, die Forschung zur künstlichen Intelligenz in der Personalauswahl weiter zu beobachten. Sollte es Anbieter:innen künftig gelingen, unabhängige und ernst zu nehmende empirische Belege für die Validität der KI-basierten Methoden zu liefern, eröffnet dies zumindest die Möglichkeit, den Einsatz solcher Verfahren noch einmal zu evaluieren.
Barrick, M. R., Mount, M. K. & Judge, T. A. (2001). Personality and performance at the
beginning of the new millennium: What do we know and where do we go next?
International Journal of Selection and Assessment, 9(1-2), 9-30.
Berg, M., Fuchs, M., Wirkner, K., Loeffler, M., Engel, C. & Berger, T. (2017). The
Speaking Voice in the General Population: Normative Data and Associations to
Sociodemographic and Lifestyle Factors. Journal of Voice, 31(2), 13-14.
Borkenau, P., & Ostendorf, F. (2008). NEO-FFI : NEO-Fünf-Faktoren-Inventar nach Costa und McCrae, Manual (2. Aufl.). Göttingen: Hogrefe.
Bosco, F. A., Aguinis, H., Singh, K., Field, J.G., & Pierce, C. A. (2015). Correlational effect size benchmarks. Journal of Applied Psychology, 100(2), 431.
Breil, S. M., Osterholz, S., Nestler, S. & Back, M. D. (2020). Contributions of nonverbal
cues to the accurate judgment of personality traits. In T. D. Letzring & J. S. Spain
(Hrsg.), The Oxford Handbook of Accurate Personality Judgment (S. 195-218).
Oxford: University Press.
Goldberg, L. R. (1981). Language and individual differences: The search for universals in personality lexicons. Review of personality and social psychology, 2(1), 141-165.
Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2. Aufl.). Hillsdale, NJ: Erlbaum.
Haufe (2022). Künstliche Intelligenz in HR. Haufe. https://www.haufe.de/personal/hrmanagement/
kuenstliche-intelligenz-im-personalwesen_80_484842.html
HireVue (2022). [Website des Anbieters]. HireVue. https://www.hirevue.com/
Kanning, U. P. (2018). Digitalisierung in der Eignungsdiagnostik. Report Psychologie,
43(10), 398-405.
Kanning, U. P. (2019). Standards der Personaldiagnostik (2. überarbeitete und erweiterte
Aufl.). Göttingen: Hogrefe.
Kanning, U. P. (2021). Künstliche Intelligenz in der Eignungsdiagnostik. In H. Tirrel, L.
Winnen & R. Lanwehr (Hrsg.), Digitales Human Resource Management – Aktuelle
Forschungserkenntnisse, Trends und Anwendungsbeispiele (S. 17-29). Wiesbaden:
Springer Gabler.
Kanning, U. P., Kraul, L. F. & Litz, R. Z. (2019). Einstellungen zu digitalen Methoden
der Personalauswahl. Journal of Business and Media Psychology, 10(1), 57-71.
Lampart, B. (2022). HR zwischen New Normal, New Work und Nachhaltigkeit. HR Heute.
https://www.hr-heute.com/magazin/hr-trends-2022
Malhotra, S., Reus, T. H., Zhu, P. C. & Roelofsen, E. M. (2017). The acquisitive nature
of extraverted CEOs. Administrative Science Quarterly, 63, 370-408.
Mirowska, A. (2020). AI Evaluation in Selection – Effects on Application and Pursuit
Intentions. Journal of Personnel Psychology, 19(3), 142-149.
Moreno, J. D., Martínez-Huertas, J. A., Olmos, R., Jorge-Botana, G. & Botella, J. (2021).
Can personality traits be measured analyzing written language? A meta-analytic
study on computational methods. Personality and Individual Differences, 177,
110818.
Orwat, C. (2020). Diskriminierungsrisiken durch Verwendung von Algorithmen. Berlin:
Antidiskriminierungsstelle des Bundes.
Pennebaker, J. W., Mehl, M. R. & Niederholler, I. G. (2003). Psychological aspects of
natural language use: Our words, our selves. Annual Review in Psychology, 54,
547-577.
Schick, J. & Fischer, S. (2021). Dear Computer on My Desk, Which Candidate Fits Best?
An Assessment of Candidates’ Perception of Assessment Quality When Using AI
in Personnel Selection. Frontiers in psychology, 12, 739711.
Schwertfeger, B. (2015). Personalauswahl per Sprachanalyse. Personalmagazin, 12, 32-
34.
Yarkoni, T. (2010). Personality in 100,000 words: A large-scale analysis of personality
and ward use among bloggers. Journal of Research in Personality, 44(3), 363-
373.