Beiträge

Chancen und Grenzen der KI-Engine in der Personalarbeit

Zusammenfassung

Der Einsatz von KI-Engine für die Personaldiagnostik bietet Chancen, wenn die Grenzen beachtet werden. Sie können den Aufwand bei der Eignungsdiagnostik der Talente im Recruiting-Prozess massiv reduzieren. Es wird von einer automatisierten Auswahl aufgrund von Profilen abgeraten. Die Ergebnisse der KI-Engine dienen vielmehr der Priorisierung der Talente und helfen dabei, sehr konkrete Eindrücke von der Persönlichkeit noch vor dem Interview zu sammeln, um dann tiefergehende Fragen zu stellen. Es liegen noch keine belastbaren Ergebnisse über die Fluktuationsreduktion bzw. Performance-Verbesserungen, die durch den Einsatz der KI-Engine im Recruiting-Prozess erzielt wurden.

1. Vorwort

Dieser Artikel soll für mehr Sachlichkeit bei der Bewertung der Pro und Contra bei der KI-basierten Analyse von Persönlichkeitsmerkmalen sorgen. Man könnte diesen Artikel auch „Auf dem Teppich bleiben“ betiteln. Und dieser Satz gilt sowohl den Kritikern wie den Anbietern.

Zu meiner Person: Seit etlichen Jahren bin ich im Bereich der modellbasierten Simulation von Eigenschaften von Systemen tätig. Ich habe 3 Methoden in den Serieneinsatz überführt. Und dabei viel Erfahrung hinsichtlich Chancen und Grenzen der jeweiligen Methoden für zahlreiche Use Cases. Diese Erfahrung möchte in für den vorliegenden Fall „KI-basierte Analyse von Persönlichkeitsmerkmalen aus der Auswertung von Videointerviews von Talenten und Mitarbeitenden. Es geht darum, welche Einflussfaktoren erhöhen die Genauigkeit der Ergebnisse und welche machen die Ergebnisse unbrauchbar. Und letztlich, wie belastbar und aussagekräftig die Ergebnisse sind.

In früheren Lebensabschnitten habe erlebt, wie Techniker technische Simulationsmethoden bewertet haben, positiv wie negativ. Das war zumeist sachlich und begründet. Im vorliegenden Fall sind es Psychologen, die sich über technische Verfahren äußern. In manchen Punkten ist die Kritik begründet, wenn ist z.B. um das Versuchsdesign, um die Dokumentation des Modells und der Validierung Engine.

2. Einleitung

Seit einigen Jahren findet künstliche Intelligenz (KI) Einzug in viele Arbeitsgebiete, auch in HR. KI vereinfacht heute die Suche nach Talenten im Internet, unterstützt beim Kompetenzmanagement, beim Assessment, beim Entwicklungsprozess. Und weitere Einsatzgebiete werden folgen.

In diesem Artikel möchte ich den Fokus auf das KI-basierte Assessment von Talenten und Mitarbeitenden legen. Und hier speziell auf die KI-basierte Auswertung von Videointerviews für die Analyse von Persönlichkeitsmerkmalen.

„Die KI-basierte Auswertung von Aussagen, Sprachcharakteristika, Mimik und Gestik lassen sich im Kontext der Komplexität von Personal-Assessments unterschiedliche Herausforderungen finden“ (Ruben Grasemann 2020)

Die junge Firma Viasto erfand von einigen Jahren das Videointerview für den Recruiting-Prozess. Damit wurde das Telefoninterview teilweise obsolet. Diese Videos lieferten jedoch nur Bild und Ton, aber keine psychologische Auswertung. Folgerichtig ist der nächste Schritt die modellbasierte Auswertung mittels einer KI-Engine. Und damit betritt die KI-Engine das Spielfeld der Personaldiagnostik und hier ist Vorsicht geboten.

Wenn eine KI-Engine den Talenten und Mitarbeitenden ein Persönlichkeitsprofil automatisch liefern soll, dann müssen wir bei der Ergebnisüberprüfung unser Augenmerk auf die Gütekriterien des Verfahrens richten: Objektivität, Validität und Reliabilität.

Seit Jahren unterliegen diagnostische Verfahren der SPEC DIN 33430 (1). Speziell für videobasierte Eignungsdiagnostik hat die Gründerin von Viasto zusammen mit Spezialisten sowie Universitätsprofessoren eine weitere DIN SPEC 91426 (2) formuliert.

Unter Verwendung der Begriffswelt der SPEC (2) werden hier die zeitversetzten sowie Echtzeit-Videointerviews näher beleuchtet.

So zeigen Teilnehmer im Vergleich zu Videokonferenzinterviews eine niedrigere Akzeptanz gegenüber hochautomatisierten Interviews. Diese Ergebnisse sind auf mangelnde wahrgenommene Fairness und soziale Präsenz zurückzuführen“ Langer (2019)

Zur besseren Einordnung der Verwendung einer KI-Engine fürs Assessment von Talenten und Mitarbeitenden sei hier an die bislang verwendeten Verfahren erinnert.

Früher beschränkte sich das Assessment auf das „Bauchgefühl“ der Interviewenden (Führungskraft, Vertreter*Innen der Personalabteilung). Das Bauchgefühlt bestand aus eigenen Erfahrungswerten und persönlichen Präferenzen. Um dieses Verfahren objektiver zu gestalten, wurden Leitfäden für die Interviews eingeführt. Seit einigen Jahren verwenden einige Unternehmen mehr oder minder valide Kompetenz- und Kulturmodelle, um die Talente vor dem Interview besser und tiefer kennen zu lernen. Dieses Verfahren hat einen Haken: Talente aus der Generation Z und Y mögen aus unserer Erfahrung keine Fragebögen. Die Einführung der Videos war letztlich die logische Konsequenz. Zumal diese ja damit vertraut sind: Instagram, TikTok usw.

3. Anforderungen an die KI-basierten Videoanalyse

Bevor wir uns konkret mit der KI-Engine befassen, sollen wir uns mit den modellbasierten Simulationen auseinandersetzen, weil wir hier Erkenntnisse von anderen Disziplinen verwenden können.

Im Rahmen meiner Promotion als Fahrzeugingenieur habe ich mich mit einem damals ganz neuen Simulationsverfahren namens Finite Elemente Methode beschäftigt. Hier geht es darum, Versuche von mechanischen Teilen durch eine Simulation zu ersetzen. In diesem Fall sind die analysierten Variablen z.B. Spannungswerte, Festigkeit.

Bei der Einführung von diesen Simulationen in die Unternehmensprozesse haben wir auf deren Chancen und Grenzen geachtet. Wir haben genau geschaut, unter welchen Rahmenbedingungen sind die Ergebnisse valide? Wie verifizieren die Ergebnisse?  Wie empfindlich reagiert das System auf Parameteränderungen? Wie lassen sich die Grenzen der Methode erkennen?

All diese Fragen sind auch hier bei der KI-Engine relevant und sollen hier näher beleuchten.

Es soll geklärt werden, welche Eingangsparameter wie emotionale Hinführung der Talente bzw. Mitarbeitende zum Videointerview, Wiederholmöglichkeit, Länge der Fragen bzw. der Antworten, Licht- und Tonverhältnisse die Qualität der Ergebnisse beeinflussen. Auch der so genannte Trainingseffekt untersucht werden wie das sozial erwünschte Ergebnis.

3.1 Inputdaten

a) Hinführung der Testpersonen

Damit die Ergebnisse den realen Eigenschaften der Testpersonen entsprechen, muss deren Verhalten authentisch sein, d.h. Vermeidung von Überraschungen und Überforderungen durch eine schlechte User Experience. Das beinhaltet eine Vorabinformation über den Ablauf: Anzahl der Fragen, Antwortzeiten pro Frage, Gesamtdauer der Aufnahme. Auch dazu Information über die Handhabung der Daten.

b) Wiederholmöglichkeiten

Es müssen den Testpersonen mehrere Aufnahmen gestattet werden, bevor diese für die Auswertung hochgeladen wird. Bei Talenten wird jedoch eingeschränkt, dass sobald die Ergebnisse der Auswertung vorliegen, keine weitere Wiederholung der Aufnahme möglich ist. Damit sollen sozial erwünschte Ergebnisse vermieden werden.

c) Synchronisierung Antwort- und Aufnahmezeiten

Für die Beantwortung der Fragen werden bestimmte Antwortzeiten eingeräumt. Diese Zeiten müssen den Testpersonen vor Beginn der Aufnahme bekannt und während der Aufnahme über eine digitale Uhr sichtbar sein.

d) Licht- und Tonverhältnisse

Die KI-Engine verarbeitet die Bilder und den Ton der Videoaufnahme. Sind Bild- bzw. Tonqualität schlecht. Arbeitet dann die KI-Engine unzuverlässig. Daher muss die Aufnahmequalität vor der Auswertung überprüft und gegebenenfalls das Video abgelehnt werden. Das Gesicht muss mittig und zur Kamera gerichtet sein.

e) Hintergrundobjekte

Bewegte Hintergrundobjekte können u. U. die KI-Engine zu unzuverlässigen Ergebnissen führen. Daher sind robuste KI-Engine mit einer Filterfunktion für den Hintergrund ausgestattet, so dass nur die Testperson ausgewertet wird.

f) Digitale Erfahrung

Für welche Use Cases eignet sich dieses KI-Verfahren? Fach- und Führungskräfte mit einer gewissen Affinität zum Video und Expertise im Umgang mit digitalen Mitteln (Notebook, Internet usw.).

3.2 Auswertung

Bei der Auswertung von Simulationsergebnissen unterscheidet man grundsätzlich zwischen Relativ- und Absolutwerten.

Der Vorteil von einem Simulationsmodell ist dessen Stabilität. Das heißt, ändert man in den Inputdaten eine einzige Variable, lässt sich deren Einfluss auf die Ergebnisse perfekt identifizieren. Die Änderung in den Ergebniswerte sind die Relativwerte. Diese sind zumeist valide, da das Simulationsmodell stabil ist. Im vorliegenden Fall heißt konkret. Es lassen sich die Einflüsse von Ereignissen wie z.B. Todesfall oder Siege auf die Emotionen einer Testperson durch Aufnahmen vor und nach dem Ereignis herausrechnen.

Anders verhält es sich mit den Absolutwerten. Damit diese valide sind, muss das Verfahren kalibriert werden. Das heißt, sollten Persönlichkeitseigenschaften von einer und derselben Person mit Hilfe von unterschiedlichen Verfahren ermittelt werden, werden die Ergebnisse nicht immer die gleichen Ausprägungen aufweisen. Weil einige Verfahren über Selbsteinschätzung und andere über Fremdeinschätzung arbeiten.  

Diese Einschränkung werden wir im 5. Kapitel besprechen.

4. Chancen der KI-basierten Videoanalyse

Eine KI-basierte Videoanalyse hat den Vorteil gegenüber den üblichen Fragenbögen: Es handelt sich um eine objektive und stabile Fremdeinschätzung. Objektiv, weil sie nicht von einem Kollegen oder Bekannten durchgeführt wird; und stabil, weil bei Wiederholungen die Bewertungskriterien konstant bleiben. Beide Aspekte sind fürs Recruiting und für die Personalentwicklung sehr relevant.

Lochner und Preuß (2018) zeigen sich optimistisch: „Recruiter werden durch automatisiertes Assessment (…) keineswegs überflüssig. Recruiter werden effizienter, produktiver und erfolgreicher werden“.

Zu den üblichen Präsenzinterviews im Recruiting-Prozess stellt eine KI-basierte Videoanalyse eine sehr interessante Ergänzung. Zum einen sehen die Recruiter im Video die Talente und können einen Eindruck gewinnen. Dieser Eindruck wird dann mit den Ergebnissen aus der KI-Engine ergänzt, korrigiert oder bestätigt.

Wir werten mit der KI-Engine Persönlichkeit (Big5 – Modell), Emotionen (Paul Ekman), Sprache (Karl Bühler) und Kommunikation (Riggio) aus.

Eine Zeiteinsparung von bis zu 70% wird von Unternehmen genannt, die dieses Verfahren verwenden (Quelle Retorio.com). Diese hohe Zeiteinsparung ergibt sich aus dem Entfall des Telefoninterviews, der besseren Treffsicherheit der Ergebnisse und der Fokussierung beim Präsenzinterview.

Die Ergebnisse von Eigenschaften, Emotionen und Sprachen erfordern eine Aufnahmedauer von 3 bis 5 Minuten. Die von HR gestellten Fragen sind Bestandteil des Recruiting-Prozesses und müssen positionskonform sein. Sie sollten die zu ermittelnden Attribute anregen und zur Geltung bringen, damit diese von der KI-Engine erfasst werden können.

Das KI-basierte Videointerview ist technisch disruptiv, das Konzept aber nicht. Videointerviews gibt es seit Jahren und bislang wurden Persönlichkeitsanalysen über Fragebögen durchgeführt. Diese sind jedoch eine Selbsteinschätzung.

Durch die KI-basierte Videoanalyse lässt sich nicht nur eine qualitative, sondern auch eine quantitative Bewertung vornehmen. Diese kann man mit dem Jobprofil matchen. Was hier so leicht klingt, unterliegt klarer Grenzen, wie wir im nächsten Kapitel sehen werden.

Die Wissenschaft ist sich einig, dass die KI im Recruiting Einzug halten wird, denn sie entwickelt sich zunehmend zu einem validen, reliablen und kostengünstigen Werkzeug, das HR auf dem Weg hin zum strategischen Partner unterstützt (Lochner und Preuß 2018).

Interessant ist letztlich die Kombination aus KI und Big Data. Durch die Erfassung von vielen Profilergebnissen mit der KI-Engine lässt sich eine Datenbank mit Benchmark Daten erstellen. Auf deren Basis kann die Personalabteilung „reale“ Jobprofile erstellen. Darüber hinaus lassen sich diese Profile mit Performancedaten wie der LEICHTIGKEITS-INDEX verbinden. Damit verfügt das Unternehmen über relevantes Wissen für die Organisation: Wie sieht das Profil von performanten Mitarbeitenden aus? Dies ist eine wichtige Erkenntnis: a) Für den Entwicklungsprozess der Mitarbeitende und b) fürs Recruiting.

5. Grenzen der KI-basierten Videoanalyse

In einer kleinen Studie (N=61) haben wir erste Erkenntnisse gewonnen: Unter welchen Bedingungen sind die ermittelten Ergebnisse aussagekräftig und unter welchen nicht?

Campion (2016) „Maschinen sind bei der Auswertung von Lebensläufen genauso reliabel und valide wie ihr menschliches Pendant“.

Im vorigen Jahrhundert sorgten in den USA Verfahren wie das MBTI für große Begeisterung und viele Firmen und Behörden verwendeten das Tool für Assessment der Bewerbenden und Mitarbeitenden, Emre (2018). Dieses Verfahren wie alle anderen, die Menschen einem Persönlichkeitstyp zuzuordnen versuchen, sind nicht valide, auch wenn sie sich auf Psychologen wie Carl Gustav Jung berufen. „Lessons learned“ bedeutet für uns, dass wir mit der KI-Engine keine typologische Bewertung und Zuordnung vornehmen dürfen, weder einem Persönlichkeitstyp noch einem bestimmten Job.

Möglich und ratsam ist es vielmehr, ein Vergleich mit einem Sollprofil, das mit der KI-Engine aus aggregierten Werten ermittelt worden ist.

6. Praxisbeispiele

Um den Nutzen einer KI-Engine zu verdeutlichen, haben wir in einer kleinen Studie (N=61) beispielhaft Vorstände, Gründer, Politiker, Schauspieler, Satiriker in Deutschland und USA analysiert und miteinander verglichen. Die Inputdaten stammen aus öffentlichen YouTube Videos, wo die betreffende Personen Talks oder Interviews gegeben haben.

Die Vergleichswerte waren Eigenschaften wie Offenheit, Ängstlichkeit, Extraversion, Verträglichkeit. Dazu Emotionen und Sprache.

Um signifikante Unterschiede in den Profilen herauszufinden, haben wir die Ergebnisse geclustert: Lokation (USA & EU), Berufe und Positionen. Die erste Überraschung: Die Big5- und Emotions-Profile von CEO von Unternehmen mit analogen (Old Economy) oder digitalen Produkten (New Economy) sind recht ähnlich.

Bei der einnehmenden Sprache (Engaging Language) gibt es nachvollziehbare Unterschiede (Bild 5). Ein Grund hierfür kann darin liegen, dass bestellte Vorstände zumeist älter sind und haben eine stärkere repräsentative Funktion als Gründer. In einer größeren Studie soll dies These bestätigt bzw. verworfen werden.

Auch bei Berufen wie Politiker, Schauspieler und Unternehmer (hier zusammen Vorstände & Gründer) sind klare Unterschiede in der einnehmenden Sprache (Engagaging Language) festzustellen. (Bild 6). Politiker und Schauspieler brauchen für ihren Job eine einnehmende Sprache. Während Unternehmer (Vorstände und Gründer) bei der Kommunikation den Schwerpunkt auf Zahlen und Produkte legen.

Aus einem Big5-Profil lässt sich nicht immer den erfolgreichen Lebensweg eines Menschen ableiten. Dies ist für die Bewertung von Talenten im Recruiting – Prozess zu berücksichtigen. Daher ist eine automatisierte Auswahl nicht empfehlenswert. Als Beispiel seien hier Profile von zwei erfolgreichen deutschen Gründern (Bild 7).

Wie unterscheiden sich Big5-Profile von DAX-Vorständen und Unicorn-Gründern? Gründer scheinen offener, extrovertierter und souveräner als DAX-Vorstände zu sein (Bild 8). Der Alterseffekt wurde hier nicht herausgerechnet. Hierfür liegen keine Erfahrungswerte vor.

Die Unterschiede sind zwar nicht sehr groß. Sie bestätigen jedoch meine persönlichen empirischen Beobachtungswerte.

Quellen

  1. DIN SPEC 33430
  2. DIN SPEC 91426
  3. Grasemann, R. in Personalführung 6/2020, S. 4-5
  4. Langer, M.; König C. J.; Paparthanasiou, M. (2019): Highly automated job interviews: Acceptance under the influence of stakes”, International Journal of Selection and Assessment, 27 (3), S. 217-234
  5. Lochner, K.; Preuß, A. (2018): Digitales Recruiting. Gruppe. Interaktion. Organisation. In Zeitschrift für Angewandte Organisationspsychologie (GIO), 49 (3) S. 193-202
  6. Campion, M. C. et al. (2016): Initial investigation into computer scoring of candidate essays for personal selection, in Journal of Applied Psychology, 101 (7), S. 958
  7. Langer, M. et al. (2018) Algorithmen bei der Personalauswahl – eine kritische und hoffnungsvolle Betrachtung, in: Wirtschaftspsychologie aktuell, 1, 36-4
  8. Kanning, U.P. (2016) Über die Sichtung von Bewerbungsunterlagen in der Praxis der Personalauswahl, in: Zeitschrift für Arbeits- und Organisationspsychologie A&O, 60, S. 18-32
  9. Devenport, T. H.; Ronanki, R. (2018) Artificial Intelligence for the real world, in: Harvard Business Review, 1-2, 6.5.2020 (hbr.org/2018).
  10. Costa, P.T.; McCrae R.R. (1992). Revised NEO personality inventory (NEO-PI-R) and NEO five-factor inventory (NEO-FFI) professional manual. Odessa, FI.: Psychological Assessment Resources
  11. Schmidt-Atzert, L. et al. (2014) Emotionspsychologie, Kohlhammer, Stuttgart
  12.  Krumm, S.; Schmidt-Atzert, K. (2009), Leistungstests im Personalmanagement, Hogrefe
  13. Schmidt-Atzert, L.; Amelang, M. (2018) Psychologische Diagnostik, Springer
  14. Kanning, U. (2021) Crashkurs Personalpsychologie, Freiburg
  15. Emre, M. (2018) The Personality Brokers – The strange history of Myers-Briggs and the Birth of Personality Testing, Doubleday, New York

Autor

  • Dr. Karl-Maria de Molina ist Spezialist für Kompetenzmanagement
  • Führungspositionen in zahlreichen Unternehmen der Automobilindustrie
  • Gründung von ThinkSimple und FTronik GmbH
  • Entwickler des TS-Index® und der ThinkSimple® Methode

> Zum Lebenslauf