ThinkSimple+ Big5-Persönlichkeitsmodell
Zusammenfassung
Hier erfahren Sie vom verwendeten Persönlichkeitsmodell und von seiner wissenschaftlichen Grundlage. Darüber hinaus lernen Sie, die Methodik hinter der KI-Persönlichkeitsanalyse sowie die wichtigsten Validierungskriterien kennen.
1. Theoretische Grundlage
Die Persönlichkeitsanalyse konzentriert sich auf das gezeigte Verhalten eines Individuums, um ein Persönlichkeitsprofil von ihm abzuleiten. Dieser besondere Ansatz ist in der wissenschaftlichen Forschung nicht ungewöhnlich, aber er ist in praktische Anwendung neu. Wir wollen den Hintergrund dieses Ansatzes aufzeigen und erklären, warum er funktioniert.
Kennen uns andere besser als wir selbst?
Bevor wir uns mit dem Verständnis des Unterschieds zwischen Selbst- und Fremdeinschätzung befassen, ist es wichtig zu erkennen, wie jede Bewertung dieselben Merkmale der Persönlichkeit misst, sich aber auf verschiedene Aspekte konzentriert. Die Selbsteinschätzung konzentriert sich darauf, wie eine Person ihre eigene innere Dynamik bewertet (z.B. die eigene Identität). Beobachterbewertungen (Fremdeinschätzungen) konzentrieren sich vielmehr auf die Messung des beobachteten Verhaltens einer Person (Oh, Wang & Mount 2011).
Eine Erklärung für den Unterschied zwischen Selbst- und Fremdeinschätzung in der Persönlichkeitsbewertung liegt darin, dass sich die Fremdeinschätzung am sozialen wahrgenommenen Verhalten der zu bewertenden Person orientiert. Umgekehrt sind Selbsteinschätzungen stark von eigenen Gefühlen und Motiven geprägt (Mount, Barrick & Strauss 1994).
Daher liefern selten Selbst- und Fremdeinschätzungen redundante Information. Sie liefern vielmehr komplementäre Aspekte der Persönlichkeit eines Individuums (Vazire & Carlson 2011).
Sind Andere in der Lage, meine „äußere“ Persönlichkeit zu bewerten?
Während Selbst- und Fremdeinschätzung -wie gesehen- verschiedene Aspekte erfassen, stellt sich die Frage, wie genau Andere die äußere Persönlichkeit eines Individuums bewerten können. Untersuchungen zeigen, dass Menschen Extraversion bereits nach 50 Millisekunden Exposition gegenüber einem Gesicht richtig vorhersagen (Borkenau, Brecke, Möttig & Paelecke 2009). Für andere Big-Five-Persönlichkeitsdimensionen wie Verträglichkeit wurden ähnliche Effekte gefunden, nachdem man sich einen 20 Sekunden stummen Clip angeschaut hatte (Kogan et al., 2011). Selbst für weniger ausgeprägter zwischenmenschliche Persönlichkeitsdimensionen wie Gewissenhaftigkeit, genügen kurze Videoclips von 30 Sekunden, um diese bewerten zu können. Und dadurch eine prädiktive Gültigkeit für die Arbeitsleistung ermöglichen (Ambady, Krabbenhoft & Hogan 2006; Ambady & Rosenthal 1993).
Zusammenfassend kann man sagen: Eine Fremdeinschätzung ermöglicht eine Bewertung eines Individuums und deren Leistung am Arbeitsplatz, auch wenn diese von der Selbsteinschätzung abweicht.
2. Selbst- bzw. Fremdeinschätzung: Welche von beiden ist relevanter für die Leistungsbeurteilung am Arbeitsplatz?
Wenn Selbst- und Fremdeinschätzungen nicht unbedingt die gleichen spekte der Persönlichkeit messen, welche der beiden Messmethoden ist m Arbeitsplatz relevanter? Die Antwort lautet: Es kommt auf den Kontext an. Für das Assessment von Kandidat*Innen im Bewerbungsprozess ist die Fremdbewertung besser geeignet als die Selbsteinschätzung (Mount et al., 1994; Oh et al., 2011). Zum Beispiel Mount et al. (1994) untersuchten, ob Bewertungen von Vorgesetzten, Kollegen oder Kunden die Leistung vorhersagen konnten. Sie stellten fest, dass die extern bewertete Gewissenhaftigkeit und Extraversion (z. B. Vorgesetzte) gültige Vorhersagen für die Arbeitsleistung lieferten.
Andere Untersuchungen bestätigen diese Ergebnisse und zeigen, dass Fremdeinschätzungen (vs. Selbsteinschätzungen) einen stärkeren Effekt bei der Vorhersage der Arbeitsleistung haben. Darüber hinaus zeigt die Forschung, dass ein KPI aus der Kombination von Fremd- und Selbsteinschätzung zu einer Verbesserung der Vorhersage der Leistung am Arbeitsplatz führt (Oh et al. 2011).
Zusammenfassend lässt sich sagen:
- Fremdeinschätzungen konzentrieren sich auf den Verhaltensaspekt der Persönlichkeit
- Fremdeinschätzungen beurteilen Persönlichkeit aus der Beobachter Rolle
- Fremdeinschätzungen haben eine höhere Gültigkeit bei der Vorhersage der Arbeitsleistung als die herkömmlichen Selbsteinschätzungen
3. Angewendete Methode der KI-basierten Persönlichkeitsanalyse
Die in ThinkSimple+ verwendete KI-basierte Persönlichkeitsanalyse beruht auf Fremdeinschätzung und sie liefert Ergebnisse gemäß dem Big5-Persönlichkeitsmodell.
Zugrunde gelegtes Persönlichkeitsmodell - The Big-5
Adjektive werden verwendet, um die Persönlichkeit einer Person zu beschreiben (Goldberg, 1992; McCrae & Costa, 1987). Diese Adjektive sind in Dimensionen gruppiert und stellen ein Merkmal höherer Ordnung dar. Die Forscher gruppieren die Attribute in 5 Merkmale: Offenheit, Gewissenhaftigkeit, Extraversion, Verträglichkeit und Neurotizismus (Emotionale Stabilität). Als die am häufigsten verwendeten Modelle in der unter den Psychologen, diese 5 Eigenschaften sind als die Big5 oder OCEAN Modell bekannt.
Diese Merkmale auch Attribute genannt besitzen beschreibende Unterdimensionen. Zum Beispiel hat Offenheit Subdimensionen wie intellektuelle Neugierde, ästhetisches Interesses und Kreativitätsphantasie. Gewissenhaftigkeit misst das Verhalten einer Person in Bezug auf Leistungsstreben, Aktivitätskontrolle und Fleiß. Extraversion beschreibt die soziale, energetische und Durchsetzungskraft einer Person. Die Verträglichkeit beinhaltet das mitfühlende, respektvolle und vertrauensvolle Verhalten einer Person (Soto & John, 2017). Extraversion und Verträglichkeit werden besonders verwendet, um zwischenmenschliches interaktives Verhalten zu beschreiben, während Gewissenhaftigkeit und Neurotizismus verwendet werden, um intrapersonales Verhalten zu beschreiben.
Zusammenfassend lässt sich sagen, dass Adjektive verwendet werden können, um die Persönlichkeit der Menschen zu beschreiben und sie entlang einer Taxonomie zu klassifizieren.
Weitere Information über das hier verwendete Modell unter: Goldberg
Beschreibung der Big5 Persönlichkeitsmerkmale
Offenheit
Wer bei dieser Eigenschaft hohe Werte erzielt, neigen dazu, intellektuell neugierig zu sein, bereit, neue Dinge auszuprobieren, ist kreativer oder unkonventioneller. Diejenigen, die in dieser Eigenschaft niedrige Werte erzielen, sind weniger anpassungsfähig.
Gewissenhaftigkeit
Dies zeigt, wie gut sich eine Person auf Verantwortung, Organisation und Zielsetzung ausrichtet. Gewissenhaftigkeit besteht aus Selbstkontrolle und zeigt, wie die Person Entscheidungsoptionen analysiert. Diejenigen, die bei dieser Eigenschaft niedrig punkten, neigen dazu, spontaner, flexibler oder unzuverlässiger zu sein.
Extraversion
Das Spektrum der Extraversions-Introversion beschreibt, wie Individuen Freude ableiten und Energie empfangen. Je introvertierter, desto größer ist die Wahrscheinlichkeit, dass die Person mehr Freude an ihrem inneren Leben empfindet als durch gesellschaftliche Ereignisse. Introvertierte sind eher fasziniert von der Welt der Ideen und neigen daher dazu, ein bisschen zerebraler und reflektierter als Extrovertierte zu sein. Extrovertierte gewinnen Energie, wenn sie um andere herum sind und an einer Vielzahl von Aktivitäten teilnehmen. Niemand ist rein extrovertiert oder introvertiert.
Verträglichkeit
Eine Person mit hoher Punktezahl in dieser Eigenschaft zeigt ein größeres Maß an sozialem Verhalten wie Kooperation, Freundlichkeit und Höflichkeit. Sie besitzt die Fähigkeit zu substantieller Empathie und neigt dazu, sich um andere zu kümmern. Sie neigt dazu, Konflikte zu vermeiden und selten negative Emotionen zu zeigen.
Neurotizismus
Personen, die bei dieser Eigenschaft hoch punkten neigen dazu, negative oder emotional ängstliche Zustände zu erleben. Sie ringen mit Gefühlen der Angst, Depression, Schuld oder Einsamkeit – mehr als diejenigen, die niedrig punkten. Neurotizismus ist ein langfristiger emotionaler Zustand und er lässt den Alltag schwieriger erscheinen lassen als es in Wirklichkeit ist.
4. Validität der verwendeten Methode
Datensatz und Datensammlung
Wir kombinieren den Ansatz der Merkmalstaxonomie (Taxonomy d.h. Big5) und Beobachterbewertungen, um Individuen in kurzen Videointerviews zu bewerten. Beobachter bewerteten die Testpersonen in Videointerviews entlang der Big5 (oder OCEAN) Taxonomie. Insgesamt haben wir mehr als 2.500 Assessoren (Beobachter) aus fünf Kontinenten eingesetzt. Die Kohorte der Testpersonen, auf deren Basis die Trainingsdaten erstellt wurden, war divers hinsichtlich Geschlecht, ethnischer Zugehörigkeit und Alter. Wir haben diesbezüglich auf eine gleichmäßige Verteilung in diesen drei Parametern geachtet. Um die Objektivität der Ergebnisse zu gewährleisten, wurden pro Videoaufnahme mehrere Bewertungen hinzugezogen und diese dann aggregiert ausgewiesen. Die Trainingsdaten umfassen eine Kohorte von mehr als 12.000 Testpersonen. Sie haben jeweils mehrere Videos in ähnlichen (aber nicht gleichen) Settings (Interviewfragen sowie Raumbedingungen) aufgenommen. Damit haben wir die Konsistenz der Ergebnisse und die Robustheit des Modells auf Einflüsse bewertet. Der Umfang der Beobachterbewertungen liegt bei ca. 50.000 Datensätzen. Die Testpersonen bekleiden Funktionen als Fach- ( 87%) und Führungskräfte (5%) aus unterschiedlichen Industriezweigen sowie aus dem Universitätsumfeld (8%). Damit sollte sichergestellt werden, dass die Kohorte der Testpersonen und der späteren Einsatzpersonen ähnlich ist. Dies ist hinsichtlich der Normierung sehr relevant.
Forschungsergebnisse haben bewiesen, dass „die Assessoren keine Spezialisten in Eignungsdiagnostik sein müssen, um andere valide zu bewerten. Entscheidend ist vielmehr die Verwendung von einem validierten und soliden wissenschaftlichen Konzept ab“ (Kolar, Funder & Colvin, 1996).
Datenexploration
Wir haben, die von den Assessoren gegebenen Big5-Bewertungen auf systematische Verzerrungen überprüft. Zum Beispiel haben wir Mittel der Extraversion über Kaukasische und Afroamerikaner verglichen. Wenn wir mittlere Unterschiede feststellten, die auf die Mitgliedschaft in einer Gruppe zurückzuführen waren, passten wir den Mittelwert an den jeweiligen Unterschied an, um diskriminierende Verzerrungen in den Trainings- und Testsätzen zu beseitigen.
5. Persönlichkeits-AI-Bewertung
Vorhersagegenauigkeit
Der Durchschnittswert der Genauigkeit des verwendeten Modells ergibt sich aus der Überdeckung zwischen den Ergebnissen der KI-Engine und der Beobachterbewertungen. Dieser Wert liegt bei 90%.
Das bedeutet, dass wir beim Versuch, den Wert aller menschlichen Assessoren vorherzusagen, im Durchschnitt eine Abweichung von 10 % haben. So kann es passieren, dass wir keine 3, sondern eine 2,7 oder 3,3 vorhersagen 3.3. Angesichts der Schwierigkeit, die Eigenschaften eines Menschen zu erfassen und der Tatsache, dass es keinen natürlichen Vergleichsstandard gibt, sind wir mit der KI-Engine nah an die menschlichen Bewertungen von Personen. Da es keinerlei Beziehung zwischen Beobachtern und Testpersonen gab, gelten diese gemittelten Beobachtungen als objektiv. Das heißt, wenn diese objektiv sind und die Ergebnisse der KI-Engine eine 90% Überdeckung zu den Beobachterergebnissen aufweisen, dann dürfen die Ergebnisse der KI-Engine als objektiv angesehen werden.
Reliabilität
Wir berechneten die relative Konsistenz und die Übereinstimmung zwischen Beobachterbewertungen und den Ergebnissen der KI-Engine. Wir haben uns eingehend mit der Frage befasst, inwieweit die absoluten Werte der Beobachterbewertungen und der Ergebnisse der KI-Engine übereinstimmen. Bei Analyse der Genauigkeit geht es uns nicht nur um eine qualitative, sondern auch um eine quantitative Übereinstimmung.
Unsere internen Berechnungen unterschieden zwischen Beobachter- und KI-Ergebnissen, und ergaben einen „Interclass correlation coefficient“ (ICC) von [.53; .62]. Um Voreingenommenheit einzugrenzen, ist es wichtig, dass originale, von Menschen bewerteten Ergebnissen angepasst wurden (vgl. Datenexploration) und somit den Koeffizienten beeinflussen.
Ein höherer ICC-Wert würde darauf hindeuten, dass stereotypische Bewertungen im Beobachter-Verfahren verfestigt und in unsere KI übertragen werden. Angesichts der Tatsache, dass wir keine perfekte Übereinstimmung mit den ersten Beobachterergebnissen erzielen wollen, ist ein moderater ICC-Wert perfekt.
Demographisch neutral
Messkalibrierung – Baseline-Vergleichsdatensatz
Um Fairness bei der Beurteilung unseres Persönlichkeits-KI-Modells zu demonstrieren, haben wir unsere KI anhand eines neu veröffentlichten Datensatzes ausgewertet: The Fair Face Dataset (https://arxiv.org/abs/1908.04913). Dieser Datensatz besteht aus Bildern von über 100.000 Menschen, die auf 7 Ethnien verteilt sind: Weiß, Schwarz, Indisch, Ostasien, Südostasien, Naher Osten und Latino; 9 Altersgruppen von 2 bis über 70 Jahren und 2 Geschlechter. Der Datensatz wurde erstellt, um sicherzustellen, dass die Verteilung der demografischen Daten innerhalb eines Datasets gleichmäßig verteilt wird, wenn KI-Modelle AI für Klassifizierungsaufgaben trainiert werden. Die folgende Abbildung des Papiers zeigt die demografische Verteilung der ethnischen Zugehörigkeit im Vergleich zu anderen vorhandenen Gesichtsdatensätzen.
Abbildung 1: Rassenverteilung im Fair Face Dataset
Quelle:Fair Face,FaceAttributeDatasetfür ausgewogene Rasse,Geschlechtund Alter
Vorhersagbarkeit der Persönlichkeit der KI-Analyse
Tabelle 1 zeigt die Ergebnisse unserer Persönlichkeit-AI bei der Vorhersage der Big-5 für verschiedene Gruppen von Ethnien, aggregiert über Altersgruppen und Geschlechter. Tabelle 2 zeigt eine tiefere Aufschlüsselung zwischen den Geschlechtern nach verschiedenen ethnischen Gruppen.
Tabelle 1: Durchschnittswerte für verschiedene Ethnien
Tabelle 2: Durchschnittswerte für verschiedene Ethnien und Geschlechter
Es ist hier zu erwähnen, dass wir statistisch signifikante Unterschiede zwischen den Gruppen gefunden haben. Angesichts der großen Datenmenge ist es sehr wahrscheinlich, dass die Signifikanzwerte, die durch p-Werte definiert sind, eine Signifikanz erreichen. Eine Analyse der Einflüsse auf die Signifikanz ergab, dass diese vernachlässigbar sind.
Mittelwerte in jeder Spalte, aggregiert innerhalb der ethnischen Zugehörigkeit über Altersgruppen und Geschlechter.
Abbildung 2: Aggregierte Durchschnittswerte
In Tabelle 3 untersuchen wir die aggregierten Durchschnittswerte über alle Gruppen. Die Werte pro Bereiche geben die durchschnittliche Spanne über alle Gruppen hinweg. Zum Beispiel der Bereich von 0,03 in der Offenheit sagt aus, dass der Durchschnittswerte in einer der Untergruppen zwischen 0,53 und 0,56 liegt. Der Mittelwert zeigt den Durchschnittswert der aggregierten Werte durch alle Gruppen zusammen. Die Standardabweichung zeigt die Abweichung in den Mittelwerten.
Tabelle 3: Darstellungbeschreibender Unterschiede zwischen Gruppen
N = 70 Gruppen; 2 (Geschlechter: Männlich weiblich) x 5 Alter Gruppen (10-19, 20-29, 30-39, 40-49, 50-59) x 7 Ethnien (Ost Asiatisch Indischen Schwarz Weiß Mitte Östlichen Südosten Asiatisch Latino/Hispanisch)
Wichtige Take-aways:
Wir konnte hier zeigen, dass unsere KI-Engine der Persönlichkeit diskriminierungsfrei hinsichtlich Geschlecht, Hautfarbe und Alter analysiert.
Grenzen des Verfahrens
Wir möchten betonen, dass wir nicht behaupten, dass unsere Persönlichkeit KI perfekt oder umfassend ist.
Die KI-Engine befindet sich dank Kundenaufträge in einem kontinuierlichen Verbesserungsprozess.
Relevant für die Genauigkeit ist die Beachtung der Chancen und Grenzen der KI-basierten Auswertung von Videointerviews: Welche Settings funktionieren für welche Attribute. Hier sei auf die DIN SPEC 91426 von 12/2020 hingewiesen. Wir sind dabei die in dieser SPEC aufgeführten Punkte zu erläutern. Diese Erläuterungen werden wir hier einbauen.
Wir erarbeiteten ein Papier genau zu diesem Thema, das in Kürze zur Verfügung stehen wird und hier verlinkt wird.
Wir möchten einen Beitrag bei der datenbasierten Bewertung von Persönlichkeitseigenschaften und damit eine zusätzliche Meinung liefern für eine bessere Entscheidungsgrundlage.
Umsetzung der DIN SPEC 91426 in unserer KI-Engine
Text wird in Kürze veröffentlicht.
Literatur
Ambady, N., Krabbenhoft,M. A., & Hogan, D. (2006). Der 30-Sek. Verkauf: Verwenden von dünngeschnittenen Urteilen, um die Umsatzwirksamkeit zu bewerten. Journal of Consumer Psychology, 16(1), 4-13.
Ambady, N., & Rosenthal, R. (1993). Eine halbe Minute: Vorhersage von Lehrerbewertungen aus dünnen Scheiben nonverbalen Verhaltens und körperlicher Attraktivität. Journal of Personality and Social Psychology, 64(3), 431-441.
Borkenau, P., Brecke, S., Möttig, C., & Paelecke, M. (2009). Die Extraversion wird nach einer 50-ms-Exposition gegenüber einem Gesicht genau wahrgenommen. Journal of Research in Personality, 43(4), 703-706.
L. R. Goldberg (1992). Die Entwicklung von Markern für die Big-Five-Faktorstruktur.
Psychologische Beurteilung, 4(1), 26-42.
Kogan, A., Saslow, L. R., Impett,E. A., Oveis, C., Keltner, D., & Saturn, S. R. (2011). evaluation Dünnschnitt-Studie des Oxytocin-Rezeptor-Gens (OXTR) und Auswertung und Expression der prosozialen Disposition. Proceedings of the National Academy of Sciences, 108(48), 19189-19192.
Kolar, D. W., Funder, D. C., & Colvin, C. R. (1996). Vergleich der Genauigkeit von Persönlichkeitsurteilen durch das Selbst und sachkundige andere. Journal of Personality, 64(2), 311- 337.
McCrae, R. R., & Costa, P. T. (1987). Validierung des Fünf-Faktor-Persönlichkeitsmodells of über Instrumente und Beobachter hinweg. Journal of Personality and Social Psychology, 52(1), 81– 90.
Mount, M. K., Barrick, M. R., & Strauss, J. P. (1994). Gültigkeit der Beobachterbewertungen der Big Five Persönlichkeitsfaktoren. Journal of Applied Psychology, 79(2), 272-280.
Oh, I.-S., Wang, G., & Mount, M. K. (2011). Gültigkeit der Beobachterbewertungen des Fünf-Faktor-Modells von Persönlichkeitsmerkmalen: Eine Metaanalyse. Journal of Applied Psychology, 96(4), 762–773.
Soto, C. J., & John, O. P. (2017). Kurze und extrakurze Formen des Big Five Inventory–2: Der BFI-2-S und BFI-2-XS. Journal of Research in Personality, 68, 69–81.
Vazire, S., & Carlson, E. N. (2011). Andere kennen uns manchmal besser, als wir selbst kennen. Aktuelle Richtungen in Psychologischer Wissenschaft, 20(2), 104-108.