Bin ich vielleicht zu groß für meinen Job?

Oder anders gefragt: Kann man Äpfel wirklich nicht mit Birnen vergleichen?
In diesem Beitrag möchten wir uns mit dem Nutzen und der Notwendigkeit von Testnormen beschäftigen, denn nur wer faire Vergleiche zieht erhält auch aussagekräftige Einschätzungen.

Sie finden die Frage reichlich merkwürdig und wundern sich, was das mit Testnormen zu tun hat? Bei vielen Jobs haben Sie mit Ihrer Skepsis sehr recht. Hätten Sie allerdings z. B. vor, professionell Rennwagen zu fahren, wäre eine Körpergröße über 1,80 m eher ungünstig. Einerseits aufgrund des engen Raums im Fahrzeug, aber auch wegen des höheren Gewichts. Demzufolge bestimmt der Kontext, welche Frage und welcher konkrete Vergleich sinnvoll ist.

In der Regel kann man als Erwachsener die Frage, ob man eher groß oder klein ist, ganz gut beantworten. Aufgrund der alltäglichen Erfahrung mit anderen Personen hat man so etwas wie eine subjektive „mentale Norm“ für Körpergrößen angelegt und kann daher einschätzen, ob man eher größer, kleiner oder ungefähr gleich groß wie die meisten anderen Personen ist. Will man diese Frage aber genauer beantworten, z. B. im Rahmen vom medizinischen Untersuchungen, muss man 1) die Körpergröße messen und 2) diese dann mit Messungen von einer passenden Gruppe vergleichen. Je nachdem welchen Maßstab man anlegt und mit welcher Gruppe man den Vergleich macht (z. B. Erwachsene, Kinder, Basketballprofis), wird sich die Antwort auf diese scheinbar banale Frage ändern. Sehr ähnlich verhält es sich auch bei psychologischen Tests.

Wozu Testnormen?

Ein psychologischer Test ist der Maßstab, mit dem wir psychische Eigenschaften messen können. Im Unterschied zur Körpergröße sind diese Eigenschaften jedoch nur schwer oder gar nicht direkt beobachtbar. Hat man vielleicht noch ein relativ gutes Gefühl zur Einschätzung der Körpergröße, so fällt die Einschätzung hinsichtlich von psychischen Merkmalen wie z. B. „Gewissenhaftigkeit“ oder „logisch-schlussfolgernden Denken“ schon erheblich schwieriger. Die eigene „mentale Norm“ ist in dem Fall völlig unzureichend.

Testnormen leisten hier Abhilfe und dienen dazu, die Testergebnisse einer Person in Relation zu einer relevanten Vergleichsgruppe zu stellen. Im Gegensatz zu Zentimetern, für die wir ein gewisses „Gefühl“ aufgebaut haben, sagt ein Testrohwert selten etwas über eine Person aus. Hat eine Person 7 von 15 Aufgaben eines Tests gelöst, könnte das je nach Schwierigkeit der Fragen ein gutes oder schlechtes Ergebnis sein. Der Rohwert in einem Test bekommt erst dann Sinn, wenn man weiß, wie andere Personen im Test abschneiden. Als Vergleichsgruppe dienen sogenannte Normstichproben, d.h. eine möglichst große Personengruppe, die repräsentativ für die Zielpopulation des Tests ist und mit dem Test getestet wurde. Auf Basis der Testdaten der Normstichprobe können dann Normwerte berechnet werden. Normwerte geben direkt Informationen darüber, welche Position die Person im Vergleich zur Normstichprobe in Bezug auf ein psychisches Merkmal einnimmt. So kann ein Ergebnis als über-, unter- oder durchschnittliche Testleistung bzw. als hohe, niedrige oder moderate Ausprägung von Persönlichkeitseigenschaften, Einstellungen oder Interessen interpretiert werden.

Welche Typen von Normstichproben gibt es?

Psychologische Tests können bei vielen unterschiedlichen Fragestellungen eingesetzt werden. Um für jede Fragestellung bzw. Person die passende Vergleichsgruppe bereitzustellen, bieten viele Tests mehrere Normstichproben an. Oft gibt es eine für die Allgemeinbevölkerung repräsentative Normstichprobe. Repräsentativ bedeutet in diesem Kontext, dass die Verteilung von relevanten Personeneigenschaften wie Alter, Geschlecht oder Bildungsgrad in der Stichprobe vergleichbar ist wie jene in der Allgemeinbevölkerung. Auf Basis dieser (großen) bevölkerungsrepräsentativen Normstichproben werden zumeist auch nach Alter, Geschlecht und/oder Bildungsgrad getrennte Subgruppennormen (z.B. Altersgruppe 50-59 Jahre) erstellt. Je nach Test und Fragestellung kann es auch hilfreich sein, andere gruppenspezifische Normen zu verwenden (z. B. getrennt nach Beruf, Schulart oder Erkrankung). Im Unterschied zu bevölkerungsrepräsentativen Normen, welche zumeist stratifizierte oder Quotenstichproben sind, handelt es sich bei diesen gruppenspezifischen Normen oft um sogenannte Anfallsstichproben. Je spezifischer und kleiner die Bevölkerungsgruppe (z. B. deutsche U19 Fußballer, 2. Liga), desto eher können derartige Anfallsstichproben auch repräsentativ für die Zielpopulation sein.

Welche Arten von Normwerten gibt es?

Hinsichtlich der Normwerte unterscheidet man im Wesentlichen zwei Gruppen:

Prozentränge (PR) lassen sich auf Basis der relativen Häufigkeit von bestimmten Testrohwerten in der Normstichprobe ableiten (mittels Flächentransformation). Ein Prozentrang gibt an, wie viel Prozent der Normstichprobe ein gleiches oder ein niedrigeres Testergebnis erreicht haben. Ein PR = 87 bedeutet z. B., dass 87 % der Normstichprobe dasselbe oder ein niedrigeres Testergebnis haben bzw. dass 13 % der Normstichprobe eines höheres erreicht haben.

Standardnormen zeigen hingegen, wie viele Standardabweichungen das Testergebnis vom Mittelwert der Normstichprobe entfernt liegt. Die Basis aller Standardnormen sind z-Werte mit einem Mittelwert (M) von 0 und einer Standardabweichung (SD) von 1. Ein z-Wert = -0,5 bedeutet demzufolge, dass das Testergebnis eine halbe Standardabweichung unter dem Mittelwert der Norm liegt. Da z-Werte aufgrund der Dezimalstellen und des wechselnden Vorzeichens wenig praktikabel sind, wurden andere Standardnormen entwickelt.

So wie die Umrechnung von Celsius in Fahrenheit ist auch die Umrechnung von z-Werten in andere Standardnormen lediglich eine lineare Transformation. Standardnormen können daher auch beliebig gewechselt werden. Häufig verwendete Standardnormen sind z. B. T-Werte (M=50, SD=10) oder IQ-Werte (M=100, SD=15). Sind die Testwerte annähernd normalverteilt, können diese Standardnormen auf Basis der Standardnormalverteilung ähnlich wie PR interpretiert werden. Ein IQ = 130 steht für ein Ergebnis, welches zwei Standardabweichungen (2 x 15) über dem Durchschnitt (IQ=100) liegt und würde bedeuten, dass nur ~2,5 % der Normstichprobe ein besseres Testergebnis haben.

Gut zu wissen: Im Unterschied zu Prozenträngen (Rangskalenniveau) kann man bei Standardnormen (Intervallskalenniveau) auch Differenzen zwischen Testwerten interpretieren. Zum Beispiel ist der Abfall in der Leistung um 20 T-Werte doppelt so groß wie der um 10 T-Werte. Bei Prozenträngen ist diese Art der Interpretation nicht zulässig, da damit nur beurteilt werden kann, ob Testwerte größer, kleiner oder gleich sind und nicht wie viel größer oder kleiner.

Wie entscheidet man, welche Norm man verwenden soll?

Die korrekte Wahl der Normstichprobe ist für die Interpretation von Testergebnissen von zentraler Bedeutung. Je nach verwendeter Norm ändert sich auch der Kontext, in dem die Ergebnisse interpretiert werden können. Mit einer Körpergröße von 177 cm zählt man in Japan klar zu den überdurchschnittlich Großen, während man in den Niederlanden „nur“ im Durchschnitt liegt. Will man hingegen einen geschlechtsspezifischen Vergleich, wäre diese Körpergröße bei einer Frau in beiden Ländern überdurchschnittlich groß. Bei der Interpretation eines Normwertes ist also Vorsicht geboten. Einerseits ändert sich je nach Normstichprobe der Normwert, andererseits kann ein und derselbe Normwert je nach Wahl der Normstichprobe etwas anderes bedeuten. Der oben bereits erwähnte Normwert von IQ = 130 könnte in einem Intelligenztest ein Hinweis auf Hochbegabung sein. Dies ist jedoch nicht der Fall, wenn die Normstichprobe ausschließlich aus Personen mit diagnostizierter Intelligenzminderung besteht.

Grundsätzlich soll jene Norm gewählt werden, welche zur Beantwortung einer konkreten diagnostischen Fragestellung für eine bestimmte Person am besten geeignet ist. Das klingt sehr einfach, ist es jedoch oft nicht. Es kann zur Folge haben, dass man für dieselbe Person je nach Fragestellung unterschiedliche Normen heranzieht oder trotz gleicher Fragestellung je nach Person unterschiedliche Normen verwendet.

Beispiel 1

Ein 84-jähriger Mann erlitt einen Schlaganfall. Im Rahmen seines Rehabilitationsaufenthalts soll geklärt werden, ob es Hinweise auf kognitive Beeinträchtigungen gibt. Die Leistungen in vielen kognitiven Funktionsbereichen nehmen mit dem Alter ab. Will man also wissen, ob eine kognitive Leistung altersadäquat ist oder nicht, sollte man möglichst altersspezifische Normen von gesunden Personen verwenden. Damit kann man dann feststellen, ob der Mann im Vergleich zu anderen gesunden Personen im selben Alter kognitiv beeinträchtigt ist. Möchte man zusätzlich den Schweregrad der Beeinträchtigung abschätzen, kann man prinzipiell auch dafür die altersspezifische Norm nutzen und feststellen, wie weit die Testperson unter dem Durchschnittsbereich liegt. Allerdings ist es oft der Fall, dass Normen auf Basis der Allgemeinbevölkerung in den Extrembereichen des Merkmalspektrums weniger gut differenzieren und es je nach Fokus des Tests auch zu Boden- oder Deckeneffekten kommen kann. Deshalb kann zur Einschätzung des Schweregrads der Vergleich mit einer klinischen Normstichprobe hilfreich sein. Liegt für den Test z. B. eine Normstichprobe mit Personen vor, die einen leichten bis schweren Schlaganfall erlitten haben, lässt sich damit genauer beurteilen, wie schwer die kognitiven Beeinträchtigungen konkret sind.

Beispiel 2

Nachdem eine 67-jährige Frau stark alkoholisiert mit dem PKW gefahren ist, wird behördlich eine Nachschulung sowie eine verkehrspsychologische Untersuchung angeordnet, in der die kraftfahrspezifische psychische Leistungsfähigkeit untersucht werden soll. Die Verwendung einer altersspezifischen Norm wäre unzureichend, da es in diesem Fall nicht um den Vergleich mit anderen Personen im selben Alter oder mit derselben Erkrankung geht, sondern um den Vergleich mit allen Kraftfahrerinnen und Kraftfahrern. Genauso wie Geschwindigkeitsbeschränkungen, gelten diese kognitiven Mindestanforderungen für alle gleichermaßen, ungeachtet ihres Alters oder Gesundheitszustandes. Demzufolge sollte man zur Beantwortung der Frage eine altersunspezifische Gesamtnorm der erwachsenen Allgemeinbevölkerung verwenden. Die Frau wird also nicht nur mit Gleichaltrigen, sondern generell mit allen gesunden, erwachsenen Personen verglichen. Die altersunspezifische Gesamtnorm ist in dem Fall vermutlich „strenger“ als bei der Nutzung einer altersspezifischen Subgruppennorm. Es kann nämlich davon ausgegangen werden, dass das durchschnittliche kognitive Leistungsniveau aufgrund des höheren Anteils an jüngeren Personen in der Gesamtnorm höher ist und somit das erforderliche Mindestniveau für die Fahreignung erhöht wird.

Beispiel 3

Eine Fluglinie möchte im Zuge eines mehrstufigen Auswahlverfahrens unter anderem feststellen, welche Bewerbenden die beste kognitive Leistungsfähigkeit aufweisen. Um die Beurteilung fair zu halten, ist es wichtig, dass über alle Personen derselbe Vergleichsmaßstab, d. h. dieselbe (Subgruppen-)Norm verwendet wird. Dazu wird in der Regel die Gesamtnorm der erwachsenen Allgemeinbevölkerung herangezogen. Da bei Pilotinnen und Piloten von einem hohen Leistungsniveau auszugehen ist und demzufolge eine gute Differenzierung in diesem Bereich wünschenswert ist (= keine Deckeneffekte), wäre es sogar noch besser, eine spezifische Normstichprobe mit Pilotinnen und Piloten zu nutzen.

Wie die drei Beispiele verdeutlichen, sind Normen essenziell zur Interpretation von psychologischen Tests. Deren Anwendung und korrekte Interpretation ist jedoch nicht so trivial wie es auf den ersten Blick erscheint. Ist man sich dessen bewusst, kennt man die Unterschiede der Normwerttypen und wählt man je nach konkreter Fragestellung sorgfältig die geeignete Norm aus, hat man schon vieles richtig gemacht.


Glossar:

Anfalls-, Quoten- und stratifizierte Stichproben = unterschiedliche Arten Normstichprobe zu erheben. Hierbei wird die Population in Subgruppen unterteilt und Personen zufällig (strat. Stichpr.) oder nicht zufällig (Quotenstichp.) rekrutiert. Anfallsstichproben verwenden hingegen keine Stratifizierung bzw. keinen Quotenplan und Personen werden einfach nach ihrer Verfügbarkeit rekrutiert.

Standardabweichungen = statistischer Kennwert für das Ausmaß der Streuung der Testrohwerte um den Mittelwert innerhalb einer Stichprobe.

Standardnormalverteilung = eine theoretische Verteilung von Werten, bei der sich die Werte in der Mitte anhäufen und an beiden Seiten symmetrisch abfallen.

Boden-/Deckeneffekte = Bodeneffekte treten auf, wenn ein Test so schwierig ist, dass die meisten Personen nur sehr niedrige Testwerte erzielen. Umgekehrt spricht man von Deckeneffekten, wenn ein Test so leicht ist, dass die meisten Personen sehr hohe Testwerte erzielen. In beiden Fällen ist die Varianz der Testwerte innerhalb Normstichprobe eingeschränkt und führt dazu das im unteren (Bodeneffekt) bzw. im oberen Merkmalsbereich (Deckeneffekt) nicht gut differenziert werden kann.

Newsletter

Newsletter

Bleiben Sie auf dem Laufenden, wenn es um neue Tests, praktische Tipps und Tricks rund um digitale Diagnostik oder interessante  Weiterbildungsmöglichkeiten geht.