Oder anders gefragt: Kann man Äpfel wirklich nicht mit Birnen vergleichen?
In diesem Beitrag möchten wir uns mit dem Nutzen und der Notwendigkeit von Testnormen beschäftigen, denn nur wer faire Vergleiche zieht erhält auch aussagekräftige Einschätzungen.
Sie finden die Frage reichlich merkwürdig und wundern sich, was das mit Testnormen zu tun hat? Bei vielen Jobs haben Sie mit Ihrer Skepsis sehr recht. Hätten Sie allerdings z. B. vor, professionell Rennwagen zu fahren, wäre eine Körpergröße über 1,80 m eher ungünstig. Einerseits aufgrund des engen Raums im Fahrzeug, aber auch wegen des höheren Gewichts. Demzufolge bestimmt der Kontext, welche Frage und welcher konkrete Vergleich sinnvoll ist.
In der Regel kann man als Erwachsener die Frage, ob man eher groß oder klein ist, ganz gut beantworten. Aufgrund der alltäglichen Erfahrung mit anderen Personen hat man so etwas wie eine subjektive „mentale Norm“ für Körpergrößen angelegt und kann daher einschätzen, ob man eher größer, kleiner oder ungefähr gleich groß wie die meisten anderen Personen ist. Will man diese Frage aber genauer beantworten, z. B. im Rahmen vom medizinischen Untersuchungen, muss man 1) die Körpergröße messen und 2) diese dann mit Messungen von einer passenden Gruppe vergleichen. Je nachdem welchen Maßstab man anlegt und mit welcher Gruppe man den Vergleich macht (z. B. Erwachsene, Kinder, Basketballprofis), wird sich die Antwort auf diese scheinbar banale Frage ändern. Sehr ähnlich verhält es sich auch bei psychologischen Tests.
Wozu Testnormen?
Ein psychologischer Test ist der Maßstab, mit dem wir psychische Eigenschaften messen können. Im Unterschied zur Körpergröße sind diese Eigenschaften jedoch nur schwer oder gar nicht direkt beobachtbar. Hat man vielleicht noch ein relativ gutes Gefühl zur Einschätzung der Körpergröße, so fällt die Einschätzung hinsichtlich von psychischen Merkmalen wie z. B. „Gewissenhaftigkeit“ oder „logisch-schlussfolgernden Denken“ schon erheblich schwieriger. Die eigene „mentale Norm“ ist in dem Fall völlig unzureichend.
Testnormen leisten hier Abhilfe und dienen dazu, die Testergebnisse einer Person in Relation zu einer relevanten Vergleichsgruppe zu stellen. Im Gegensatz zu Zentimetern, für die wir ein gewisses „Gefühl“ aufgebaut haben, sagt ein Testrohwert selten etwas über eine Person aus. Hat eine Person 7 von 15 Aufgaben eines Tests gelöst, könnte das je nach Schwierigkeit der Fragen ein gutes oder schlechtes Ergebnis sein. Der Rohwert in einem Test bekommt erst dann Sinn, wenn man weiß, wie andere Personen im Test abschneiden. Als Vergleichsgruppe dienen sogenannte Normstichproben, d.h. eine möglichst große Personengruppe, die repräsentativ für die Zielpopulation des Tests ist und mit dem Test getestet wurde. Auf Basis der Testdaten der Normstichprobe können dann Normwerte berechnet werden. Normwerte geben direkt Informationen darüber, welche Position die Person im Vergleich zur Normstichprobe in Bezug auf ein psychisches Merkmal einnimmt. So kann ein Ergebnis als über-, unter- oder durchschnittliche Testleistung bzw. als hohe, niedrige oder moderate Ausprägung von Persönlichkeitseigenschaften, Einstellungen oder Interessen interpretiert werden.
Welche Typen von Normstichproben gibt es?
Psychologische Tests können bei vielen unterschiedlichen Fragestellungen eingesetzt werden. Um für jede Fragestellung bzw. Person die passende Vergleichsgruppe bereitzustellen, bieten viele Tests mehrere Normstichproben an. Oft gibt es eine für die Allgemeinbevölkerung repräsentative Normstichprobe. Repräsentativ bedeutet in diesem Kontext, dass die Verteilung von relevanten Personeneigenschaften wie Alter, Geschlecht oder Bildungsgrad in der Stichprobe vergleichbar ist wie jene in der Allgemeinbevölkerung. Auf Basis dieser (großen) bevölkerungsrepräsentativen Normstichproben werden zumeist auch nach Alter, Geschlecht und/oder Bildungsgrad getrennte Subgruppennormen (z.B. Altersgruppe 50-59 Jahre) erstellt. Je nach Test und Fragestellung kann es auch hilfreich sein, andere gruppenspezifische Normen zu verwenden (z. B. getrennt nach Beruf, Schulart oder Erkrankung). Im Unterschied zu bevölkerungsrepräsentativen Normen, welche zumeist stratifizierte oder Quotenstichproben sind, handelt es sich bei diesen gruppenspezifischen Normen oft um sogenannte Anfallsstichproben. Je spezifischer und kleiner die Bevölkerungsgruppe (z. B. deutsche U19 Fußballer, 2. Liga), desto eher können derartige Anfallsstichproben auch repräsentativ für die Zielpopulation sein.
Welche Arten von Normwerten gibt es?
Hinsichtlich der Normwerte unterscheidet man im Wesentlichen zwei Gruppen:
Prozentränge (PR) lassen sich auf Basis der relativen Häufigkeit von bestimmten Testrohwerten in der Normstichprobe ableiten (mittels Flächentransformation). Ein Prozentrang gibt an, wie viel Prozent der Normstichprobe ein gleiches oder ein niedrigeres Testergebnis erreicht haben. Ein PR = 87 bedeutet z. B., dass 87 % der Normstichprobe dasselbe oder ein niedrigeres Testergebnis haben bzw. dass 13 % der Normstichprobe eines höheres erreicht haben.
Standardnormen zeigen hingegen, wie viele Standardabweichungen das Testergebnis vom Mittelwert der Normstichprobe entfernt liegt. Die Basis aller Standardnormen sind z-Werte mit einem Mittelwert (M) von 0 und einer Standardabweichung (SD) von 1. Ein z-Wert = -0,5 bedeutet demzufolge, dass das Testergebnis eine halbe Standardabweichung unter dem Mittelwert der Norm liegt. Da z-Werte aufgrund der Dezimalstellen und des wechselnden Vorzeichens wenig praktikabel sind, wurden andere Standardnormen entwickelt.
So wie die Umrechnung von Celsius in Fahrenheit ist auch die Umrechnung von z-Werten in andere Standardnormen lediglich eine lineare Transformation. Standardnormen können daher auch beliebig gewechselt werden. Häufig verwendete Standardnormen sind z. B. T-Werte (M=50, SD=10) oder IQ-Werte (M=100, SD=15). Sind die Testwerte annähernd normalverteilt, können diese Standardnormen auf Basis der Standardnormalverteilung ähnlich wie PR interpretiert werden. Ein IQ = 130 steht für ein Ergebnis, welches zwei Standardabweichungen (2 x 15) über dem Durchschnitt (IQ=100) liegt und würde bedeuten, dass nur ~2,5 % der Normstichprobe ein besseres Testergebnis haben.