Werden wir immer schlauer?

General

Haben Sie schon mal vom Flynn-Effekt gehört? Wir haben bei den Experten Jakob Pietschnig und Marco Vetter nachgefragt, was es damit auf sich hat und warum er auch für die psychologisch-diagnostische Praxis relevant ist.

 

Haben Sie schon mal vom Flynn-Effekt gehört? Vielleicht im Psychologiestudium oder aus Artikeln und Büchern zum Thema Intelligenz? Wir haben bei den Experten Jakob Pietschnig (Professor und Leiter des Arbeitsbereiches Differentielle Psychologie und Psychologische Diagnostik, Universität Wien) und Marco Vetter (Chief Psychology Officer, SCHUHFRIED) nachgefragt, was es mit dem Flynn-Effekt auf sich hat und warum er auch für die psychologisch-diagnostische Praxis relevant ist.


SCHUHFRIED (SF): Wie würden Sie einem Laien den Flynn-Effekt erklären?

Jakob Pietschnig (JP): Das sind positive Veränderungen der Testresultate in Intelligenztests in der Bevölkerung über die Zeit. Ob das jetzt notwendigerweise eine Änderung der Populationsintelligenz an sich ist, nämlich die Änderung von allen kognitiven Fähigkeiten gleichermaßen, die unsere Intelligenz ausmachen, das würde ich da noch unbeantwortet lassen.

SF: Über welchen Zeitraum und in welchem Ausmaß war dieser Anstieg?

JP: Eigentlich sehen wir diese Änderungen in der Fähigkeit, seitdem es formale Fähigkeitstests gibt, d. h. seit Anfang des 20. Jahrhunderts. Diese Veränderung war mindestens bis in die 80er Jahre in die positive Richtung. Sie hat fluide Intelligenz [siehe Glossar am Ende des Textes] stärker betroffen als kristalline Intelligenz. Beim sogenannten Full-scale IQ könnte man von einem Anstieg von 3 IQ Punkten pro Dekade sprechen. Bei fluider I. war es mit 4 IQ Punkten etwas mehr und bei kristalliner I. war es mit 2 IQ Punkten etwas weniger. Dieser Anstieg ist aber nie linear gewesen. Es gab immer Phasen mit stärkeren und schwächeren Zunahmen. In den 80er Jahren sind diese Zunahmen global zurückgegangen und in manchen Ländern gab es sogar eine Stagnation oder Umkehr. Diese negative Veränderung wäre dann der Anti-Flynn Effekt. Ich würde diesen aber noch nicht als gesichert betrachten.

Marco Vetter (MV): Der unterschiedliche Anstieg zwischen fluider und kristalliner Intelligenz ist interessant, weil er eigentlich kontraintuitiv ist, oder?

JP: Genau. Man würde vermuten, dass dieser Anstieg auf irgendwelche Änderungen in der Bildung zurückzuführen ist, weil man damit relativ schnell etwas verbessern kann. Dies würde aber eher zu einer Zunahme der kristallinen I. führen. Tatsächlich sehen wir aber, dass die fluide I. stärker angestiegen ist.

MV: Aus der Perspektive der Testentwicklung betrachtet, ist das klassische Testmaterial zur Messung der fluiden I. Matrizen, welche über die Zeit konstant geblieben sind und nach wie vor häufig verwendet werden. Bei der kristallinen I. hingegen ist es relativ schwierig, das Testmaterial über Jahre konstant zu halten, da sich Wortschatz, Allgemeinwissen und dergleichen über die Zeit stärker ändern. Könnte dieses Methodenartefakt ein Grund sein, warum der Flynn-Effekt weniger stark bei der kristallinen I. beobachtbar ist?

JP: Auch ich vermute, dass es bei der kristallinen I. zu einer Maskierung der Flynn Effekte kommt, weil diese Testaufgaben mit der Zeit schwieriger oder sogar falsch werden. Dadurch könnte sich der Flynn Effekt weniger oder sogar überhaupt nicht zeigen. Im Intelligenz-Struktur-Test aus den 70er Jahren gibt es beispielsweise im Subtest „Satzergänzung“ die Testaufgabe „Was ist die wichtigste Komponente eines Fernsehers?“ und die richtige Antwort wäre „Bildröhre“. Das kann eine Person, die nach den 2000er geboren ist, gar nicht mehr richtig beantworten, weil es die Bildröhre einfach nicht mehr gibt. Dadurch kommt es zu dieser Maskierung.

SF: Abgesehen von den Unterschieden im Flynn-Effekt zwischen den verschiedenen Intelligenzdomänen, gibt es auch Unterschiede zwischen Ländern? Und von welchen Ländern sprechen wir da eigentlich?

JP: Es gibt Daten von allen Kontinenten, außer der Antarktis. Im Vergleich zu vielen anderen Forschungsgebieten haben wir auch nicht nur Daten aus WEIRD Ländern (Western, Educated, Industrialized, Rich, Democratic), sondern beispielsweise auch aus dem Sudan, Kenia oder Ozeanien. Das zeigt uns, dass es auch Unterschiede zwischen Ländern gibt, allerdings stellt sich hier die Frage, wie man diese interpretieren soll. Wenn man sich die Daten zum Beispiel auf Ebene der Kontinente ansieht, gibt es die stärksten Zunahmen in Asien. Es gibt jedoch keine handfeste Grundlage dafür, warum eine Zusammenfassung je Kontinent eine sinnvolle Betrachtungseinheit darstellen sollte; im Sinne des Flynn Effekts wäre so eine Zuordnung willkürlich. Daher würde ich das eher vorsichtig und differenziert betrachten.

SF: Viele Tests im Wiener Testsystem sind von SCHUHFRIED selbst entwickelt und normiert. Sehen wir den Flynn-Effekt auch in unseren Normierungsdaten?

MV: Unsere systematisch erhobenen Normierungsdaten gehen zurück bis in die 90er Jahre. In einem gemeinsamen Forschungsprojekt mit Jakob Pietschnig untersuchen wir diese gerade hinsichtlich des Flynn-Effekts. Wenn man bei verschiedenen Matrizentests die Daten der Paper-Pencil-Version aus den 60er und 70er Jahren mit unseren aktuellen repräsentativen Stichproben vergleicht, sieht man tatsächlich enorme Steigerungen der Testresultate. Ab den 90er Jahren wird es differenzierter. Hier sehen wir, dass es eher in der kristallinen I. zu Verbesserungen kommt, die teilweise ganz logisch erklärbar sind. Zum Beispiel sind im English Language Skills Test (ELST) die Leute wahrscheinlich deshalb besser geworden, weil Englisch sehr stark in unser Bildungssystem eingeflossen ist. Zusammenfassend kann man also sagen: Je stärker man zeitlich zurück geht, desto stärker sieht man den Flynn-Effekt. Bei manchen Dimensionen sieht man ihn auch heute noch, jedoch wird das Bild unschärfer.

SF: Die Frage ist nun: Woher kommt das? Was sind mögliche Erklärungen für den Flynn-Effekt?

JP: Es gibt über ein Dutzend Hypothesen, die als Erklärungsmuster für den Flynn-Effekt herangezogen werden. Diese lassen sich grob in biologische, umweltbedingte und hybride Ursachen einteilen. Die wahrscheinlichsten Hypothesen haben mit hybriden Faktoren zu tun, wie perinatale Ernährung oder Hygiene. Diese sind über die Zeit besser geworden. Außerdem passt die Beinahe-Stagnation des Flynn-Effekts zur Zeit des zweiten Weltkrieges gut dazu. Es spielt aber auch sicher die Beschulung eine Rolle. Außerdem hat sich das Testrateverhalten verändert. Wir sind einfach testschlauer geworden und wissen besser, wie wir Tests bearbeiten sollen.

SF: Gibt es auch schon Erklärung für den Anti-Flynn Effekt?

JP: Genauso wie das Rateverhalten, haben auch die Effekte von Beschulung, Hygiene und Medizin ein natürliches Ende. Wenn ich ein optimal ernährtes Kind noch mehr ernähre, bekomme ich kein gescheiteres Kind, sondern ein dickeres Kind. Es gibt also Sättigungseffekte. Zudem gibt es sogenannte diminishing returns: Im Bildungsbereich macht es zwar einen Unterschied, ob ich ein Kind ein oder zwei Jahre lang beschule. Ob ich es 13 oder 14 Jahre lang beschule, macht allerdings keinen großen Unterschied mehr.

Als die ersten Studien zur Umkehr des Flynn-Effektes publiziert wurden, kamen reflexhaft auch Erklärungen im Zusammenhang mit Migrationsbewegungen auf (Migrationshypothese), sowie der Annahme, dass sich Personen am unteren Ende der Fähigkeitsverteilung schneller und früher fortpflanzen (Fertilitätshypothese), oder dahingehend, dass durch medizinische Apparaturen heutzutage auch Personen das fortpflanzungsfähige Alter erreichen, die es früher nicht erreicht hätten (Mortalitätshypothese). Dies waren aber alles nur konzeptuelle Ideen. Wir haben diese Hypothesen auch empirisch anhand von zwei verschiedenen Datensätzen im Detail untersucht und es hat sich nichts Konsistentes in diese Richtung gezeigt.

SF: Wir haben nun über umweltbedingte Ursachen für den (Anti-)Flynn-Effekt gesprochen. Was ist Ihre Spekulation über den Einfluss der Corona Pandemie auf diese Entwicklung?

JP: Grundsätzlich ist die Frage, wie lange das Ganze noch dauert. Ob die zwei Jahre große Auswirkungen haben, weiß ich nicht. Wir haben zwar ein gutes Gesundheitssystem in Österreich, trotzdem sind gewisse Eingriffe schwieriger durchzuführen und weniger zugänglich; das hat negative Effekte auf die physische, aber auch psychische Gesundheit. Auch die Bildungssysteme profitieren nicht von notwendigen pandemiebedingten Maßnahmen wie z.B. Home-Schooling. Die Maskenpflicht in den Schulen ist sicher von einem medizinischen Standpunkt sehr gut, fördert aber nicht unbedingt die Aufmerksamkeit, die Lernumgebung und dergleichen. Also wenn die Pandemie einen Effekt hat, dann sicher einen negativen.

SF: An welchen Stellen sehen sie die Relevanz des Flynn-Effekts im Alltag von Menschen?

JP: Veraltete Testnormen haben grundsätzlich Auswirkungen auf jedes Gutachten. Ein besonders drastisches Beispiel wäre die Todesstrafe in den USA. Dort gibt es eine Klausel, dass Personen, die einen IQ kleiner 70 haben, nicht exekutiert werden dürfen. Nun kommt es darauf an, ob dafür in Frage kommende Personen früher einmal einen Test bekommen haben, der aktuell normiert oder veraltet war. Wenn er veraltet war, heißt das bei einem positiven Flynn-Effekt, dass sie größere „Chancen“ haben, für die Todesstrafe in Betracht zu kommen. Ein anderes Beispiel sind gewisse Förderentscheidungen, die auf Testresultaten basieren. In Deutschland gibt es für Lese- und Rechtschreibförderung finanzielle Unterstützung vom Staat. Auch hier will man Testresultate sehen, bevor entschieden wird, ob ein Kind eine Förderung bekommt oder nicht. Hier tritt dasselbe Problem auf: Alte Normen und positiver Flynn-Effekt heißt keine Förderung, obwohl das Kind vielleicht eine bräuchte.

SF: Welche Relevanz hat der Flynn-Effekt für die testdiagnostische Arbeit von Psychologinnen und Psychologen?

MV: Aus meiner Sicht ist der Flynn-Effekt ein wichtiger Grund immer aktuelle Normen zu verwenden. Das berücksichtigen wir auch bei unseren Tests. Wir halten uns an Standards wie die DIN 33430 und prüfen bei unseren Verfahren mindestens alle 8 Jahre, ob die Normen noch aktuell sind. Stellen wir relevante Veränderungen fest, normieren wir die Tests neu. In der Praxis wird sehr oft auf die Größe der Norm geachtet. Doch auch sehr große Normstichproben sind für eine verantwortungsvolle psychologische Diagnostik wenig geeignet, wenn diese veraltet und/oder für meine Testpersonen nicht repräsentativ sind.

Die Grundlagenforschung von Jakob Pietschnig ist dahingehend sehr wichtig für uns. Wir können besser einschätzen, welche Dimensionen besonders von Veränderungen betroffen sein werden und in welche Richtung wir diese in der Norm erwarten können. Somit können wir frühzeitig darauf reagieren, die Effekte in unseren Normen evaluieren und ggf. zeitnah neu normieren.

 

Mehr Informationen zum Thema Intelligenz und den (Anti-)Flynn Effekt finden Sie im erst kürzlich erschienen Buch von Jakob Pietschnig „Intelligenz. Wie klug sind wir wirklich?“.

 

Weitere Literatur:

Pietschnig, J., & Voracek, M. (2015). One century of global IQ gains: A formal meta-analysis of the Flynn effect (1909–2013). Perspectives on Psychological Science10(3), 282-306. https://doi.org/10.1177%2F1745691615577701

Pietschnig, J., Deimann, P., Hirschmann, N., & Kastner-Koller, U. (2021). The Flynn effect in Germanophone preschoolers (1996–2018): Small effects, erratic directions, and questionable interpretations. Intelligence, 86, 101544. https://doi.org/10.1016/j.intell.2021.101544

Pietschnig, J., Voracek, M., & Gittler, G. (2018). Is the Flynn effect related to migration? Meta-analytic evidence for correlates of stagnation and reversal of generational IQ test score changes. Politische Psychologie, 2, 267–283.


Glossar:

Fluide Intelligenz: umfasst grundlegende Prozesse des Denkens und ist weitgehend unabhängig von Erfahrung.

Kristalline Intelligenz: umfasst die Fähigkeit, erworbenes Wissen anzuwenden; sie gilt als überwiegend kulturabhängig.

Full-Scale IQ: Ergebnisse aus Intelligenztestbatterien, die aus mehreren Untertests bestehen und sowohl kristalline als auch fluide Fähigkeiten messen.

Matrizen: Testparadigma zur Messung des logischen Schlussfolgerns. Abstrakte Formen werden in einem Raster (Matrize) aus Zeilen und Spalten dargeboten, welche nach bestimmten Regeln angeordnet sind. Testpersonen müssen diese Regeln erkennen und anwenden, in dem sie eine fehlende Form ergänzen bzw. falsche Formen markieren.

DIN33430: eine DIN-Norm (DIN=Deutsches Institut für Normung), welche Qualitätskriterien und -standards für berufsbezogene Eignungsdiagnostik enthält.