Suis-je peut-être trop grand pour mon travail ?

En d'autres termes, peut-on comparer des pommes avec des poires ?
Dans cet article, nous souhaitons nous pencher sur l'utilité et la nécessité des normes de test, car ce n'est qu'en effectuant des comparaisons équitables que l'on obtient des évaluations pertinentes.

Question plutôt étrange n’est-ce pas ?  Vous vous demandez peut-être quel est le rapport avec les normes de test ? Dans de nombreux cas, vous auriez tout à fait raison d'être sceptique. Et si vous aviez l'intention de devenir pilote de course ? Une taille supérieure à 1,80 m serait alors un handicap. De par l'espace restreint dans le véhicule d’abord, mais probablement aussi en raison du poids plus élevé. On le voit, le contexte détermine la pertinence de la question (“suis-je trop grand pour mon travail ?”) comme celle de la comparaison concrète (par rapport à qui).

En règle générale, un adulte peut répondre facilement à la question de savoir s'il est plutôt grand ou petit. L'expérience quotidienne lui a permis d’établir une "norme mentale" subjective le situant par rapport aux autres. Mais si l'on veut répondre à cette question de manière plus précise, par - exemple dans le cadre d'examens médicaux - il faut alors 1) mesurer la taille puis 2) la comparer aux mesures d'un groupe approprié.

Ainsi, la réponse à cette question apparemment banale varie en fonction du critère utilisé et du groupe avec lequel la comparaison est effectuée (s’agit-il d’adultes, d’enfants, de pilotes automobiles ou de joueurs de basket-ball professionnels ?). Il en va de même pour les tests psychologiques.

Pourquoi des normes de test ?

Contrairement à la taille, il est difficile, voire impossible, d'observer directement ces caractéristiques. Si l'on peut encore relativement bien jauger la taille d’une personne, l'évaluation de caractéristiques psychologiques telles que la "conscience" ou la "pensée logique et déductive" est déjà beaucoup plus difficile. Dans de tels cas, la "norme mentale" subjective est insuffisante. C’est donc à l’aide de tests psychologiques que l’on mesure les caractéristiques humaines.

Pour être plus précis, au sein de ces tests, ce sont les normes qui permettent l’évaluation par la mise en relation des résultats d'une personne avec ceux d'un groupe de comparaison pertinent. En effet, la valeur brute du résultat d’un test ne dit que rarement quelque chose sur une personne. Par exemple, si une personne réussie 7 des 15 épreuves d'un test, cela peut être un bon comme un mauvais résultat selon la difficulté des questions du test. Ainsi, la valeur brute des résultats d’un test n'a de sens que si l'on sait comment d'autres personnes du même groupe ont réussi le test – c'est le groupe de comparaison. Le groupe de comparaison ou “l’échantillon standard” est un groupe de personnes - aussi large que possible - représentatif de la population cible et qui a été évaluée avec le test.

La norme s’établit donc sur la base des résultats de test de l'échantillon standard. Ces données permettent de déterminer (calculer) les valeurs standard de cette norme et donc de savoir, pour reprendre notre exemple précédent, si le 7 sur 15 est une bonne, mauvaise ou moyenne performance. Autrement dit dans le cas d’un test psychologique, les valeurs standards fournissent directement des informations sur la position de la personne par rapport à l'échantillon en ce qui concerne une caractéristique psychique. Ainsi, un résultat peut être interprété comme une performance supérieure, inférieure ou moyenne ou comme une expression élevée, faible ou modérée de traits de personnalité, d'attitudes ou d'intérêts.

Quels sont les types d'échantillons standard ?

Les tests psychologiques peuvent être utilisés pour diverses mesures. Afin de fournir le groupe de comparaison adéquat pour chaque type de problématique ou population spécifique, ces tests proposent souvent plusieurs échantillons standards. Il existe souvent un échantillon standard représentatif de la population générale. Dans ce contexte, ‘représentatif’ signifie que la répartition des caractéristiques personnelles pertinentes telles que l'âge, le sexe ou le niveau d'éducation dans l'échantillon est comparable à celle de la population générale. Sur la base de ces (larges) échantillons normatifs représentatifs de la population, des normes de sous-groupes (p. ex. groupe d'âge 50-59 ans) sont établies en fonction de l'âge, du sexe et/ou du niveau de formation. Selon le test et la mesure effectuée, il peut également être opportun d'ajouter d'autres normes spécifiques au groupe ciblé (en séparant par profession, type d'école ou pathologie par exemple). Contrairement aux normes représentatives de la population, qui sont le plus souvent des échantillons stratifiés ou par quotas, ces normes spécifiques aux groupes sont souvent des échantillons de commodité (aussi dits accidentels ou à l’aveuglette). Plus le groupe de population est spécifique et restreint (p. ex. les footballeurs Français de moins de 19 ans, en deuxième division), plus il est probable que de tels échantillons fondés sur des individus du groupe sélectionnés à l’aveuglette soient également représentatifs de la population cible.

Quels sont les types de valeurs normales ?

Les normes peuvent être exprimées de deux manières :

Les rangs percentiles (RP) peuvent être déduits sur la base de la fréquence relative de certaines valeurs brutes de test dans l'échantillon standard (au moyen d'une transformation de surface). Un rang percentile indique le pourcentage de l'échantillon standard qui a obtenu un résultat de test identique ou inférieur. Un RP = 87 signifie par exemple que 87% de l'échantillon standard ont obtenu un résultat de test identique ou inférieur ou que 13% de l'échantillon standard ont obtenu un résultat supérieur.

Les scores standard, quant à elles, indiquent le nombre d'écarts-types qui séparent le résultat du test de la moyenne de l'échantillon standard. La base de tous les scores standard sont des valeurs z avec une moyenne (M) de 0 et un écart-type (SD) de 1. Par conséquent, une valeur z = -0,5 signifie que le résultat du test est inférieur d'un demi-écart-type à la moyenne de la norme. Les valeurs z étant peu pratiques en raison des décimales et du changement de signe, d'autres scores standard ont été développées.

Tout comme la conversion de Celsius en Fahrenheit, la conversion de valeurs z en d'autres scores standard n'est qu'une transformation linéaire. Ils peuvent donc être changées à volonté. Les scores standard les plus fréquemment utilisées sont par exemple les valeurs T (M=50, SD=10) ou les valeurs QI (M=100, SD=15). Si les valeurs du test suivent une distribution à peu près normale, ces normes standard peuvent être interprétées de manière similaire aux RP sur la base de la distribution normale standard. Un QI = 130 représente un résultat supérieur de deux écarts-types (2 x 15) à la moyenne (QI=100) et signifierait que seuls ~2,5 % de l'échantillon standard ont un meilleur résultat au test.

Bon à savoir : Contrairement aux rangs percentiles (niveau de l'échelle des rangs), les scores standard (niveau de l'échelle des intervalles) permettent également d'interpréter les différences entre les valeurs de test. Par exemple, la diminution de la performance de 20 valeurs T est deux fois plus importante que celle de 10 valeurs T. Pour les pourcentages, ce type d'interprétation n'est pas autorisé, car il permet uniquement d'évaluer si les valeurs de test sont plus grandes, plus petites ou identiques et non pas de combien elles sont plus grandes ou plus petites.

 

Comment décider de la norme à utiliser ?

Le choix correct de l'échantillon normatif est d'une importance capitale pour l'interprétation des résultats des tests. Selon la norme utilisée, le contexte dans lequel les résultats peuvent être interprétés change également. Avec une taille de 177 cm, on fait clairement partie des personnes plus grandes que la moyenne au Japon, alors qu'aux Pays-Bas, on se situe "seulement" dans la moyenne. Si l'on souhaite en revanche établir une comparaison spécifique au sexe, cette taille serait supérieure à la moyenne pour une femme dans les deux pays. Il convient donc d'être prudent lors de l'interprétation d'une valeur normative. D'une part, la valeur change en fonction de l'échantillon normatif, d'autre part, une même valeur normative peut signifier autre chose en fonction du choix de l'échantillon. La valeur normative de QI = 130, déjà mentionnée plus haut, pourrait être un indice de haut potentiel intellectuel dans un test d'intelligence. Ce n'est toutefois pas le cas si l'échantillon standard est composé exclusivement de personnes diagnostiquées comme ayant des troubles intellectuels.

En principe, il convient de choisir la norme la plus appropriée pour répondre à une question diagnostique concrète pour une personne donnée. Cela semble très simple, mais ce n'est souvent pas le cas. Cela peut avoir pour conséquence que l'on utilise des normes différentes pour une même personne en fonction de la question posée ou que l'on utilise des normes différentes en fonction de la personne malgré une question identique.


Exemple 1

Un homme de 84 ans a été victime d'une attaque cérébrale. Dans le cadre de son séjour de réadaptation, il convient de déterminer s'il existe des indices de troubles cognitifs. Les performances dans de nombreux domaines fonctionnels cognitifs diminuent avec l'âge. Si l'on veut donc savoir si une performance cognitive est adaptée à l'âge ou non, il faut si possible utiliser des normes spécifiques à l'âge de personnes en bonne santé. On peut ainsi déterminer si l'homme est handicapé cognitivement par rapport à d'autres personnes en bonne santé du même âge. Si l'on souhaite en outre évaluer la gravité de l'atteinte, on peut en principe également utiliser la norme spécifique à l'âge pour déterminer dans quelle mesure le sujet se situe en dessous de la moyenne. Cependant, il arrive souvent que les normes basées sur la population générale différencient moins bien dans les domaines extrêmes de l'éventail des caractéristiques et que, selon l'objectif du test, il peut y avoir des effets de plancher ou de plafond. C'est pourquoi la comparaison avec un échantillon de normes cliniques peut être utile pour évaluer le degré de gravité. Si l'on dispose par exemple pour le test d'un échantillon standard de personnes ayant subi un AVC léger à grave, on peut ainsi évaluer plus précisément la gravité concrète des troubles cognitifs.


Exemple 2

Après qu'une femme de 67 ans a conduit sa voiture en étant fortement alcoolisée, les autorités ordonnent une formation complémentaire ainsi qu'un examen psychologique, au cours duquel les capacités psychiques spécifiques à la conduite automobile doivent être examinées. L'utilisation d'une norme spécifique à l'âge serait insuffisante, car dans ce cas, il ne s'agit pas de comparer avec d'autres personnes du même âge ou souffrant de la même maladie, mais avec l'ensemble des conducteurs. Tout comme les limitations de vitesse, ces exigences cognitives minimales s'appliquent de la même manière à tous, indépendamment de l'âge ou de l'état de santé. Par conséquent, pour répondre à la question, il convient d'utiliser une norme globale non spécifique à l'âge de la population générale adulte. La femme est donc comparée non seulement aux personnes de son âge, mais aussi, de manière générale, à toutes les personnes adultes en bonne santé. Dans ce cas, la norme globale non spécifique à l'âge est probablement plus "stricte" que si l'on utilisait une norme de sous-groupe spécifique à l'âge. On peut en effet supposer que le niveau moyen de performance cognitive est plus élevé en raison de la proportion plus importante de personnes plus jeunes dans la norme globale, ce qui augmente le niveau minimal requis pour l'aptitude à la conduite.


Exemple 3

Dans le cadre d'une procédure de sélection en plusieurs étapes, une compagnie aérienne souhaite notamment déterminer quels candidats présentent les meilleures capacités cognitives. Pour que l'évaluation soit équitable, il est important d'utiliser le même critère de comparaison, c'est-à-dire la même norme (de sous-groupe) pour toutes les personnes. Pour ce faire, on utilise généralement la norme globale de la population générale adulte. Comme on peut supposer que les pilotes ont un niveau de performance élevé et que, par conséquent, une bonne différenciation dans ce domaine est souhaitable (= effet plafond), il serait encore mieux d'utiliser un échantillon de normes spécifiques comprenant des pilotes.

_

 

Comme le montrent ces trois exemples, les normes sont essentielles à l'interprétation des tests psychologiques. Leur utilisation et leur interprétation correcte ne sont toutefois pas aussi triviales qu'il n'y paraît à première vue. Si l'on en est conscient, si l'on connaît les différences entre les types de normes et si l'on choisit soigneusement la norme appropriée en fonction de la problématique, une large part de la démarche est déjà correcte.

 


Glossaire :

Echantillons aléatoires, quotas et stratifiés = différentes manières de prélever un échantillon standard. Dans ce cas, la population est divisée en sous-groupes et les personnes sont recrutées de manière aléatoire (échantillonnage stratifié) ou non aléatoire (échantillonnage par quotas). En revanche, les échantillons aléatoires n'utilisent pas de stratification ou de plan de quotas et les personnes sont recrutées simplement en fonction de leur disponibilité.

Écarts-type = indicateur statistique de l'ampleur de la dispersion des valeurs brutes de test autour de la moyenne au sein d'un échantillon.

Distribution normale standard = une distribution théorique de valeurs dans laquelle les valeurs s'accumulent au centre et diminuent symétriquement des deux côtés.

Effet plancher/ plafond = Les effets de plancher se produisent lorsqu'un test est si difficile que la plupart des personnes obtiennent des scores très faibles au test. Inversement, on parle d'effets de plafond lorsqu'un test est si facile que la plupart des personnes obtiennent des scores très élevés. Dans les deux cas, la variance des valeurs de test au sein de l'échantillon standard est limitée et conduit à une mauvaise différenciation dans la plage de caractéristiques inférieure (effet de sol) ou supérieure (effet de plafond).