4.2 Fiabilité et validité des mesures - Méthodes de recherche en psychologie

Objectifs d’apprentissage

Définir la fiabilité, y compris les différents types et comment ils sont évalués.
Définir la validité, y compris les différents types et comment ils sont évalués.
Décrire les types de preuves qui seraient pertinentes pour évaluer la fiabilité et la validité d’une mesure particulière.

Encore, la mesure implique l’attribution de scores aux individus afin qu’ils représentent une certaine caractéristique des individus. Mais comment les chercheurs savent-ils que les scores représentent réellement la caractéristique, surtout lorsqu’il s’agit d’un construit comme l’intelligence, l’estime de soi, la dépression ou la capacité de mémoire de travail ? La réponse est qu’ils mènent des recherches en utilisant la mesure pour confirmer que les scores ont un sens sur la base de leur compréhension de la construction mesurée. Il s’agit d’un point extrêmement important. Les psychologues ne partent pas simplement du principe que leurs mesures fonctionnent. Au contraire, ils collectent des données pour démontrer qu’elles fonctionnent. Si leurs recherches ne démontrent pas qu’une mesure fonctionne, ils cessent de l’utiliser.

A titre d’exemple informel, imaginez que vous suivez un régime pendant un mois. Vos vêtements semblent être plus amples, et plusieurs amis vous ont demandé si vous aviez perdu du poids. Si, à ce moment-là, le pèse-personne de votre salle de bain indiquait que vous avez perdu 5 kg, cela aurait du sens et vous continueriez à l’utiliser. Mais s’il indiquait que vous avez pris 5 kg, vous en concluriez à juste titre qu’il est cassé et vous le répareriez ou vous en débarrasseriez. Lorsqu’ils évaluent une méthode de mesure, les psychologues considèrent deux dimensions générales : la fiabilité et la validité.

Fiabilité

La fiabilité fait référence à la cohérence d’une mesure. Les psychologues considèrent trois types de cohérence : dans le temps (fiabilité test-retest), entre les items (cohérence interne) et entre différents chercheurs (fiabilité inter-juges).

Fiabilité test-retest

Lorsque les chercheurs mesurent un construit qu’ils supposent être cohérent dans le temps, alors les scores qu’ils obtiennent devraient également être cohérents dans le temps. La fiabilité test-retest est la mesure dans laquelle c’est effectivement le cas. Par exemple, on pense généralement que l’intelligence est constante dans le temps. Une personne très intelligente aujourd’hui le sera encore la semaine prochaine. Cela signifie que toute bonne mesure de l’intelligence devrait produire à peu près les mêmes scores pour cette personne la semaine prochaine qu’aujourd’hui. Il est clair qu’une mesure qui produit des scores très incohérents dans le temps ne peut pas être une très bonne mesure d’un construit qui est censé être cohérent.

Évaluer la fiabilité test-retest nécessite d’utiliser la mesure sur un groupe de personnes à un moment donné, de l’utiliser à nouveau sur le même groupe de personnes à un moment ultérieur, puis d’examiner la corrélation test-retest entre les deux ensembles de scores. Pour ce faire, on représente généralement les données par un graphique en nuage de points et on calcule le coefficient de corrélation. La figure 4.2 montre la corrélation entre deux séries de scores de plusieurs étudiants universitaires à l’échelle d’estime de soi de Rosenberg, administrés deux fois à une semaine d’intervalle. Le coefficient de corrélation pour ces données est de +.95. En général, une corrélation test-retest de +,80 ou plus est considérée comme indiquant une bonne fiabilité.

Figure 5.2 Corrélation test-retest entre deux ensembles de scores de plusieurs étudiants universitaires sur l'échelle d'estime de soi de Rosenberg, administrés à deux reprises, à une semaine d'intervalle

Figure 4.2 Corrélation test-retest entre deux ensembles de scores de plusieurs étudiants de collège sur l’échelle d’estime de soi de Rosenberg, donnés deux fois par semaine à part

Encore, les corrélations test-retest élevées ont un sens lorsque le construit mesuré est supposé être cohérent dans le temps, ce qui est le cas pour l’intelligence, l’estime de soi et les dimensions de la personnalité des Big Five. Mais d’autres constructions ne sont pas supposées être stables dans le temps. La nature même de l’humeur, par exemple, est qu’elle change. Ainsi, une mesure de l’humeur qui produirait une faible corrélation test-retest sur une période d’un mois ne serait pas une cause d’inquiétude.

Consistance interne

Un autre type de fiabilité est la consistance interne, qui est la cohérence des réponses des personnes à travers les items d’une mesure à items multiples. En général, tous les items de ces mesures sont censés refléter le même construit sous-jacent, donc les scores des personnes sur ces items devraient être corrélés entre eux. Dans l’échelle d’estime de soi de Rosenberg, les personnes qui s’accordent à dire qu’elles sont une personne de valeur devraient avoir tendance à reconnaître qu’elles ont un certain nombre de bonnes qualités. Si les réponses des personnes aux différents éléments ne sont pas corrélées entre elles, il ne serait plus logique de prétendre qu’elles mesurent toutes le même concept sous-jacent. Cela est vrai aussi bien pour les mesures comportementales et physiologiques que pour les mesures d’auto-évaluation. Par exemple, les gens peuvent faire une série de paris dans un jeu de roulette simulé pour mesurer leur niveau de recherche du risque. Cette mesure serait cohérente sur le plan interne dans la mesure où les paris des participants individuels étaient constamment élevés ou faibles d’un essai à l’autre.

Comme la fiabilité test-retest, la cohérence interne ne peut être évaluée qu’en collectant et en analysant les données. Une approche consiste à examiner une corrélation split-half. Cela implique de diviser les items en deux ensembles, tels que la première et la deuxième moitié des items ou les items de numéros pairs et impairs. Ensuite, un score est calculé pour chaque ensemble d’items, et la relation entre les deux ensembles de scores est examinée. Par exemple, la figure 4.3 montre la corrélation entre les scores de plusieurs étudiants universitaires aux items pairs et leurs scores aux items impairs de l’échelle d’estime de soi de Rosenberg. Le coefficient de corrélation pour ces données est de +.88. Une corrélation split-half de +,80 ou plus est généralement considérée comme une bonne cohérence interne.

Figure 5.3 Corrélation split-half entre les scores de plusieurs collégiens aux items pairs et leurs scores aux items impairs de l'échelle d'estime de soi de Rosenberg

Figure 4.3 Corrélation moitié-moitié entre les scores de plusieurs collégiens aux items pairs et leurs scores aux items impairs de l’échelle d’estime de soi de Rosenberg

Peut-être que la mesure de cohérence interne la plus courante utilisée par les chercheurs en psychologie est une statistique appelée α de Cronbach (la lettre grecque alpha). Conceptuellement, α est la moyenne de toutes les corrélations split-half possibles pour un ensemble d’items. Par exemple, il existe 252 façons de diviser un ensemble de 10 items en deux ensembles de cinq. Le α de Cronbach serait la moyenne des 252 corrélations entre les deux parties. Notez que ce n’est pas ainsi que le α est réellement calculé, mais c’est une façon correcte d’interpréter la signification de cette statistique. Encore une fois, une valeur de +,80 ou plus est généralement considérée comme indiquant une bonne cohérence interne.

Fiabilité inter-évaluateurs

De nombreuses mesures comportementales impliquent un jugement important de la part d’un observateur ou d’un évaluateur. La fiabilité inter-évaluateurs est la mesure dans laquelle différents observateurs sont cohérents dans leurs jugements. Par exemple, si vous souhaitez mesurer les aptitudes sociales d’étudiants universitaires, vous pourriez réaliser des enregistrements vidéo d’eux alors qu’ils interagissent avec un autre étudiant qu’ils rencontrent pour la première fois. Ensuite, vous pourriez demander à deux observateurs ou plus de regarder les vidéos et d’évaluer le niveau de compétences sociales de chaque étudiant. Dans la mesure où chaque participant possède effectivement un certain niveau d’aptitudes sociales qui peut être détecté par un observateur attentif, les évaluations des différents observateurs devraient être fortement corrélées entre elles. La fiabilité inter-juges aurait également été mesurée dans l’étude de Bandura sur la poupée Bobo. Dans ce cas, les évaluations des observateurs concernant le nombre d’actes d’agression commis par un enfant donné lorsqu’il jouait avec la poupée Bobo auraient dû être fortement corrélées positivement. La fiabilité inter-juges est souvent évaluée à l’aide du α de Cronbach lorsque les jugements sont quantitatifs ou d’une statistique analogue appelée κ de Cohen (la lettre grecque kappa) lorsqu’ils sont catégoriques.

Validité

La validité est la mesure dans laquelle les scores d’une mesure représentent la variable à laquelle ils sont destinés. Mais comment les chercheurs portent-ils ce jugement ? Nous avons déjà examiné un facteur qu’ils prennent en compte : la fiabilité. Lorsqu’une mesure présente une bonne fiabilité test-retest et une bonne cohérence interne, les chercheurs devraient être plus sûrs que les scores représentent ce qu’ils sont censés représenter. Mais il faut aller plus loin, car une mesure peut être extrêmement fiable sans avoir la moindre validité. À titre d’exemple absurde, imaginons quelqu’un qui croit que la longueur de l’index d’une personne reflète son estime de soi et qui tente donc de mesurer l’estime de soi en plaçant une règle devant l’index des gens. Bien que cette mesure ait une très bonne fiabilité test-retest, elle n’aurait absolument aucune validité. Le fait que l’index d’une personne soit plus long d’un centimètre que celui d’une autre n’indiquerait en rien laquelle a une plus grande estime de soi.

Les discussions sur la validité la divisent généralement en plusieurs « types » distincts. Mais une bonne façon d’interpréter ces types est qu’il s’agit d’autres types de preuves – en plus de la fiabilité – qui devraient être prises en compte pour juger de la validité d’une mesure. Nous considérons ici trois types de base : la validité apparente, la validité de contenu et la validité de critère.

Validité apparente

La validité apparente est la mesure dans laquelle une méthode de mesure semble » à première vue » mesurer le construit d’intérêt. La plupart des gens s’attendraient à ce qu’un questionnaire sur l’estime de soi comprenne des items indiquant s’ils se considèrent comme une personne de valeur et s’ils pensent avoir de bonnes qualités. Un questionnaire comprenant ce genre d’éléments aurait donc une bonne validité apparente. La méthode de mesure de l’estime de soi par la longueur des doigts, en revanche, semble n’avoir aucun rapport avec l’estime de soi et a donc une faible validité apparente. Bien que la validité apparente puisse être évaluée quantitativement – par exemple, en demandant à un grand échantillon de personnes de noter une mesure pour savoir si elle semble mesurer ce qu’elle est censée mesurer – elle est généralement évaluée de manière informelle.

La validité apparente est au mieux un type de preuve très faible qu’une méthode de mesure mesure ce qu’elle est censée mesurer. Une des raisons est qu’elle est basée sur les intuitions des gens sur le comportement humain, qui sont fréquemment fausses. Il est également vrai que de nombreuses mesures établies en psychologie fonctionnent très bien malgré leur manque de validité apparente. Le Minnesota Multiphasic Personality Inventory-2 (MMPI-2) mesure de nombreuses caractéristiques et troubles de la personnalité en demandant aux personnes de décider si chacune des 567 affirmations différentes s’applique à elles, alors que de nombreuses affirmations n’ont pas de relation évidente avec le concept qu’elles mesurent. Par exemple, les items « J’aime les histoires de détectives ou de mystères » et « La vue du sang ne m’effraie pas et ne me rend pas malade » mesurent tous deux la suppression de l’agressivité. Dans ce cas, ce ne sont pas les réponses littérales des participants à ces questions qui sont intéressantes, mais plutôt le fait de savoir si le schéma des réponses des participants à une série de questions correspond à celui des individus qui ont tendance à supprimer leur agressivité.

Validité de contenu

La validité de contenu est la mesure dans laquelle une mesure » couvre » le construit d’intérêt. Par exemple, si un chercheur définit conceptuellement l’anxiété de test comme impliquant à la fois l’activation du système nerveux sympathique (conduisant à des sentiments nerveux) et des pensées négatives, alors sa mesure de l’anxiété de test devrait inclure des items sur les sentiments nerveux et les pensées négatives. Ou encore, considérez que les attitudes sont généralement définies comme impliquant des pensées, des sentiments et des actions envers quelque chose. Selon cette définition conceptuelle, une personne a une attitude positive à l’égard de l’exercice dans la mesure où elle a des pensées positives à ce sujet, où elle se sent bien à l’idée de faire de l’exercice et où elle en fait. Ainsi, pour avoir une bonne validité de contenu, une mesure des attitudes des gens à l’égard de l’exercice devrait refléter ces trois aspects. Tout comme la validité apparente, la validité du contenu n’est généralement pas évaluée de manière quantitative. Au lieu de cela, elle est évaluée en vérifiant soigneusement la méthode de mesure par rapport à la définition conceptuelle du construit.

Validité de critère

La validité de critère est la mesure dans laquelle les scores des personnes sur une mesure sont corrélés avec d’autres variables (appelées critères) avec lesquelles on s’attendrait à ce qu’ils soient corrélés. Par exemple, les scores des personnes sur une nouvelle mesure de l’anxiété aux tests devraient être corrélés négativement avec leur performance à un examen scolaire important. S’il s’avérait que les scores des personnes étaient en fait négativement corrélés avec leurs résultats à l’examen, cela constituerait une preuve que ces scores représentent réellement l’anxiété liée aux tests des personnes. Mais s’il s’avérait que les gens obtenaient les mêmes résultats à l’examen indépendamment de leurs scores d’anxiété aux tests, alors cela mettrait en doute la validité de la mesure.

Un critère peut être n’importe quelle variable dont on a des raisons de penser qu’elle devrait être corrélée avec le construit mesuré, et il y en aura généralement beaucoup. Par exemple, on s’attendrait à ce que les scores d’anxiété aux tests soient corrélés négativement avec les performances aux examens et les notes de cours, et positivement avec l’anxiété générale et avec la pression sanguine pendant un examen. Ou imaginez qu’un chercheur mette au point une nouvelle mesure de la prise de risque physique. Les scores obtenus par les personnes sur cette mesure devraient être corrélés à leur participation à des activités « extrêmes » telles que le snowboard et l’escalade, au nombre de contraventions pour excès de vitesse qu’elles ont reçues, et même au nombre d’os cassés qu’elles ont eus au fil des ans. Lorsque le critère est mesuré en même temps que le construit, la validité du critère est appelée validité concurrente ; cependant, lorsque le critère est mesuré à un moment donné dans le futur (après que le construit ait été mesuré), on parle de validité prédictive (parce que les scores de la mesure ont » prédit » un résultat futur).

Les critères peuvent également inclure d’autres mesures du même construit. Par exemple, on s’attendrait à ce que les nouvelles mesures de l’anxiété aux tests ou de la prise de risque physique soient positivement corrélées avec les mesures établies existantes des mêmes construits. C’est ce qu’on appelle la validité convergente.

L’évaluation de la validité convergente nécessite la collecte de données utilisant la mesure. Les chercheurs John Cacioppo et Richard Petty l’ont fait lorsqu’ils ont créé leur échelle d’auto-évaluation Need for Cognition Scale pour mesurer à quel point les gens valorisent et s’engagent dans la réflexion (Cacioppo & Petty, 1982). Dans une série d’études, ils ont montré que les scores des personnes étaient positivement corrélés avec leurs scores à un test standardisé de réussite scolaire, et que leurs scores étaient négativement corrélés avec leurs scores à une mesure du dogmatisme (qui représente une tendance à l’obéissance). Au cours des années qui ont suivi sa création, l’échelle Need for Cognition Scale a été utilisée dans littéralement des centaines d’études et il a été démontré qu’elle était corrélée avec une grande variété d’autres variables, notamment l’efficacité d’une publicité, l’intérêt pour la politique et les décisions des jurés (Petty, Briñol, Loersch, & McCaslin, 2009).

Validité discriminante

La validité discriminante, quant à elle, est la mesure dans laquelle les scores d’une mesure ne sont pas corrélés avec les mesures de variables qui sont conceptuellement distinctes. Par exemple, l’estime de soi est une attitude générale envers le soi qui est assez stable dans le temps. Ce n’est pas la même chose que l’humeur, qui est la façon dont on se sent bien ou mal en ce moment. Ainsi, les scores obtenus par les personnes dans le cadre d’une nouvelle mesure de l’estime de soi ne devraient pas être très fortement corrélés à leur humeur. Si la nouvelle mesure de l’estime de soi était fortement corrélée à une mesure de l’humeur, on pourrait soutenir que la nouvelle mesure ne mesure pas vraiment l’estime de soi ; elle mesure plutôt l’humeur.

Lorsqu’ils ont créé l’échelle de besoin de cognition, Cacioppo et Petty ont également fourni des preuves de validité discriminante en montrant que les scores des personnes n’étaient pas corrélés à certaines autres variables. Par exemple, ils n’ont trouvé qu’une faible corrélation entre le besoin de cognition des personnes et une mesure de leur style cognitif, à savoir la mesure dans laquelle elles ont tendance à penser de manière analytique en décomposant les idées en petites parties ou de manière holistique en termes de « vue d’ensemble ». Ils n’ont également trouvé aucune corrélation entre le besoin de cognition des personnes et les mesures de leur anxiété face aux tests et de leur tendance à répondre de manière socialement désirable. Toutes ces faibles corrélations fournissent la preuve que la mesure reflète un construit conceptuellement distinct.

Key Takeaways

Les chercheurs en psychologie ne supposent pas simplement que leurs mesures fonctionnent. Au contraire, ils mènent des recherches pour montrer qu’elles fonctionnent. S’ils ne peuvent pas montrer qu’elles fonctionnent, ils cessent de les utiliser.
Il existe deux critères distincts selon lesquels les chercheurs évaluent leurs mesures : la fiabilité et la validité. La fiabilité est la cohérence dans le temps (fiabilité test-retest), entre les éléments (cohérence interne) et entre les chercheurs (fiabilité inter-juges). La validité est la mesure dans laquelle les scores représentent réellement la variable à laquelle ils sont destinés.
La validité est un jugement basé sur différents types de preuves. Les preuves pertinentes comprennent la fiabilité de la mesure, si elle couvre le construit d’intérêt, et si les scores qu’elle produit sont corrélés avec d’autres variables avec lesquelles ils sont censés être corrélés et non corrélés avec des variables qui sont conceptuellement distinctes.
La fiabilité et la validité d’une mesure ne sont pas établies par une seule étude mais par le schéma des résultats à travers plusieurs études. L’évaluation de la fiabilité et de la validité est un processus continu.

Exercices

Pratique : Demandez à plusieurs amis de remplir l’échelle d’estime de soi de Rosenberg. Évaluez ensuite sa cohérence interne en réalisant un nuage de points pour montrer la corrélation moitié-moitié (items pairs vs impairs). Calculez aussi le coefficient de corrélation si vous savez comment faire.
Discussion : Repensez au dernier examen universitaire que vous avez passé et pensez à l’examen comme une mesure psychologique. Quelle construction pensez-vous qu’il était destiné à mesurer ? Commentez sa validité apparente et sa validité de contenu. Quelles données pourriez-vous recueillir pour évaluer sa fiabilité et sa validité de critère ?

Cacioppo, J. T., & Petty, R. E. (1982). Le besoin de cognition. Journal of Personality and Social Psychology, 42, 116-131. ↵
Petty, R. E, Briñol, P., Loersch, C., & McCaslin, M. J. (2009). Le besoin de cognition. Dans M. R. Leary & R. H. Hoyle (Eds.), Handbook of individual differences in social behavior (pp. 318-329). New York, NY : Guilford Press. ↵

Méthodes de recherche en psychologie

Publié par admin le mars 11, 2021

Objectifs d’apprentissage

Fiabilité

Fiabilité test-retest

Consistance interne

Fiabilité inter-évaluateurs

Validité

Validité apparente

Validité de contenu

Validité de critère

Validité discriminante

Key Takeaways

Exercices

0 commentaire

Laisser un commentaire Annuler la réponse

Articles

Qu’est-ce que SAP S/4 HANA Cloud ? Un regard plus approfondi

Articles

241 Noms de chiens britanniques

Articles

Trouver des appartements pour les chasseurs d’appartements handicapés

Méthodes de recherche en psychologie

Publié par admin le mars 11, 2021

Objectifs d’apprentissage

Fiabilité

Fiabilité test-retest

Consistance interne

Fiabilité inter-évaluateurs

Validité

Validité apparente

Validité de contenu

Validité de critère

Validité discriminante

Key Takeaways

Exercices

0 commentaire

Laisser un commentaire Annuler la réponse

Articles similaires

Articles

Qu’est-ce que SAP S/4 HANA Cloud ? Un regard plus approfondi

Articles

241 Noms de chiens britanniques

Articles

Trouver des appartements pour les chasseurs d’appartements handicapés