Obiettivi di apprendimento
- Definire l’affidabilità, compresi i diversi tipi e come vengono valutati.
- Definire la validità, compresi i diversi tipi e come vengono valutati.
- Descrivere i tipi di prove che sarebbero rilevanti per valutare l’affidabilità e la validità di una particolare misura.
Ancora una volta, la misurazione comporta l’assegnazione di punteggi agli individui in modo che essi rappresentino alcune caratteristiche degli individui. Ma come fanno i ricercatori a sapere che i punteggi rappresentano effettivamente la caratteristica, specialmente quando si tratta di un costrutto come l’intelligenza, l’autostima, la depressione o la capacità di memoria di lavoro? La risposta è che conducono ricerche utilizzando la misura per confermare che i punteggi hanno senso in base alla loro comprensione del costrutto misurato. Questo è un punto estremamente importante. Gli psicologi non presumono semplicemente che le loro misure funzionino. Invece, raccolgono dati per dimostrare che funzionano. Se la loro ricerca non dimostra che una misura funziona, smettono di usarla.
Come esempio informale, immaginate di essere a dieta da un mese. I vostri vestiti sembrano calzare meglio, e diversi amici vi hanno chiesto se avete perso peso. Se a questo punto la vostra bilancia da bagno indicasse che avete perso 10 libbre, questo avrebbe senso e continuereste a usare la bilancia. Ma se indicasse che avete guadagnato 5 chili, concludereste giustamente che è rotta e la riparereste o ve ne sbarazzereste. Nel valutare un metodo di misurazione, gli psicologi considerano due dimensioni generali: affidabilità e validità.
Affidabilità
L’affidabilità si riferisce alla coerenza di una misura. Gli psicologi considerano tre tipi di coerenza: nel tempo (affidabilità test-retest), tra gli item (coerenza interna), e tra diversi ricercatori (affidabilità inter-rater).
Affidabilità test-retest
Quando i ricercatori misurano un costrutto che presumono essere coerente nel tempo, allora i punteggi che ottengono dovrebbero essere anche coerenti nel tempo. L’affidabilità del test-retest è la misura in cui questo è effettivamente il caso. Per esempio, si pensa generalmente che l’intelligenza sia coerente nel tempo. Una persona che è molto intelligente oggi lo sarà anche la prossima settimana. Questo significa che qualsiasi buona misura dell’intelligenza dovrebbe produrre più o meno gli stessi punteggi per questo individuo la prossima settimana come oggi. Chiaramente, una misura che produce punteggi altamente incoerenti nel tempo non può essere una misura molto buona di un costrutto che si suppone sia coerente.
Valutare l’affidabilità del test-retest richiede di usare la misura su un gruppo di persone in un dato momento, usarla di nuovo sullo stesso gruppo di persone in un momento successivo, e poi guardare la correlazione test-retest tra le due serie di punteggi. Questo è tipicamente fatto graficando i dati in un grafico a dispersione e calcolando il coefficiente di correlazione. La figura 4.2 mostra la correlazione tra due serie di punteggi di diversi studenti universitari sulla Rosenberg Self-Esteem Scale, somministrata due volte, a distanza di una settimana. Il coefficiente di correlazione per questi dati è +.95. In generale, una correlazione test-retest di +.80 o superiore è considerata indice di buona affidabilità.
Figura 4.2 Correlazione test-retest tra due serie di punteggi di diversi studenti universitari sulla Rosenberg Self-Esteem Scale, dati due volte a settimana l’uno dall’altro
Ancora una volta, alte correlazioni test-retest hanno senso quando si presume che il costrutto misurato sia coerente nel tempo, come nel caso dell’intelligenza, dell’autostima e delle cinque grandi dimensioni della personalità. Ma altri costrutti non si presume siano stabili nel tempo. La natura stessa dell’umore, per esempio, è che cambia. Quindi una misura dell’umore che produce una bassa correlazione test-retest su un periodo di un mese non sarebbe motivo di preoccupazione.
Coerenza interna
Un altro tipo di affidabilità è la coerenza interna, che è la coerenza delle risposte delle persone tra gli item di una misura a più voci. In generale, si suppone che tutti gli item di tali misure riflettano lo stesso costrutto sottostante, quindi i punteggi delle persone su quegli item dovrebbero essere correlati tra loro. Nella scala di autostima di Rosenberg, le persone che concordano sul fatto di essere una persona di valore dovrebbero tendere a concordare sul fatto di avere una serie di buone qualità. Se le risposte delle persone ai diversi item non sono correlate tra loro, allora non avrebbe più senso sostenere che tutti misurano lo stesso costrutto sottostante. Questo è vero sia per le misure comportamentali e fisiologiche che per le misure self-report. Per esempio, le persone potrebbero fare una serie di scommesse in un gioco simulato di roulette come misura del loro livello di ricerca del rischio. Questa misura sarebbe internamente coerente nella misura in cui le puntate dei singoli partecipanti fossero costantemente alte o basse nel corso delle prove.
Come l’affidabilità test-retest, la coerenza interna può essere valutata solo raccogliendo e analizzando i dati. Un approccio è quello di guardare la correlazione split-half. Questo implica dividere gli item in due gruppi, come la prima e la seconda metà degli item o gli item pari e dispari. Poi si calcola un punteggio per ogni serie di item e si esamina la relazione tra le due serie di punteggi. Per esempio, la Figura 4.3 mostra la correlazione a metà tra i punteggi di diversi studenti universitari sugli item pari e i loro punteggi sugli item dispari della Rosenberg Self-Esteem Scale. Il coefficiente di correlazione per questi dati è +.88. Una correlazione split-half di +.80 o superiore è generalmente considerata una buona coerenza interna.
Figura 4. Correlazione split-half tra diversi punteggi di studenti universitari sugli item pari e i loro punteggi sugli item dispari della scala di autostima.3 Correlazione a metà tra i punteggi di diversi studenti del college sugli item pari e i loro punteggi sugli item dispari della scala di autostima di Rosenberg
La misura forse più comune di coerenza interna usata dai ricercatori in psicologia è una statistica chiamata α di Cronbach (la lettera greca alpha). Concettualmente, α è la media di tutte le possibili correlazioni divise a metà per un insieme di elementi. Per esempio, ci sono 252 modi per dividere un set di 10 item in due set di cinque. L’α di Cronbach sarebbe la media delle 252 correlazioni frazionate a metà. Si noti che questo non è il modo in cui α viene effettivamente calcolato, ma è un modo corretto di interpretare il significato di questa statistica. Ancora una volta, un valore di +.80 o maggiore è generalmente preso per indicare una buona coerenza interna.
Affidabilità dell’Interrater
Molte misure comportamentali coinvolgono un giudizio significativo da parte di un osservatore o di un rater. L’affidabilità inter-rater è la misura in cui diversi osservatori sono coerenti nei loro giudizi. Per esempio, se foste interessati a misurare le abilità sociali degli studenti universitari, potreste fare delle registrazioni video di loro mentre interagiscono con un altro studente che incontrano per la prima volta. Poi si potrebbero avere due o più osservatori che guardano i video e valutano il livello di abilità sociali di ogni studente. Nella misura in cui ogni partecipante ha, in effetti, un certo livello di abilità sociali che può essere rilevato da un osservatore attento, le valutazioni dei diversi osservatori dovrebbero essere altamente correlate tra loro. L’affidabilità inter-rater sarebbe stata misurata anche nello studio della bambola Bobo di Bandura. In questo caso, le valutazioni degli osservatori sul numero di atti di aggressione commessi da un particolare bambino mentre giocava con la bambola Bobo avrebbero dovuto essere altamente correlate in modo positivo. L’affidabilità dell’intervistatore è spesso valutata usando l’α di Cronbach quando i giudizi sono quantitativi o una statistica analoga chiamata κ di Cohen (la lettera greca kappa) quando sono categorici.
Validità
La validità è la misura in cui i punteggi di una misura rappresentano la variabile a cui sono destinati. Ma come fanno i ricercatori a dare questo giudizio? Abbiamo già considerato un fattore di cui tengono conto: l’affidabilità. Quando una misura ha una buona affidabilità test-retest e consistenza interna, i ricercatori dovrebbero essere più sicuri che i punteggi rappresentino ciò che si suppone. Ci deve essere qualcosa di più, però, perché una misura può essere estremamente affidabile ma non avere alcuna validità. Per fare un esempio assurdo, immaginate qualcuno che crede che la lunghezza del dito indice delle persone rifletta la loro autostima e quindi cerca di misurare l’autostima tenendo un righello sull’indice delle persone. Anche se questa misura avrebbe un’affidabilità test-retest estremamente buona, non avrebbe assolutamente alcuna validità. Il fatto che l’indice di una persona sia un centimetro più lungo di quello di un’altra non indicherebbe nulla su chi ha una maggiore autostima.
Le discussioni sulla validità di solito la dividono in diversi “tipi” distinti. Ma un buon modo di interpretare questi tipi è che sono altri tipi di prove – oltre all’affidabilità – che dovrebbero essere presi in considerazione quando si giudica la validità di una misura. Qui consideriamo tre tipi fondamentali: validità di faccia, validità di contenuto e validità di criterio.
Validità di faccia
La validità di faccia è la misura in cui un metodo di misurazione appare “di facciata” per misurare il costrutto di interesse. La maggior parte delle persone si aspetterebbe che un questionario sull’autostima includa domande sul fatto che essi si vedano come una persona di valore e che pensino di avere buone qualità. Quindi un questionario che includa questo tipo di domande avrebbe una buona validità visiva. Il metodo della lunghezza delle dita per misurare l’autostima, d’altra parte, sembra non avere nulla a che fare con l’autostima e quindi ha una scarsa validità facciale. Anche se la validità visiva può essere valutata quantitativamente – per esempio, facendo valutare ad un ampio campione di persone una misura in termini di se sembra misurare ciò che si intende misurare – di solito è valutata informalmente.
La validità visiva è nel migliore dei casi un tipo di prova molto debole che un metodo di misurazione stia misurando ciò che si suppone. Una ragione è che si basa sulle intuizioni delle persone sul comportamento umano, che sono spesso sbagliate. È anche il caso che molte misure consolidate in psicologia funzionano abbastanza bene nonostante la mancanza di una validità di facciata. Il Minnesota Multiphasic Personality Inventory-2 (MMPI-2) misura molte caratteristiche e disturbi della personalità facendo decidere alle persone se ciascuna di oltre 567 affermazioni diverse si applica a loro, dove molte delle affermazioni non hanno alcuna relazione ovvia con il costrutto che misurano. Per esempio, le voci “Mi piacciono le storie di detective o di mistero” e “La vista del sangue non mi spaventa o mi fa star male” misurano entrambe la soppressione dell’aggressività. In questo caso, non sono le risposte letterali dei partecipanti a queste domande ad essere interessanti, ma piuttosto se il modello delle risposte dei partecipanti ad una serie di domande corrisponde a quelle degli individui che tendono a sopprimere la loro aggressività.
Validità del contenuto
La validità del contenuto è la misura in cui una misura “copre” il costrutto di interesse. Per esempio, se un ricercatore definisce concettualmente l’ansia da test come coinvolgente sia l’attivazione del sistema nervoso simpatico (che porta a sentimenti nervosi) che i pensieri negativi, allora la sua misura dell’ansia da test dovrebbe includere item sia sui sentimenti nervosi che sui pensieri negativi. Oppure si consideri che gli atteggiamenti sono solitamente definiti come coinvolgenti pensieri, sentimenti e azioni verso qualcosa. Secondo questa definizione concettuale, una persona ha un atteggiamento positivo verso l’esercizio fisico nella misura in cui pensa pensieri positivi sull’esercizio fisico, si sente bene con l’esercizio fisico ed effettivamente lo fa. Quindi, per avere una buona validità di contenuto, una misura degli atteggiamenti delle persone verso l’esercizio fisico dovrebbe riflettere tutti e tre questi aspetti. Come la validità visiva, la validità di contenuto non viene di solito valutata quantitativamente. Invece, viene valutata controllando attentamente il metodo di misurazione rispetto alla definizione concettuale del costrutto.
Validità del criterio
La validità del criterio è la misura in cui i punteggi delle persone su una misura sono correlati con altre variabili (note come criteri) con cui ci si aspetta che siano correlati. Per esempio, i punteggi delle persone su una nuova misura dell’ansia da test dovrebbero essere negativamente correlati con il loro rendimento in un importante esame scolastico. Se si scoprisse che i punteggi delle persone sono di fatto correlati negativamente con il loro rendimento all’esame, allora questa sarebbe una prova che questi punteggi rappresentano davvero l’ansia da esame delle persone. Ma se si scoprisse che le persone hanno ottenuto lo stesso punteggio all’esame indipendentemente dai loro punteggi di ansia da test, allora questo metterebbe in dubbio la validità della misura.
Un criterio può essere qualsiasi variabile che si ha ragione di pensare dovrebbe essere correlata con il costrutto da misurare, e di solito ce ne saranno molti. Per esempio, ci si aspetterebbe che i punteggi dell’ansia da test siano negativamente correlati con il rendimento degli esami e i voti dei corsi e positivamente correlati con l’ansia generale e con la pressione sanguigna durante un esame. Oppure immaginate che un ricercatore sviluppi una nuova misura dell’assunzione di rischi fisici. I punteggi delle persone su questa misura dovrebbero essere correlati con la loro partecipazione ad attività “estreme” come lo snowboard e l’arrampicata su roccia, il numero di multe per eccesso di velocità che hanno ricevuto, e anche il numero di ossa rotte che hanno avuto nel corso degli anni. Quando il criterio è misurato nello stesso momento del costrutto, la validità del criterio è detta validità concorrente; tuttavia, quando il criterio è misurato in un certo momento nel futuro (dopo che il costrutto è stato misurato), si parla di validità predittiva (perché i punteggi sulla misura hanno “previsto” un risultato futuro).
I criteri possono anche includere altre misure dello stesso costrutto. Per esempio, ci si aspetterebbe che le nuove misure dell’ansia da test o dell’assunzione di rischi fisici siano correlate positivamente con le misure esistenti e consolidate degli stessi costrutti. Questo è noto come validità convergente.
La valutazione della validità convergente richiede la raccolta di dati utilizzando la misura. I ricercatori John Cacioppo e Richard Petty hanno fatto questo quando hanno creato la loro scala auto-riferita Need for Cognition Scale per misurare quanto le persone apprezzano e si impegnano nel pensiero (Cacioppo & Petty, 1982). In una serie di studi, hanno dimostrato che i punteggi delle persone erano positivamente correlati con i loro punteggi in un test di rendimento accademico standardizzato, e che i loro punteggi erano negativamente correlati con i loro punteggi su una misura di dogmatismo (che rappresenta una tendenza all’obbedienza). Negli anni successivi alla sua creazione, la scala Need for Cognition è stata utilizzata in centinaia di studi e ha dimostrato di essere correlata con un’ampia varietà di altre variabili, tra cui l’efficacia di una pubblicità, l’interesse per la politica e le decisioni dei giurati (Petty, Briñol, Loersch, & McCaslin, 2009).
Validità discriminante
La validità discriminante, d’altra parte, è la misura in cui i punteggi di una misura non sono correlati con misure di variabili che sono concettualmente distinte. Per esempio, l’autostima è un atteggiamento generale verso se stessi che è abbastanza stabile nel tempo. Non è la stessa cosa dell’umore, che è quanto bene o male ci si sente in questo momento. Quindi i punteggi delle persone su una nuova misura di autostima non dovrebbero essere molto correlati con il loro umore. Se la nuova misura dell’autostima fosse altamente correlata con una misura dell’umore, si potrebbe sostenere che la nuova misura non misura realmente l’autostima, ma l’umore.
Quando hanno creato la Need for Cognition Scale, Cacioppo e Petty hanno anche fornito prove di validità discriminante, mostrando che i punteggi delle persone non erano correlati con certe altre variabili. Per esempio, hanno trovato solo una debole correlazione tra il bisogno di cognizione delle persone e una misura del loro stile cognitivo – la misura in cui tendono a pensare analiticamente rompendo le idee in parti più piccole o olisticamente in termini di “quadro generale”. Non hanno anche trovato alcuna correlazione tra il bisogno di cognizione delle persone e le misure della loro ansia da test e la loro tendenza a rispondere in modi socialmente desiderabili. Tutte queste basse correlazioni forniscono la prova che la misura riflette un costrutto concettualmente distinto.
Key Takeaways
- I ricercatori psicologici non presumono semplicemente che le loro misure funzionino. Invece, conducono ricerche per dimostrare che funzionano. Se non possono dimostrare che funzionano, smettono di usarle.
- Ci sono due criteri distinti con cui i ricercatori valutano le loro misure: affidabilità e validità. L’affidabilità è la coerenza nel tempo (affidabilità del test-retest), tra gli elementi (coerenza interna), e tra i ricercatori (affidabilità dell’interprete). La validità è la misura in cui i punteggi rappresentano effettivamente la variabile a cui sono destinati.
- La validità è un giudizio basato su vari tipi di prove. L’evidenza rilevante include l’affidabilità della misura, se copre il costrutto di interesse, e se i punteggi che produce sono correlati con altre variabili con cui ci si aspetta che siano correlati e non correlati con variabili che sono concettualmente distinte.
- L’affidabilità e la validità di una misura non è stabilita da un singolo studio ma dal modello dei risultati attraverso più studi. La valutazione dell’affidabilità e della validità è un processo continuo.
Esercizi
- Pratica: Chiedete a diversi amici di completare la Rosenberg Self-Esteem Scale. Poi valutate la sua consistenza interna facendo un grafico di dispersione per mostrare la correlazione tra le due metà (articoli pari e dispari). Calcolate anche il coefficiente di correlazione se sapete come farlo.
- Discussione: Ripensa all’ultimo esame universitario che hai fatto e pensa all’esame come a una misura psicologica. Quale costrutto pensi che fosse destinato a misurare? Commenta la sua validità di faccia e di contenuto. Quali dati potresti raccogliere per valutare la sua affidabilità e validità di criterio?
- Cacioppo, J. T., & Petty, R. E. (1982). Il bisogno di cognizione. Journal of Personality and Social Psychology, 42, 116-131. ↵
- Petty, R. E, Briñol, P., Loersch, C., & McCaslin, M. J. (2009). Il bisogno di cognizione. In M. R. Leary & R. H. Hoyle (Eds.), Handbook of individual differences in social behavior (pp. 318-329). New York, NY: Guilford Press. ↵
0 commenti