Objectivos de aprendizagem

  1. Definir fiabilidade, incluindo os diferentes tipos e como são avaliados.
  2. Definir validade, incluindo os diferentes tipos e como são avaliados.
  3. Descrever os tipos de provas que seriam relevantes para avaliar a fiabilidade e validade de uma determinada medida.

Ganhar, a medição envolve a atribuição de pontuações aos indivíduos de modo a que estes representem alguma característica dos indivíduos. Mas como é que os investigadores sabem que as pontuações representam realmente a característica, especialmente quando se trata de uma construção como inteligência, auto-estima, depressão, ou capacidade de memória de trabalho? A resposta é que eles conduzem pesquisas utilizando a medida para confirmar que as pontuações fazem sentido com base na sua compreensão da construção que está a ser medida. Este é um ponto extremamente importante. Os psicólogos não assumem simplesmente que as suas medidas funcionam. Em vez disso, recolhem dados para demonstrar que funcionam. Se a sua investigação não demonstrar que uma medida funciona, deixam de a utilizar.

Como exemplo informal, imagine que está a fazer dieta há um mês. As suas roupas parecem estar mais folgadas, e vários amigos perguntaram-lhe se perdeu peso. Se nesta altura a sua balança de casa de banho indicasse que tinha perdido 10 libras, isto faria sentido e continuaria a usar a balança. Mas se indicasse que tinha ganho 10 libras, concluiria correctamente que estava partida e ou a consertava ou se livrava dela. Ao avaliar um método de medição, os psicólogos consideram duas dimensões gerais: fiabilidade e validade.

Fiabilidade

Reliabilidade refere-se à consistência de uma medida. Os psicólogos consideram três tipos de consistência: ao longo do tempo (fiabilidade do teste-reteste), através de itens (consistência interna), e através de diferentes investigadores (fiabilidade entre examinadores).

Confiabilidade do teste-reteste

Quando os investigadores medem uma construção que assumem ser consistente ao longo do tempo, então as pontuações que obtêm também devem ser consistentes ao longo do tempo. A fiabilidade do teste-reteste é a medida em que este é de facto o caso. Por exemplo, pensa-se geralmente que a inteligência é consistente ao longo do tempo. Uma pessoa que seja altamente inteligente hoje será altamente inteligente na próxima semana. Isto significa que qualquer boa medida de inteligência deve produzir aproximadamente as mesmas pontuações para este indivíduo na próxima semana que produz hoje. Claramente, uma medida que produz pontuações altamente inconsistentes ao longo do tempo não pode ser uma medida muito boa de uma construção que se supõe ser consistente.

Avaliar a fiabilidade do teste-reteste requer a utilização da medida num grupo de pessoas de uma só vez, utilizando-a novamente no mesmo grupo de pessoas numa altura posterior, e depois analisando a correlação teste-reteste entre os dois conjuntos de pontuações. Isto é normalmente feito através da representação gráfica dos dados num diagrama de dispersão e do cálculo do coeficiente de correlação. A Figura 4.2 mostra a correlação entre dois conjuntos de pontuações de vários estudantes universitários na Escala de Auto-Estima de Rosenberg, administrada duas vezes, com um intervalo de uma semana. O coeficiente de correlação para estes dados é de +,95. Em geral, uma correlação test-retest de +,80 ou superior é considerada para indicar boa fiabilidade.

Figure 5.2 Test-Retest Corlation Between Two Sets of Scores of Several College Students on the Rosenberg Self-Esteem Scale, Given Two Times a Week Apart

Figure 4.2 Correlação Test-Retest entre dois conjuntos de resultados de vários estudantes universitários na escala de auto-estima de Rosenberg, Given Two Times a Week Apart

Again, high test-retest correlations make sense when the construction being measured is assumed to be consistent over time, which is the case for intelligence, self-esteem, and the Big Five personality dimensions. Mas outras construções não são assumidas como estáveis ao longo do tempo. A própria natureza do estado de espírito, por exemplo, é que muda. Assim, uma medida de humor que produzisse uma baixa correlação teste-reteste durante um período de um mês não seria motivo de preocupação.

Consistência Interna

Outro tipo de fiabilidade é a consistência interna, que é a consistência das respostas das pessoas ao longo dos itens numa medida de itens múltiplos. Em geral, todos os itens de tais medidas devem reflectir a mesma construção subjacente, pelo que as pontuações das pessoas nesses itens devem ser correlacionadas umas com as outras. Na Escala de Auto-Estima de Rosenberg, as pessoas que concordam que são uma pessoa de valor devem tender a concordar que têm uma série de boas qualidades. Se as respostas das pessoas aos diferentes itens não estiverem correlacionadas umas com as outras, então já não faria sentido afirmar que todas elas medem a mesma construção subjacente. Isto é tão verdade para as medidas comportamentais e fisiológicas como para as medidas de auto-relatação. Por exemplo, as pessoas podem fazer uma série de apostas num jogo simulado de roleta como medida do seu nível de procura de risco. Esta medida seria internamente consistente na medida em que as apostas individuais dos participantes fossem consistentemente altas ou baixas ao longo das provas.

Fiabilidade do teste-reteste, a consistência interna só pode ser avaliada através da recolha e análise de dados. Uma abordagem é olhar para uma correlação dividida ao meio. Isto implica dividir os itens em dois conjuntos, tais como a primeira e segunda metades dos itens ou os itens de número par e ímpar. Depois é calculada uma pontuação para cada conjunto de itens, e a relação entre os dois conjuntos de pontuação é examinada. Por exemplo, a Figura 4.3 mostra a correlação entre as notas de vários estudantes universitários nos itens de número par e as suas notas nos itens de número ímpar da Escala de Auto-Estima de Rosenberg. O coeficiente de correlação para estes dados é +,88. Uma correlação dividida a meio de +,80 ou superior é geralmente considerada boa consistência interna.

Figure 5.3 Split-Half Correlation Between Several College Students' Scores on the Even-Numbered Items and Their Scores on the Odd-Numbered Items of the Rosenberg Self-Esteem Scale

Figure 4.3 Correlação entre as Pontuações de Vários Estudantes do Ensino Superior nas Pares e as suas Pontuações nas Pares da Escala de Auto-Estima de Rosenberg

Talvez a medida mais comum de consistência interna utilizada pelos investigadores em psicologia seja uma estatística chamada Cronbach’s α (a letra grega alfa). Conceitualmente, α é a média de todas as correlações possíveis entre parciais para um conjunto de itens. Por exemplo, existem 252 formas de dividir um conjunto de 10 itens em dois conjuntos de cinco. O Cronbach’s α seria a média das 252 correlações divididas pela metade. Note-se que não é assim que o α é realmente calculado, mas é uma forma correcta de interpretar o significado desta estatística. Mais uma vez, um valor de +,80 ou superior é geralmente tomado para indicar uma boa consistência interna.

Fiabilidade Interrater

Muitas medidas comportamentais envolvem julgamento significativo por parte de um observador ou de um avaliador. A fiabilidade entre avaliadores é a medida em que os diferentes observadores são consistentes nos seus julgamentos. Por exemplo, se estivesse interessado em medir as competências sociais dos estudantes universitários, poderia fazer gravações em vídeo à medida que estes interagissem com outro estudante com quem se encontram pela primeira vez. Depois poderia ter dois ou mais observadores a ver os vídeos e avaliar o nível de competências sociais de cada estudante. Na medida em que cada participante tem, de facto, algum nível de competências sociais que pode ser detectado por um observador atento, as diferentes classificações dos observadores devem ser altamente correlacionadas entre si. A fiabilidade entre observadores também teria sido medida no estudo do boneco Bobo de Bandura. Neste caso, as classificações dos observadores quanto ao número de actos de agressão que uma determinada criança cometeu enquanto brincava com o boneco Bobo deveriam ter sido altamente correlacionadas positivamente. A fiabilidade intra-operatória é frequentemente avaliada utilizando o Cronbach’s α quando os juízos são quantitativos ou uma estatística análoga chamada Cohen’s κ (a letra grega kappa) quando são categóricos.

Validade

Validade é a medida em que as pontuações de uma medida representam a variável a que se destinam. Mas como é que os investigadores fazem este julgamento? Já considerámos um factor que eles têm em conta: a fiabilidade. Quando uma medida tem boa fiabilidade de teste-reteste e consistência interna, os investigadores devem estar mais confiantes de que as pontuações representam aquilo a que se destinam. Tem de haver mais, contudo, porque uma medida pode ser extremamente fiável mas não tem qualquer validade. Como exemplo absurdo, imagine alguém que acredita que o comprimento do dedo indicador das pessoas reflecte a sua auto-estima e, portanto, tenta medir a auto-estima segurando uma régua até aos dedos indicadores das pessoas. Embora esta medida tivesse uma fiabilidade de test-retest extremamente boa, não teria qualquer validade. O facto de o dedo indicador de uma pessoa ser um centímetro mais longo do que o de outra não indicaria nada sobre qual a pessoa tinha maior auto-estima.

Discussões de validade geralmente dividem-na em vários “tipos” distintos. Mas uma boa maneira de interpretar estes tipos é que são outros tipos de provas – para além da fiabilidade – que devem ser tidos em conta ao julgar a validade de uma medida. Aqui consideramos três tipos básicos: validade facial, validade do conteúdo, e validade do critério.

Validade facial

Validade facial é a medida em que um método de medição aparece “na sua face” para medir a construção de interesse. A maioria das pessoas esperaria que um questionário de auto-estima incluísse itens sobre se se vêem a si próprias como uma pessoa de valor e se pensam que têm boas qualidades. Assim, um questionário que incluísse este tipo de itens teria uma boa validade facial. O método de medir a auto-estima com os dedos, por outro lado, parece não ter nada a ver com a auto-estima e, por conseguinte, tem uma má validade facial. Embora a validade facial possa ser avaliada quantitativamente – por exemplo, ao ter uma grande amostra de pessoas a avaliar uma medida em termos de se parece medir aquilo a que se destina – normalmente é avaliada informalmente.

A validade facial é, na melhor das hipóteses, um tipo muito fraco de evidência de que um método de medição está a medir aquilo a que se supõe. Uma razão é que se baseia nas intuições das pessoas sobre o comportamento humano, que frequentemente estão erradas. É também o caso de muitas medidas estabelecidas em psicologia funcionarem bastante bem, apesar da falta de validade facial. O Minnesota Multiphasic Personality Inventory-2 (MMPI-2) mede muitas características de personalidade e distúrbios, fazendo com que as pessoas decidam se cada uma das mais de 567 declarações diferentes se lhes aplica – onde muitas das declarações não têm qualquer relação óbvia com a construção que medem. Por exemplo, os itens “Gosto de histórias de detective ou de mistério” e “A visão de sangue não me assusta nem me deixa doente” ambos medem a supressão da agressão. Neste caso, não são as respostas literais dos participantes a estas perguntas que são de interesse, mas sim se o padrão das respostas dos participantes a uma série de perguntas corresponde às dos indivíduos que tendem a suprimir a sua agressão.

Validade do conteúdo

Validade do conteúdo é a medida em que uma medida “cobre” a construção de interesse. Por exemplo, se um investigador define conceptualmente a ansiedade do teste como envolvendo tanto a activação simpática do sistema nervoso (levando a sentimentos nervosos) como pensamentos negativos, então a sua medida de ansiedade do teste deve incluir itens tanto sobre sentimentos nervosos como pensamentos negativos. Ou considerar que as atitudes são geralmente definidas como envolvendo pensamentos, sentimentos e acções em relação a algo. Por esta definição conceptual, uma pessoa tem uma atitude positiva em relação ao exercício, na medida em que pensa pensamentos positivos sobre o exercício, sente-se bem sobre o exercício, e exerce efectivamente. Assim, para ter um bom conteúdo de validade, uma medida das atitudes das pessoas em relação ao exercício teria de reflectir todos estes três aspectos. Tal como a validade facial, a validade do conteúdo não é normalmente avaliada quantitativamente. Em vez disso, é avaliada verificando cuidadosamente o método de medição em relação à definição conceptual da construção.

Validade do critério

Validade do critério é a medida em que as pontuações das pessoas numa medida estão correlacionadas com outras variáveis (conhecidas como critérios) com as quais se esperaria que estivessem correlacionadas. Por exemplo, a pontuação das pessoas numa nova medida de ansiedade do teste deve ser negativamente correlacionada com o seu desempenho num importante exame escolar. Se se verificasse que as notas das pessoas estavam de facto negativamente correlacionadas com o seu desempenho no exame, então isto seria uma prova de que estas notas representam realmente a ansiedade no teste das pessoas. Mas se se descobrisse que as pessoas obtiveram notas igualmente boas no exame independentemente das suas notas no teste de ansiedade, então isso iria lançar dúvidas sobre a validade da medida.

Um critério pode ser qualquer variável que se tenha razões para pensar que deve ser correlacionada com a construção que está a ser medida, e normalmente haverá muitas delas. Por exemplo, seria de esperar que as notas de ansiedade do teste estivessem negativamente correlacionadas com o desempenho do exame e as notas do curso e positivamente correlacionadas com a ansiedade geral e com a pressão arterial durante um exame. Ou imagine que um investigador desenvolve uma nova medida de tomada de riscos físicos. Os resultados das pessoas nesta medida devem ser correlacionados com a sua participação em actividades “extremas” como o snowboard e a escalada em rocha, o número de multas por excesso de velocidade que receberam, e mesmo o número de ossos partidos que tiveram ao longo dos anos. Quando o critério é medido ao mesmo tempo que a construção, a validade do critério é referida como validade concorrente; contudo, quando o critério é medido em algum momento no futuro (após a construção ter sido medida), é referido como validade preditiva (porque as pontuações na medida “previram” um resultado futuro).

Critérios também podem incluir outras medidas da mesma construção. Por exemplo, seria de esperar que novas medidas de ansiedade de teste ou de tomada de risco físico fossem positivamente correlacionadas com medidas já estabelecidas das mesmas construções. Isto é conhecido como validade convergente.

Avaliar a validade convergente requer a recolha de dados utilizando a medida. Os investigadores John Cacioppo e Richard Petty fizeram isto quando criaram a sua auto-relatória Need for Cognition Scale para medir o quanto as pessoas valorizam e se empenham em pensar (Cacioppo & Petty, 1982). Numa série de estudos, mostraram que os resultados das pessoas estavam positivamente correlacionados com os seus resultados num teste de desempenho académico padronizado, e que os seus resultados estavam negativamente correlacionados com os seus resultados numa medida de dogmatismo (o que representa uma tendência para a obediência). Nos anos desde a sua criação, a Escala da Necessidade de Cognição tem sido utilizada em literalmente centenas de estudos e tem demonstrado estar correlacionada com uma grande variedade de outras variáveis, incluindo a eficácia de um anúncio, interesse em política, e decisões de jurados (Petty, Briñol, Loersch, & McCaslin, 2009).

Validade discriminante

Validade discriminante, por outro lado, é a medida em que as pontuações numa medida não estão correlacionadas com medidas de variáveis que são conceptualmente distintas. Por exemplo, a auto-estima é uma atitude geral em relação ao eu que é bastante estável ao longo do tempo. Não é o mesmo que humor, que é o quão bom ou mau se está a sentir neste momento. Assim, as pontuações das pessoas numa nova medida de auto-estima não devem ser muito correlacionadas com os seus estados de espírito. Se a nova medida de auto-estima estivesse altamente correlacionada com uma medida de humor, poderia argumentar-se que a nova medida não está realmente a medir a auto-estima; está antes a medir o humor.

Quando criaram a Escala de Necessidade de Cognição, Cacioppo e Petty também forneceram provas de validade discriminante, mostrando que as pontuações das pessoas não estavam correlacionadas com certas outras variáveis. Por exemplo, encontraram apenas uma fraca correlação entre a necessidade de cognição das pessoas e uma medida do seu estilo cognitivo – a medida em que tendem a pensar analiticamente, dividindo as ideias em partes mais pequenas ou holisticamente, em termos de “o grande quadro”. Também não encontraram qualquer correlação entre a necessidade de cognição das pessoas e as medidas da sua ansiedade de teste e a sua tendência para responder de formas socialmente desejáveis. Todas estas correlações baixas fornecem provas de que a medida reflecte uma construção conceptualmente distinta.

Key Takeaways

  • Psychological researchers do not simply assume que as suas medidas funcionam. Em vez disso, realizam investigação para mostrar que funcionam. Se não conseguem demonstrar que trabalham, deixam de os utilizar.
  • há dois critérios distintos pelos quais os investigadores avaliam as suas medidas: fiabilidade e validade. Fiabilidade é a consistência ao longo do tempo (fiabilidade de teste-reteste), entre artigos (consistência interna), e entre investigadores (fiabilidade entre investigadores). A validade é a medida em que as pontuações representam efectivamente a variável a que se destinam.
  • li>Validade é um juízo baseado em vários tipos de provas. A evidência relevante inclui a fiabilidade da medida, se cobre a construção de interesse, e se as pontuações que produz estão correlacionadas com outras variáveis com as quais se espera que estejam correlacionadas e não correlacionadas com variáveis conceptualmente distintas.

  • A fiabilidade e validade de uma medida não é estabelecida por um único estudo, mas pelo padrão de resultados em múltiplos estudos. A avaliação da fiabilidade e validade é um processo contínuo.

Exercícios

  1. Prática: Pedir a vários amigos para completar a Escala de Auto-Estima de Rosenberg. Depois avalie a sua consistência interna fazendo um gráfico de dispersão para mostrar a correlação entre a metade dividida (itens de número par vs. ímpar). Calcule também o coeficiente de correlação, se souber como.
  2. li>Discussão: Pense no último exame universitário que fez e pense no exame como uma medida psicológica. Que construção pensa que se destinava a medir? Comente sobre o seu rosto e validade do conteúdo. Que dados poderia recolher para avaliar a sua fiabilidade e validade do critério?/ol>

  1. Cacioppo, J. T., & Petty, R. E. (1982). A necessidade de cognição. Journal of Personality and Social Psychology, 42, 116-131. ↵
  2. li>Petty, R. E, Briñol, P., Loersch, C., & McCaslin, M. J. (2009). A necessidade de cognição. Em M. R. Leary & R. H. Hoyle (Eds.), Handbook of individual differences in social behavior (pp. 318-329). Nova Iorque, NY: Guilford Press. ↵

Categorias: Articles

0 comentários

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *