Objetivos de aprendizaje
- Defina la fiabilidad, incluyendo los diferentes tipos y cómo se evalúan.
- Defina la validez, incluyendo los diferentes tipos y cómo se evalúan.
- Describir los tipos de pruebas que serían relevantes para evaluar la fiabilidad y la validez de una medida en particular.
De nuevo, la medición implica asignar puntuaciones a los individuos para que representen alguna característica de los mismos. Pero, ¿cómo saben los investigadores que las puntuaciones representan realmente la característica, especialmente cuando se trata de un constructo como la inteligencia, la autoestima, la depresión o la capacidad de memoria de trabajo? La respuesta es que llevan a cabo una investigación utilizando la medida para confirmar que las puntuaciones tienen sentido basándose en su comprensión del constructo que se está midiendo. Este es un punto extremadamente importante. Los psicólogos no se limitan a asumir que sus medidas funcionan. Por el contrario, recogen datos para demostrar que funcionan. Si su investigación no demuestra que una medida funciona, dejan de utilizarla.
Como ejemplo informal, imagine que ha estado haciendo dieta durante un mes. Su ropa parece quedarle más holgada y varios amigos le han preguntado si ha perdido peso. Si en ese momento la báscula de su cuarto de baño indicara que ha perdido 5 kilos, tendría sentido y seguiría utilizando la báscula. Pero si indicara que has ganado 5 kilos, concluirías con razón que está estropeada y la arreglarías o te desharías de ella. Al evaluar un método de medición, los psicólogos consideran dos dimensiones generales: la fiabilidad y la validez.
Fiabilidad
La fiabilidad se refiere a la consistencia de una medida. Los psicólogos consideran tres tipos de consistencia: a lo largo del tiempo (fiabilidad test-retest), a lo largo de los ítems (consistencia interna) y a lo largo de diferentes investigadores (fiabilidad inter-evaluadores).
Fiabilidad test-retest
Cuando los investigadores miden un constructo que suponen que es consistente a lo largo del tiempo, entonces las puntuaciones que obtienen también deberían ser consistentes a lo largo del tiempo. La fiabilidad de la prueba es la medida en que esto es realmente así. Por ejemplo, generalmente se piensa que la inteligencia es consistente a lo largo del tiempo. Una persona que es muy inteligente hoy será muy inteligente la semana que viene. Esto significa que cualquier buena medida de la inteligencia debería producir aproximadamente las mismas puntuaciones para este individuo la semana que viene que para hoy. Claramente, una medida que produce puntuaciones altamente inconsistentes a lo largo del tiempo no puede ser una muy buena medida de un constructo que se supone que es consistente.
La evaluación de la fiabilidad test-retest requiere utilizar la medida en un grupo de personas en un momento dado, utilizarla de nuevo en el mismo grupo de personas en un momento posterior, y luego observar la correlación test-retest entre los dos conjuntos de puntuaciones. Esto se suele hacer graficando los datos en un gráfico de dispersión y calculando el coeficiente de correlación. La figura 4.2 muestra la correlación entre dos conjuntos de puntuaciones de varios estudiantes universitarios en la escala de autoestima de Rosenberg, administrada dos veces, con una semana de diferencia. El coeficiente de correlación para estos datos es de +.95. En general, se considera que una correlación test-retest de +.80 o superior indica una buena fiabilidad.
Figura 4.2 Correlación test-retest entre dos conjuntos de puntuaciones de varios estudiantes universitarios en la escala de autoestima de Rosenberg, dadas con dos veces por semana
De nuevo, las altas correlaciones test-retest tienen sentido cuando se supone que el constructo que se mide es consistente a lo largo del tiempo, como es el caso de la inteligencia, la autoestima y las cinco grandes dimensiones de la personalidad. Pero se supone que otros constructos no son estables a lo largo del tiempo. La propia naturaleza del estado de ánimo, por ejemplo, es que cambia. Así que una medida del estado de ánimo que produjera una baja correlación test-retest durante un período de un mes no sería motivo de preocupación.
Consistencia interna
Otro tipo de fiabilidad es la consistencia interna, que es la consistencia de las respuestas de las personas a través de los ítems de una medida de múltiples ítems. En general, se supone que todos los ítems de estas medidas reflejan el mismo constructo subyacente, por lo que las puntuaciones de las personas en esos ítems deberían estar correlacionadas entre sí. En la escala de autoestima de Rosenberg, las personas que están de acuerdo en que son una persona valiosa deberían tender a estar de acuerdo en que tienen una serie de buenas cualidades. Si las respuestas de las personas a los diferentes ítems no están correlacionadas entre sí, entonces ya no tendría sentido afirmar que todas ellas miden el mismo constructo subyacente. Esto es tan cierto para las medidas conductuales y fisiológicas como para las medidas de autoinforme. Por ejemplo, las personas pueden hacer una serie de apuestas en un juego de ruleta simulado como medida de su nivel de búsqueda de riesgo. Esta medida sería internamente consistente en la medida en que las apuestas individuales de los participantes fueran consistentemente altas o bajas a lo largo de los ensayos.
Al igual que la fiabilidad test-retest, la consistencia interna sólo puede ser evaluada mediante la recopilación y el análisis de datos. Un enfoque es observar la correlación de la mitad dividida. Esto implica dividir los ítems en dos conjuntos, como la primera y la segunda mitad de los ítems o los ítems pares e impares. A continuación, se calcula una puntuación para cada conjunto de ítems y se examina la relación entre los dos conjuntos de puntuaciones. Por ejemplo, la figura 4.3 muestra la correlación entre las puntuaciones de varios estudiantes universitarios en los ítems pares y sus puntuaciones en los ítems impares de la escala de autoestima de Rosenberg. El coeficiente de correlación para estos datos es de +.88. Una correlación a medias de +.80 o mayor se considera generalmente una buena consistencia interna.
Figura 4.3 Correlación dividida entre las puntuaciones de varios estudiantes universitarios en los ítems pares y sus puntuaciones en los ítems impares de la escala de autoestima de Rosenberg
Quizás la medida más común de consistencia interna utilizada por los investigadores en psicología es un estadístico llamado α de Cronbach (la letra griega alfa). Conceptualmente, α es la media de todas las correlaciones posibles entre mitades para un conjunto de ítems. Por ejemplo, hay 252 formas de dividir un conjunto de 10 ítems en dos conjuntos de cinco. El α de Cronbach sería la media de las 252 correlaciones de división. Tenga en cuenta que no es así como se calcula realmente el α, pero es una forma correcta de interpretar el significado de esta estadística. Una vez más, un valor de +.80 o mayor se considera generalmente como indicación de una buena consistencia interna.
Fiabilidad entre evaluadores
Muchas medidas conductuales implican un juicio significativo por parte de un observador o evaluador. La fiabilidad entre evaluadores es el grado en que diferentes observadores son consistentes en sus juicios. Por ejemplo, si estuviera interesado en medir las habilidades sociales de los estudiantes universitarios, podría grabarlos en vídeo mientras interactúan con otro estudiante al que conocen por primera vez. A continuación, puede hacer que dos o más observadores vean los vídeos y califiquen el nivel de habilidades sociales de cada estudiante. En la medida en que cada participante tenga, de hecho, algún nivel de habilidades sociales que pueda ser detectado por un observador atento, las puntuaciones de los distintos observadores deberían estar altamente correlacionadas entre sí. La fiabilidad entre observadores también se habría medido en el estudio del muñeco Bobo de Bandura. En este caso, las puntuaciones de los observadores sobre cuántos actos de agresión cometió un niño concreto mientras jugaba con el muñeco Bobo deberían haber estado altamente correlacionadas de forma positiva. La fiabilidad entre observadores suele evaluarse mediante el α de Cronbach cuando los juicios son cuantitativos o una estadística análoga llamada κ de Cohen (la letra griega kappa) cuando son categóricos.
Validez
La validez es el grado en que las puntuaciones de una medida representan la variable que pretenden. Pero, ¿cómo hacen los investigadores este juicio? Ya hemos considerado un factor que tienen en cuenta: la fiabilidad. Cuando una medida tiene una buena fiabilidad test-retest y consistencia interna, los investigadores deberían estar más seguros de que las puntuaciones representan lo que se supone que deben representar. Sin embargo, tiene que haber algo más, porque una medida puede ser extremadamente fiable pero no tener ninguna validez. Como ejemplo absurdo, imaginemos a alguien que cree que la longitud del dedo índice de las personas refleja su autoestima y, por lo tanto, intenta medir la autoestima sosteniendo una regla sobre los dedos índices de las personas. Aunque esta medida tendría una fiabilidad extremadamente buena de prueba-retest, no tendría absolutamente ninguna validez. El hecho de que el dedo índice de una persona sea un centímetro más largo que el de otra no indicaría nada sobre cuál de ellas tiene una mayor autoestima.
Las discusiones sobre la validez suelen dividirla en varios «tipos» distintos. Pero una buena manera de interpretar estos tipos es que son otros tipos de evidencia -además de la fiabilidad- que deben tenerse en cuenta al juzgar la validez de una medida. Aquí consideramos tres tipos básicos: la validez facial, la validez de contenido y la validez de criterio.
Validez facial
La validez facial es el grado en que un método de medición parece «a primera vista» medir el constructo de interés. La mayoría de la gente esperaría que un cuestionario de autoestima incluyera ítems sobre si se ven a sí mismos como una persona valiosa y si creen que tienen buenas cualidades. Por tanto, un cuestionario que incluyera este tipo de ítems tendría una buena validez aparente. En cambio, el método de medición de la autoestima por la longitud de los dedos parece no tener nada que ver con la autoestima y, por tanto, tiene una escasa validez facial. Aunque la validez aparente puede evaluarse cuantitativamente -por ejemplo, haciendo que una gran muestra de personas califique una medida en términos de si parece medir lo que se pretende-, normalmente se evalúa de manera informal.
La validez aparente es, en el mejor de los casos, un tipo de evidencia muy débil de que un método de medición está midiendo lo que se supone que debe medir. Una de las razones es que se basa en las intuiciones de las personas sobre el comportamiento humano, que a menudo son erróneas. También se da el caso de que muchas medidas establecidas en psicología funcionan bastante bien a pesar de carecer de validez aparente. El Inventario Multifásico de Personalidad de Minnesota-2 (MMPI-2) mide muchas características y trastornos de la personalidad haciendo que las personas decidan si cada una de las más de 567 afirmaciones diferentes se aplica a ellas, y muchas de las afirmaciones no tienen ninguna relación obvia con el constructo que miden. Por ejemplo, los ítems «Me gustan las historias de detectives o de misterio» y «La visión de la sangre no me asusta ni me pone enfermo» miden ambos la supresión de la agresividad. En este caso, lo que interesa no son las respuestas literales de los participantes a estas preguntas, sino más bien si el patrón de las respuestas de los participantes a una serie de preguntas coincide con las de los individuos que tienden a suprimir su agresividad.
Validez de contenido
La validez de contenido es el grado en que una medida «cubre» el constructo de interés. Por ejemplo, si un investigador define conceptualmente la ansiedad ante los exámenes como algo que implica tanto la activación del sistema nervioso simpático (que conduce a sentimientos nerviosos) como los pensamientos negativos, entonces su medida de ansiedad ante los exámenes debería incluir ítems sobre sentimientos nerviosos y pensamientos negativos. O considere que las actitudes suelen definirse como pensamientos, sentimientos y acciones hacia algo. Según esta definición conceptual, una persona tiene una actitud positiva hacia el ejercicio en la medida en que tiene pensamientos positivos sobre el ejercicio, se siente bien con el ejercicio y realmente hace ejercicio. Por lo tanto, para tener una buena validez de contenido, una medida de las actitudes de las personas hacia el ejercicio tendría que reflejar estos tres aspectos. Al igual que la validez facial, la validez de contenido no suele evaluarse cuantitativamente. En su lugar, se evalúa comprobando cuidadosamente el método de medición frente a la definición conceptual del constructo.
Validez de criterio
La validez de criterio es el grado en que las puntuaciones de las personas en una medida están correlacionadas con otras variables (conocidas como criterios) con las que se esperaría que estuvieran correlacionadas. Por ejemplo, las puntuaciones de las personas en una nueva medida de ansiedad ante los exámenes deberían estar correlacionadas negativamente con su rendimiento en un examen escolar importante. Si se descubriera que las puntuaciones de las personas están, de hecho, correlacionadas negativamente con su rendimiento en el examen, esto sería una prueba de que estas puntuaciones representan realmente la ansiedad ante los exámenes de las personas. Pero si se encontrara que las personas obtuvieran la misma puntuación en el examen independientemente de sus puntuaciones de ansiedad ante los exámenes, entonces esto pondría en duda la validez de la medida.
Un criterio puede ser cualquier variable que uno tenga razones para pensar que debería estar correlacionada con el constructo que se está midiendo, y normalmente habrá muchas de ellas. Por ejemplo, uno esperaría que las puntuaciones de ansiedad ante los exámenes estuvieran negativamente correlacionadas con el rendimiento en los exámenes y las calificaciones del curso y positivamente correlacionadas con la ansiedad general y con la presión arterial durante un examen. O imaginemos que un investigador desarrolla una nueva medida de asunción de riesgos físicos. Las puntuaciones de las personas en esta medida deberían estar correlacionadas con su participación en actividades «extremas» como el snowboard y la escalada, el número de multas por exceso de velocidad que han recibido e incluso el número de huesos rotos que han tenido a lo largo de los años. Cuando el criterio se mide al mismo tiempo que el constructo, la validez de criterio se denomina validez concurrente; sin embargo, cuando el criterio se mide en algún momento en el futuro (después de haber medido el constructo), se denomina validez predictiva (porque las puntuaciones en la medida han «predicho» un resultado futuro).
Los criterios también pueden incluir otras medidas del mismo constructo. Por ejemplo, uno esperaría que las nuevas medidas de ansiedad ante los exámenes o de toma de riesgos físicos estuvieran positivamente correlacionadas con las medidas establecidas existentes de los mismos constructos. Esto se conoce como validez convergente.
La evaluación de la validez convergente requiere la recogida de datos utilizando la medida. Los investigadores John Cacioppo y Richard Petty hicieron esto cuando crearon su Escala de Necesidad de Cognición de autoinforme para medir cuánto valoran las personas y se dedican a pensar (Cacioppo & Petty, 1982). En una serie de estudios, demostraron que las puntuaciones de las personas estaban positivamente correlacionadas con sus puntuaciones en una prueba estandarizada de rendimiento académico, y que sus puntuaciones estaban negativamente correlacionadas con sus puntuaciones en una medida de dogmatismo (que representa una tendencia a la obediencia). En los años transcurridos desde su creación, la Escala de Necesidad de Cognición se ha utilizado literalmente en cientos de estudios y se ha demostrado que está correlacionada con una amplia variedad de otras variables, como la eficacia de un anuncio, el interés por la política y las decisiones de los jurados (Petty, Briñol, Loersch, & McCaslin, 2009).
Validez discriminante
La validez discriminante, por otro lado, es el grado en que las puntuaciones de una medida no están correlacionadas con medidas de variables que son conceptualmente distintas. Por ejemplo, la autoestima es una actitud general hacia el yo que es bastante estable en el tiempo. No es lo mismo que el estado de ánimo, que es lo bien o mal que uno se siente en ese momento. Por tanto, las puntuaciones de las personas en una nueva medida de autoestima no deberían estar muy correlacionadas con su estado de ánimo. Si la nueva medida de autoestima estuviera altamente correlacionada con una medida del estado de ánimo, se podría argumentar que la nueva medida no está midiendo realmente la autoestima; está midiendo el estado de ánimo en su lugar.
Cuando crearon la Escala de Necesidad de Cognición, Cacioppo y Petty también proporcionaron pruebas de la validez discriminante mostrando que las puntuaciones de las personas no estaban correlacionadas con ciertas otras variables. Por ejemplo, sólo encontraron una débil correlación entre la necesidad de cognición de las personas y una medida de su estilo cognitivo, es decir, el grado en que tienden a pensar de forma analítica dividiendo las ideas en partes más pequeñas o de forma holística en términos de «panorama general». Tampoco encontraron ninguna correlación entre la necesidad de cognición de las personas y las medidas de su ansiedad ante los exámenes y su tendencia a responder de forma socialmente deseable. Todas estas bajas correlaciones proporcionan evidencia de que la medida está reflejando un constructo conceptualmente distinto.
Consignas clave
- Los investigadores psicológicos no asumen simplemente que sus medidas funcionan. Por el contrario, llevan a cabo investigaciones para demostrar que funcionan. Si no pueden demostrar que funcionan, dejan de utilizarlas.
- Hay dos criterios distintos por los que los investigadores evalúan sus medidas: fiabilidad y validez. La fiabilidad es la consistencia a lo largo del tiempo (fiabilidad test-retest), a través de los ítems (consistencia interna) y a través de los investigadores (fiabilidad inter-observadores). La validez es la medida en que las puntuaciones representan realmente la variable que pretenden.
- La validez es un juicio basado en varios tipos de pruebas. Las pruebas relevantes incluyen la fiabilidad de la medida, si cubre el constructo de interés y si las puntuaciones que produce están correlacionadas con otras variables con las que se espera que estén correlacionadas y no están correlacionadas con variables que son conceptualmente distintas.
- La fiabilidad y la validez de una medida no se establecen por un solo estudio sino por el patrón de resultados a través de múltiples estudios. La evaluación de la fiabilidad y la validez es un proceso continuo.
Ejercicios
- Práctica: Pida a varios amigos que completen la escala de autoestima de Rosenberg. A continuación, evalúe su consistencia interna haciendo un gráfico de dispersión para mostrar la correlación a medias (ítems pares frente a impares). Calcule también el coeficiente de correlación si sabe cómo hacerlo.
- Discusión: Recuerde el último examen universitario que realizó y piense en el examen como una medida psicológica. Qué constructo crees que pretendía medir? Comenta su validez facial y de contenido. ¿Qué datos podría recoger para evaluar su fiabilidad y validez de criterio?
- Cacioppo, J. T., & Petty, R. E. (1982). La necesidad de cognición. Journal of Personality and Social Psychology, 42, 116-131. ↵
- Petty, R. E, Briñol, P., Loersch, C., & McCaslin, M. J. (2009). La necesidad de la cognición. En M. R. Leary & R. H. Hoyle (Eds.), Handbook of individual differences in social behavior (pp. 318-329). New York, NY: Guilford Press. ↵
0 comentarios