jueves, marzo 22, 2007

¿Qué es una correlación pequeña?

(No sé si me habré sabido explicar, pero yo me he dado el gusto de escribir unas ideas a las que hacía tiempo que les daba vueltas).

La correlación mide la relación entre variables. La correlación no indica causación. La correlación es igual a la covarianza dividida por el producto de las desviaciones típicas. La correlación puede ir de -1 a 1. Las correlaciones de signo negativo indican relación inversa; las de signo positivo, relación directa. Una correlación igual a 0 señala falta de relación. El grado de relación lo da el valor absoluto de la correlación. El cuadrado de la correlación es el coeficiente de determinación, que indica la proporción de varianza explicada de una variable explicada por la otra variable. Estas son las ideas sobre correlación que, probablemente, le quedan a quienes reciben formación estadística básica.

Con este nivel de conocimiento, uno bien puede decir que "una correlación de 0,2 es inútil" (comentario #26). Efectivamente, una correlación de 0,2 significa que una variable sólo explica el 4% de la variabilidad de la otra variable. Caspa, vamos. Entonces, ¿cuánto ha de valer una correlación para que sea considerada como útil? ¿Dónde está el límite?

Veamos esto con un ejemplo de selección de personal. El objetivo de un proceso de selección de personal es reclutar a aquella persona más capaz para desempeñar su trabajo, aquella que más va a aportar a la empresa. Por desgracia, esta información, el valor de una persona para la empresa, no es directamente observable en el momento de la selección. Los estudios señalan que hay correlación entre inteligencia y rendimiento laboral, si bien esta relación no es muy elevada. Pongamos que fuese una correlación igual a ese 0,2 despreciable. Planteémos dos situaciones: la primera, recurrir a pruebas que midan la inteligencia y seleccionar a aquella persona que muestre mayor capacidad intelectual; la segunda, tomar la decisión sobre la base de criterios de nula capacidad predictora del rendimiento (entrevistas mal hechas, grafólogos, lanzar los currícula al aire y seleccionar con el que quede arriba...).

La pregunta, en este caso, será: ¿será la persona seleccionada mediante tests de inteligencia más capaz que la persona seleccionada al azar? Para darle respuesta, he realizado un sencillo estudio de simulación. He generado aleatoriamente dos variables distribuidas normalmente. Mediante algunas restricciones en el proceso de generación de estas variables, he fijado a voluntad la correlación entre ambas. La primera variable la he llamado 'inteligencia' y la segunda 'rendimiento'. He generado procesos de selección con 25 o con 100 candidatos. La selección aleatoria consiste en lo que su nombre indica: coger al azar a cualquiera de los candidatos, obviando la información sobre 'inteligencia'. La selección mediante 'inteligencia' consiste en reclutar a aquella persona que muestra mayor valor en esta variable. He comparado el valor en la variable 'rendimiento' para ambos procesos de selección. Llamáre R-SI al rendimiento de la persona seleccionada por 'inteligencia'. Llamaré R-SA al rendimiento de la persona seleccionada al azar.

Si la variable 'inteligencia' no aportase nada, el valor promedio de R-SI y de R-SA deberían ser iguales. Lo que es lo mismo, la probabilidad de que R-SI sea mayor que R-SA debería ser igual a la probabilidad de que el rendimiento de que cualquier persona tomada, también, al azar fuera mayor que R-SA. Si la inteligencia no aportase nada, p(R-SI > R-SA) tendría que ser más o menos igual a 0,5. (No es exactamente 0,5 porque puede darse el caso de que con ambos procedimientos seleccionase a la misma persona). Para calcular esta probabilidad, he repetido el proceso ficticio de seleccionar personas con ambos métodos 2000 veces. No me he ceñido sólo al valor de correlación igual a 0,2, sino que he probado desde r= 0 hasta r= 1 con saltos de 0,1. Aquí tienen los resultados:



En el eje de abscisas, los distintos valores de correlación. En el de ordenadas, la probalidad de que R-SI sea mayor que R-SA: la probabilidad que el candidato seleccionado mediante inteligencia sea mejor que el candidato que seleccionaríamos si nuestro procedimiento no tuviera ninguna validez, si la selección fuese aleatoria.

Como vemos, los resultados no son coincidentes para los dos tamaños simulados de número de candidatos, si bien la tendencia es la misma en ambos casos. A mayor número de candidatos, más beneficiosa es la selección a través de 'inteligencia'. Veamos, en concreto, los resultados para una correlación igual a ese despreciable 0,2. Para 25 candidatos, la selección mediante 'inteligencia' supera a la selección aleatoria en el 59% de los casos. Para 100 candidatos, la supera en el 62,35% de los casos. Calculando la odds, para el caso de 25 candidatos, por cada vez que la selección aleatoria es igual o mejor que la selección mediante 'inteligencia', la selección mediante inteligencia supera a la aleatoria en 1,44 casos. Para 100 candidatos, el valor de la odds es de 1,66. Esto explicando únicamente el 4% de la varianza. Para una correlación de 0,5, con la que 'inteligencia' explicaría el 25% de la varianza en 'rendimiento', los valores serían los siguientes. Para cada vez que es mejor o igual la selección aleatoria, la selección mediante 'inteligencia' lo es 3,07 y 4,49 veces para los dos tamaños de candidatos disponibles.

Pero, quizá la mejora en la capacidad de selección no tenga ningún impacto relevante en el desempeño de los trabajadores. Lo mismo un trabajador tiene un valor de x y el otro de x más una miseria de nada... Ahora la pregunta sería: ¿cuál la diferencia en el valor que aporta una persona a una empresa según ambos métodos de selección?

Para responder a esto, necesitamos fijar la métrica de 'rendimiento'. 'Rendimiento' seguirá una distribución normal, con media de 500 y desviación típica de 200. Evidentemente, estos valores son arbitrarios. Seguimos con las mismas condiciones de antes, pero ahora se ha repetido el proceso de selección cien veces por condición.

El rendimiento esperado de una persona seleccionada al azar será igual a 500, la media. Vamos a mostrar cuál es el rendimiento que mostrará la persona según la selección mediante 'inteligencia' y el rendimiento del mejor candidato, el de rendimiento máximo. Lo esperable es que, a medida que aumenta la correlación, el rendimiento de la persona seleccionada mediante 'inteligencia' se vaya pareciendo al rendimiento del mejor candidato. Esto es lo que puede verse en la siguiente gráfica:



Varios son los resultados que destacan. El primero, tal y como apuntaba en otro post y tal y como indica el sentido común, cuando uno tiene que elegir, mejor tener mucho para escoger. Los resultados son mejores para la condición de 100 candidatos. El segundo resultado es que, efectivamente, aumentos en la correlación hacen que la selección se aproxime al óptimo. El tercer resultado: la selección mediante inteligencia hace ganar dinero a la empresa, los candidatos así seleccionados son mejores que los candidatos promedio.

Después de todo esto, podemos volver a la descripción de una correlación de 0,2 como inútil. ¿Se mantiene esto en pie? Desde mi punto de vista, no. Al menos, no en este contexto. Una correlación tan baja como esa facilita la selección de personas más competentes y ayuda a la productividad empresarial. ¿Sería recomendable emplear un test de inteligencia para recultar personal? Pese a lo dicho, depende. Será recomendable siempre y cuando el beneficio a encontrar sea superior a los gastos de administración del test. Desde mi punto de vista, no sólo está el beneficio económico, sino también el beneficio en imagen de empresa, puesto que se le da mayor seriedad al proceso de selección.

¿Si hubiera algún otro predictor que tuviera una correlación superior a la que muestra inteligencia con rendimiento, debería dejarse de emplear la inteligencia para orientar en la selección? De nuevo, depende. La inteligencia explica un porcentaje de la variabilidad del rendimiento. Otras variables pueden explicar un porcentaje mayor. La pregunta en este caso es: ¿lo que explica la nueva variable incluye completamente a lo que explicábamos con inteligencia? ¿Está el porcentaje de varianza explicado por inteligencia completamente inscrito en el porcentaje explicado por la otra variable? Siempre que la respuesta sea 'no', lo más probable es que valga la pena utilizar la inteligencia como predictor de rendimiento.

Entonces, ¿por qué se dice que una correlación de 0,2 es inútil? Básicamente por dos razones. Primera, por ignorancia. Segunda, porque un 0,2 está por debajo de las correlaciones que, para muchos contextos, pueden ser consideradas como útiles. Contextos tanto aplicados como de investigación. Pero hay que aprender a diferenciar entre 'en general' y 'siempre'.

Por cierto, ¿saben ustedes cuál es la correlación entre fumar y el cáncer de pulmón o entre tomar aspirinas o el infarto?

14 comentarios:

  1. Francamente, cómo ejercicio de didáctica de estadística elemental, le felicito. Aunque quiero creer que todo eso de “la razón de probabilidad” y la “correlación de Pearson” no será el plato fuerte de la docencia estadística en Psicología. A cualquier apostador de las Vegas en P3 le enseñan eso y mucho más.
    Cómo tampoco quiero creer que la conclusión de su ejemplo “la selección mediante inteligencia hace ganar dinero a la empresa, los candidatos así seleccionados son mejores que los candidatos promedio ”, pueda ser un exponente de la alta tecnología psicológica aplicada a la industria con la que nos sorprende día sí, día también su pujante investigación.
    No creo que sea pedir mucho si Usted, Sr. Topo, conocedor como parece de los entresijos de la psicología científica, me pone un ejemplo claro y distinto (cómo decía otro filósofo, por cierto, muy querido por la psicología llamada cognitiva) de una aportación radical y genuina de la psicología moderna al mundo actual (se lo pongo fácil). Agradecería no contestase con simplezas conductistas y afines, ni que sin Freud no existiría Surrealismo, películas de Hitchcock o puros sospechosos.

    ResponderEliminar
  2. Muy útil, Topo. Por otro lado, si de verdad sabes la correlación entre fumar y el cáncer de pulmón, es para nota. En cualquier caso, tendrías que especificar cuánto se fuma, durante cuánto tiempo, y cosas así.

    ResponderEliminar
  3. Me ha gustado el planteamiento del problema pero hay un factor que a mí me gusta introducir en este tipo de simulaciones: la incertidumbre en los datos de entrada.
    Si no he entendido mal (y si no, disculpas), se asume que el resultado del test de inteligencia mide con la exactitud necesaria la inteligencia.
    Sin meterme en camisas de once varas, supongo que estos resultados que se usan como entrada están afectados por un error o, dicho de otro modo, un sujeto al que se le pasan diversos tests de inteligencia, diferentes y a lo largo de días distintos, no dará siempre el mismo resultado.
    Cuando trabajo con simulaciones introduzco siempre un ruido aleatorio en las entradas para ver hasta qué punto afecta esa incertidumbre a los resultados. Creo que el ensayo sería interesante especialmente para muestras pequeñas como esos 25 o 100 que manejas, donde la probabilidad de cada sujeto de sacar una puntuación "desviada" de la media que supuestamente podría obtener no es despreciable.
    ¿Cómo se haría? Pues introduciendo en los CI resultado de los tests una desviación aleatoria dentro de un rango "razonable". Para fijar ese rango hay que tener datos, claro, pero supongo que se hayan hecho ensayos sobre la robustez de los resultados de los CI.
    Saludos e insisto que en enfoque me parece muy acertado.

    ResponderEliminar
  4. ¡Cómo les gusta jugar a aprendiz de brujo!

    ResponderEliminar
  5. .....y por cierto, para que ponga al día sus conocimientos sobre inteligencia y pueda afinar algo más sus ejemplos, le recomiendo el libro "Inteligencias: una integración multidisciplinar" y "La inteligencia en acción", ambas en Editorial Masson (2001) y ambas del mismo autor, el cual, por cierto, es casi vecino suyo de despacho.
    Investigue....investigue....

    ResponderEliminar
  6. Bullwhip, quizá la psicología no sirva para absolutamente nada. Reconozco que mi posición de profesor universitario me permite dedicarme a inutilidades varios, como satisfacer mi curiosidad intelectual, mejorar las técnicas de evaluación psicológica, intentar que mis alumnos aprendan algo... nada especialmente aplicado. Las bibliotecas de Psicología están llenas de revistas que llevan la palabra Applied en el título, pero no las leo mucho. Lo dicho, quizá la psicología no sirva para nada. Quizá los autistas, los obsesivo-compulsivos, los publicatarios, los profesores, los anoréxicos, los encargados de seguridad vial, los seleccionadores de personal, los padres de niños con problemas de conducta, los cuidadadores de personas con Alzheimer... todos ellos vivieran exactamente igual sin la existencia de la psicología científica. No me voy a dedicarle parte de mi tiempo en argumentar si la Psicología sirve para algo o no. En todo caso, la posible trivialidad de la Psicología no negaría que esta fuera una ciencia.

    Puede parecer que afirmar que incorporar predictores de baja correlación con el criterio es algo adecuado sea algo banal. Lo es, desde luego, pero no todo el mundo lo tiene claro. Para muchos, correlaciones por debajo de 0'3 son tratadas como inútiles. A ellos iba dirigido mi escrito.

    Yo le recomendaría, si quiere profundizar sobre el tema de inteligencia, el libro de Manuel de Juan Espinosa titulado 'Geografía de la inteligencia humana'. Si quiere saber por qué me inclino por este, revise Psyclit o el Web of Science y saque conclusiones.

    ResponderEliminar
  7. Wonka, otro día pongo lo de la correlación entre fumar y cáncer o entre aspirina e infarto, que son ejemplos habituales para ver que correlaciones pequeñas pueden tener alta importancia social. Lo pondré cuando 'oxigene' el blog de tanta estadística.

    ResponderEliminar
  8. Ángel, muy buen apunte el que haces. La correlación que muestro es la correlación entre variables tal y como son medidas. En psicología se distingue entre el ámbito más teórico, donde se quiere conocer la relación entre dos variables si estas estuvieran medidas sin error, y un ámbito más aplicado, donde la pregunta es sobre la relación entre variables medidas con el nivel de error que sea. La primera correlación es mayor que la segunda, claro, puesto que anular el error aumenta la relación. Más adelante haré un apunte sobre cómo la relación teórica puede ir bajando por problemas de medición.

    ResponderEliminar
  9. Venga ya Topo!!!, no me sea ingenuo. Usted sabe, o debería saber que el abanico de las llamadas técnicas psicológicas empleadas con autistas o alzheimer, por ponerle dos de los ejemplos que usted cita, la intervención psicológica no sirve absolutamente para nada de nada(a sus Psyclits y Medlines me remito. Por si fuera poco, las susodichas técnicas se pueden contar con los dedos de una mano, tirando largo, y son, además de los más obvio.
    Ya que le gustan los datos (refugio de los psicólogos tecnócratas, le diré que un colegio de psicólogos del país (le dejo a usted, que tiene tanta curiosidad y ansia de conocimiento la búsqueda en Internet de la información), realizó un estudio hace unos años sobre el grado de utilización de las revistas de psicología aplicada (imagino que la que no es aplicada, debe ser metafísica, especulativa o pseudo-matemática)por parte de sus psicólogos colegiados, pues el bien el 85% de los que respondieron a la encuesta no utilizaban - ni leían- nunca o casi nunca los estudios "científicos" (perdón de nuevo)publicados en esas revistas. Los motivos, no les servían para nada, no aportaban información relevante a su práctica diaria y eran considerados cómo meros ejercicios de estilo académico.
    No sé que debe usted explicar a sus estudiantes, pero pienso que debe hacer un esfuerzo titánico para convencerles de las bondades de la psicología (también es cierto que a los estudiantes de psicología les "cuela" casi todo). Le veo a usted en pleno ejercicio de sofística haciendo comulgar a sus estudiantes con ruedas de molino, utilizando un falso lenguaje científico para complicar lo simple.
    Pregúntese con que se queda y que sabe un licenciado (mejor, licenciada) en psicología al cabo de una año de finalizar los estudios, y verá lo estéril de su labor.
    Por último, la referencia sobre Inteligencia que Usted menciona es más vieja que andar a pie, los trabajos de Sternberg (que apadrina al autor del libro)han dejado de tener interés hace mucho tiempo (sobre todo a partir de la pataleta que le dio al hombre cuando se publicaron los estudios sobre genes e inteligencia ).
    Y no, no defienda la utilidad de la Psicología, no le fuera a dar una disonancia cognitiva grave.
    Un saludo!!!

    ResponderEliminar
  10. Ustedes dos ya les hace falta salir un poco, parecen enamorados de su intelecto y no lo aprovechan en cosas utiles, ya quisiera yo tener la capacidad de razonamiento que tiene el profesor de la universidad. fue divertido leer su novela pero le sugiero que no gasten esfuerzos en eso y lo hagan util

    ResponderEliminar
  11. Muy interesante, sí. Me gustan este tipo de pruebas.

    P.D. ¿Con que software haces números y preparas las figuras?

    ResponderEliminar
  12. Hola, Kiko. Los números salen de una macro sencillita de Excel, lo mismo que los gráficos. Los valores pueden obtener analíticamente, pero cuando uno prueba el mundo de las simulaciones ya le coge vicio. ¿Con qué sueles hacer tú tus gráficas? (He mirado tus artículos y, entender, no entiendo nada, pero son muy bonitos). ;-)

    ResponderEliminar
  13. ing. javier
    me gusta este devate la verdad yo no estudio la psicologia pero me interesa mucho,y siento que es algo muy intesante saber cuales seran las probabilidades de que un psicologo tenga la mayor razon de los problemas de un ser humano o en cual se distingue espero tenga una respuesta gracias a todos

    ResponderEliminar
  14. Que pena Sr.Bullwhip que usted piense que la Psicoloia no sirve, le recomiendo la estudie o investigue más a fondo y se va a encontrar con una persona nueva, va a aprender para que sirve porque si se fija el mundo está así por personas como usted que parece que no se interesan en lo obvio, escuchar a los demás y ayudarlos como con técnicas terapeúticas, utilicelas las de relajación van muy bien.

    ResponderEliminar