La correlación mide la relación entre variables. La correlación no indica causación. La correlación es igual a la covarianza dividida por el producto de las desviaciones típicas. La correlación puede ir de -1 a 1. Las correlaciones de signo negativo indican relación inversa; las de signo positivo, relación directa. Una correlación igual a 0 señala falta de relación. El grado de relación lo da el valor absoluto de la correlación. El cuadrado de la correlación es el coeficiente de determinación, que indica la proporción de varianza explicada de una variable explicada por la otra variable. Estas son las ideas sobre correlación que, probablemente, le quedan a quienes reciben formación estadística básica.
Con este nivel de conocimiento, uno bien puede decir que "una correlación de 0,2 es inútil" (comentario #26). Efectivamente, una correlación de 0,2 significa que una variable sólo explica el 4% de la variabilidad de la otra variable. Caspa, vamos. Entonces, ¿cuánto ha de valer una correlación para que sea considerada como útil? ¿Dónde está el límite?
Veamos esto con un ejemplo de selección de personal. El objetivo de un proceso de selección de personal es reclutar a aquella persona más capaz para desempeñar su trabajo, aquella que más va a aportar a la empresa. Por desgracia, esta información, el valor de una persona para la empresa, no es directamente observable en el momento de la selección. Los estudios señalan que hay correlación entre inteligencia y rendimiento laboral, si bien esta relación no es muy elevada. Pongamos que fuese una correlación igual a ese 0,2 despreciable. Planteémos dos situaciones: la primera, recurrir a pruebas que midan la inteligencia y seleccionar a aquella persona que muestre mayor capacidad intelectual; la segunda, tomar la decisión sobre la base de criterios de nula capacidad predictora del rendimiento (entrevistas mal hechas, grafólogos, lanzar los currícula al aire y seleccionar con el que quede arriba...).
La pregunta, en este caso, será: ¿será la persona seleccionada mediante tests de inteligencia más capaz que la persona seleccionada al azar? Para darle respuesta, he realizado un sencillo estudio de simulación. He generado aleatoriamente dos variables distribuidas normalmente. Mediante algunas restricciones en el proceso de generación de estas variables, he fijado a voluntad la correlación entre ambas. La primera variable la he llamado 'inteligencia' y la segunda 'rendimiento'. He generado procesos de selección con 25 o con 100 candidatos. La selección aleatoria consiste en lo que su nombre indica: coger al azar a cualquiera de los candidatos, obviando la información sobre 'inteligencia'. La selección mediante 'inteligencia' consiste en reclutar a aquella persona que muestra mayor valor en esta variable. He comparado el valor en la variable 'rendimiento' para ambos procesos de selección. Llamáre R-SI al rendimiento de la persona seleccionada por 'inteligencia'. Llamaré R-SA al rendimiento de la persona seleccionada al azar.
Si la variable 'inteligencia' no aportase nada, el valor promedio de R-SI y de R-SA deberían ser iguales. Lo que es lo mismo, la probabilidad de que R-SI sea mayor que R-SA debería ser igual a la probabilidad de que el rendimiento de que cualquier persona tomada, también, al azar fuera mayor que R-SA. Si la inteligencia no aportase nada, p(R-SI > R-SA) tendría que ser más o menos igual a 0,5. (No es exactamente 0,5 porque puede darse el caso de que con ambos procedimientos seleccionase a la misma persona). Para calcular esta probabilidad, he repetido el proceso ficticio de seleccionar personas con ambos métodos 2000 veces. No me he ceñido sólo al valor de correlación igual a 0,2, sino que he probado desde r= 0 hasta r= 1 con saltos de 0,1. Aquí tienen los resultados:

En el eje de abscisas, los distintos valores de correlación. En el de ordenadas, la probalidad de que R-SI sea mayor que R-SA: la probabilidad que el candidato seleccionado mediante inteligencia sea mejor que el candidato que seleccionaríamos si nuestro procedimiento no tuviera ninguna validez, si la selección fuese aleatoria.
Como vemos, los resultados no son coincidentes para los dos tamaños simulados de número de candidatos, si bien la tendencia es la misma en ambos casos. A mayor número de candidatos, más beneficiosa es la selección a través de 'inteligencia'. Veamos, en concreto, los resultados para una correlación igual a ese despreciable 0,2. Para 25 candidatos, la selección mediante 'inteligencia' supera a la selección aleatoria en el 59% de los casos. Para 100 candidatos, la supera en el 62,35% de los casos. Calculando la odds, para el caso de 25 candidatos, por cada vez que la selección aleatoria es igual o mejor que la selección mediante 'inteligencia', la selección mediante inteligencia supera a la aleatoria en 1,44 casos. Para 100 candidatos, el valor de la odds es de 1,66. Esto explicando únicamente el 4% de la varianza. Para una correlación de 0,5, con la que 'inteligencia' explicaría el 25% de la varianza en 'rendimiento', los valores serían los siguientes. Para cada vez que es mejor o igual la selección aleatoria, la selección mediante 'inteligencia' lo es 3,07 y 4,49 veces para los dos tamaños de candidatos disponibles.
Pero, quizá la mejora en la capacidad de selección no tenga ningún impacto relevante en el desempeño de los trabajadores. Lo mismo un trabajador tiene un valor de x y el otro de x más una miseria de nada... Ahora la pregunta sería: ¿cuál la diferencia en el valor que aporta una persona a una empresa según ambos métodos de selección?
Para responder a esto, necesitamos fijar la métrica de 'rendimiento'. 'Rendimiento' seguirá una distribución normal, con media de 500 y desviación típica de 200. Evidentemente, estos valores son arbitrarios. Seguimos con las mismas condiciones de antes, pero ahora se ha repetido el proceso de selección cien veces por condición.
El rendimiento esperado de una persona seleccionada al azar será igual a 500, la media. Vamos a mostrar cuál es el rendimiento que mostrará la persona según la selección mediante 'inteligencia' y el rendimiento del mejor candidato, el de rendimiento máximo. Lo esperable es que, a medida que aumenta la correlación, el rendimiento de la persona seleccionada mediante 'inteligencia' se vaya pareciendo al rendimiento del mejor candidato. Esto es lo que puede verse en la siguiente gráfica:

Varios son los resultados que destacan. El primero, tal y como apuntaba en otro post y tal y como indica el sentido común, cuando uno tiene que elegir, mejor tener mucho para escoger. Los resultados son mejores para la condición de 100 candidatos. El segundo resultado es que, efectivamente, aumentos en la correlación hacen que la selección se aproxime al óptimo. El tercer resultado: la selección mediante inteligencia hace ganar dinero a la empresa, los candidatos así seleccionados son mejores que los candidatos promedio.
Después de todo esto, podemos volver a la descripción de una correlación de 0,2 como inútil. ¿Se mantiene esto en pie? Desde mi punto de vista, no. Al menos, no en este contexto. Una correlación tan baja como esa facilita la selección de personas más competentes y ayuda a la productividad empresarial. ¿Sería recomendable emplear un test de inteligencia para recultar personal? Pese a lo dicho, depende. Será recomendable siempre y cuando el beneficio a encontrar sea superior a los gastos de administración del test. Desde mi punto de vista, no sólo está el beneficio económico, sino también el beneficio en imagen de empresa, puesto que se le da mayor seriedad al proceso de selección.
¿Si hubiera algún otro predictor que tuviera una correlación superior a la que muestra inteligencia con rendimiento, debería dejarse de emplear la inteligencia para orientar en la selección? De nuevo, depende. La inteligencia explica un porcentaje de la variabilidad del rendimiento. Otras variables pueden explicar un porcentaje mayor. La pregunta en este caso es: ¿lo que explica la nueva variable incluye completamente a lo que explicábamos con inteligencia? ¿Está el porcentaje de varianza explicado por inteligencia completamente inscrito en el porcentaje explicado por la otra variable? Siempre que la respuesta sea 'no', lo más probable es que valga la pena utilizar la inteligencia como predictor de rendimiento.
Entonces, ¿por qué se dice que una correlación de 0,2 es inútil? Básicamente por dos razones. Primera, por ignorancia. Segunda, porque un 0,2 está por debajo de las correlaciones que, para muchos contextos, pueden ser consideradas como útiles. Contextos tanto aplicados como de investigación. Pero hay que aprender a diferenciar entre 'en general' y 'siempre'.
Por cierto, ¿saben ustedes cuál es la correlación entre fumar y el cáncer de pulmón o entre tomar aspirinas o el infarto?



