sábado, diciembre 20, 2014

Selección de profesorado universitario: ¿Pronosticar desempeño o contar méritos?

Imaginemos que usted quiere seleccionar a un delantero para su equipo de fútbol, actualmente en puestos medios en la liga comarcal. El contrato que va a ofrecer es de cinco años. Dos son los candidatos. Manolinho lleva diez años en el mejor equipo de la comarca. La temporada pasada saltó al campo todos los partidos y anotó cincuenta goles. Celebrando el ascenso de categoría, se cayó del tractor con el que el equipo hacía ruta festiva por el pueblo. Le pasó el vehículo por encima y ahora, lo que para usted o para mí es un único hueso, el fémur, para él son unos mil huesecitos bien pequeños. El otro candidato es Pepinho, un chico de 20 años salido de un equipo con puestos más bajos en la tabla. Se incorporó a la liga a mitad de temporada y consiguió anotar quince goles. Cuando el médico del pueblo quiere poner un ejemplo de alguien en sano y 'en perfecto estado de revista', habla de Pepinho. ¿A quién contrataría usted?

Contratación desde la perspectiva de la universidad
Claramente, hay que contratar a Manolinho 'el Cojo'. Tiene más experiencia, más títulos y mejores resultados anotadores. La decisión está clara.

En la selección de profesorado universitario, en el mejor de los casos, se define un baremo y se puntúa a los diferentes candidatos en relación a él. De nuevo en el mejor de los casos, el baremo es suficientemente claro como para poder garantizar una alta fiabilidad interjueces (con independencia de quienes puntúen, los resultados serán altamente similares). Los méritos suponen un recuento de lo hecho en el pasado, donde todo suma, y las condiciones de partida del candidato son triviales para la valoración.

En este caso, Manolinho ha de ser el seleccionado, con independencia de que: (a) su mejor rendimiento goleador pueda explicarse, al menos parcialmente, por jugar en un mejor equipo y por haberlo hecho durante más minutos; (b) el rendimiento de un jugador sea decreciente a partir de una cierta edad, por lo que muy probablemente este jugador está ya en la cuesta abajo de su carrera; y (c) su situación física implica que su desempeño pasado va a sobreestimar su desempeño futuro.


Contratación desde la perspectiva del pronóstico del desempeño
Desde este punto de vista, uno asume que el pasado es una  herramienta para anticipar el desempeño futuro. Con esto es mente, sería mucho más razonable contratar a Pepinho, a quien les quedan, esperemos, años en activo y de progresión, y que bastante bien lo ha hecho considerando dónde y cuánto ha jugado.

En el caso universitario, el primer paso, y no es tarea sencilla, sería consensuar qué entendemos por desempeño en la universidad. Por simplificar, dividiré en dos áreas, investigación y docencia, sin negar la importancia de la gestión y la transferencia.

El mérito investigador se puede contar como número de publicaciones, índice H, número de citas, puntos de impacto acumulados, evaluación por expertos de calidad... y otros tantos modos que podamos pensar. Llamémoslo MI, sin más. El MI futuro es, claro, desconocido. Para pronosticarlo, tendríamos que pensar un modelo de regresión tal que:

MI(pronosticado) = b0 + b1X1 + b2X2 + ... + bnXn

A la hora de pensar qué variables incluir, muy posiblemente la primera candidata sería relativa a las publiciones.


MI(pronosticado) = b0 + b1Publicaciones


Todos acordaríamos que el coeficiente correspondiente a esta variable tendrá signo positivo, esto es, a más publicaciones (número, calidad, impacto... como quiera que lo operativizáramos) en el pasado, mejor MI podemos esperar una vez contratado.



Pasemos a un segundo mérito posible. Por ejemplo, estancias en el extranjero. Ahora el modelo sería:


MI(pronosticado) = b0 + b1Publicaciones + b2Estancias


Ahora mismo, lo estándar en las comisiones de selección es que las estancias sean puntuadas favorablemente. Visto desde un modelo de regresión, la interpretación cambia. El valor del coeficiente b2 se interpreta como, a igualdad de publicaciones (y esto es fundamental), ¿cuál es el efecto esperado en el MI por cada unidad de estancia (número, meses...) adicional? Esta explicación puede quedar más clara si imaginamos a dos personas igualadas en todos los predictores salvo en el que queremos valorar en este momento. Yo he ido a Harvard diez veces y tengo quince artículos. Usted no ha salido de la Universidad de Alpedrete en la vida y tiene quince artículos. ¿De quién cabe esperar mayor desempeño investigador en el caso de ser contratado por una nueva universidad? De quien sin tener el viento a favor ha conseguido mismo resultados que quien ha disfrutado de mejores condiciones. Por tanto, en términos de modelo predictivo, el coeficiente asociado a las estancias tendría que ser negativo.

Lo mismo puede decirse de otros tantos indicadores comúnmente empleados, como los proyectos financiados, las becas disfrutadas o las tesis dirigidas. En tanto que son instrumentos para conseguir rendimiento investigador, a igualdad de productividad, son más bien deméritos que no méritos.

¿Implica esto que haya que rechazar salir al extranjero? No. Signfica que, como oportunidad para hacer contactos, establecer colaboraciones y aprender, sólo tienen valor si se traduce en los verdaderos outputs investigadores. Salir un año a Canadá a aprender inglés y volver sin ningún artículo (frente a una persona así perdí yo una plaza) no puede tener valoración positiva. Conseguir un proyecto de cinco millones de euros para sacar tres artículos, cuando otros consiguen eso sin financiación, no puede ser un mérito que te abra las puertas a conseguir ascensos o más proyectos que malgastar.

Veamos ahora el caso del mérito docente (MD), donde también encontraremos resultados paradójicos. Lo estándar es que los méritos docentes se valoren 'al peso', simplemente número de horas o créditos de docencia impartidos. A veces, se añade como criterio la puntuación obtenida en las encuestas de valoración contestadas por el alumnado. En ocasiones, se añade un desprecio a la docencia impartida en grado, de tal modo que la docencia en másteres puntúa más.

El pequeño gran problema es que la experiencia docente es un predictor esencialmente nulo, sino negativo, de la calidad docente. H. W. Marsh (1991) ofrece datos de una calidad excepcional para valorar esto. Del resumen:
Students' evaluations of teaching effectiveness (SETEs) are weakly related—negatively—to teaching experience and age according to Feldman's (1983) comprehensive review of cross-sectional studies. Cross-sectional studies, however, provide a weak basis for inferring the future ratings of less experienced teachers or the past ratings of more experienced teachers. Considered here are ratings of 6024 classes taught by a diverse cohort of 195 teachers representing 31 academic departments who were evaluated continuously over a 13-year period using the same multidimensional Students' Evaluations of Educational Quality instrument. For both undergraduate and graduate level courses, there were almost no changes over time for any of the nine content-specific dimensions, the overall course rating, or the overall instructor rating. The findings were consistent for teachers who had little, moderate, or substantial amounts of teaching experience at the start of the study. These results are important because this is apparently the only study to examine the stability of faculty ratings using a longitudinal design with a large and diverse group of teachers over such a long period of time.
Por ello, el número de años de experiencia docente es irrelevante en la predicción del mérito docente futuro. (Es posible encontrar estudios donde la experiencia se asocia con mejores y con caídas del desempeño docente. Por ello, considero que considerar la relación como nula es lo más conservador).

En otros casos, como decía, se valora la puntuación en las encuestas administradas al alumnado. En el caso de la Universidad de Zaragoza, por ejemplo, según el Boletín Oficial de Aragón de 16/03/2011, "la obtención de una evaluación negativa no será causa de exclusión del candidato, pero los cursos evaluados negativamente no se valorarán." Como he comentado en un post anterior, en la UZ es casi imposible conseguir una evaluación negativa, dado que el modo de construir la prueba y de interpretarla están pensados para que todos los profesores salgamos bien en la foto.

Por tanto, si uno es realmente, realmente malo, no le contará la experiencia docente. Eso significa que si yo, profesor nefasto, me presento a una plaza y también lo hace usted, candidato sin experiencia, ambos conseguiremos la misma puntuación en este apartado. Pero a un candidato sin experiencia, el mérito docente que cabe pronosticarle no es de cero, sino un mérito docente promedio. (En Estadística, cuando no hay pronosticadores o éstos son inútiles, el valor esperado es la media de la variable. Si ahora entra una persona por la puerta y yo no sé nada de ella, esperaré que mida como 1.70 metros, más o menos, porque la media es la mejor apuesta cuando no tenemos información). Por ello, es de esperar que un candidato sin experiencia sea mejor que un profesor que sabemos claramente que es malo.

Veamos otros méritos comúnmente computados. Por ejemplo, participación en proyectos de innovación docente. Cuando lea alguna investigación bien diseñada que muestre que la participación en estos proyectos tiene impacto en la actividad docente, me creeré que tengan que valorarse. E, incluso ahí, si estos proyectos mejoran la actuación docente, ya se verá eso en las encuestas de evaluación. Computar tanto medios como resultados es premir por duplicado y no penalizar cuando los medios no resultan efectivos.

Considero que lo razonable, cuando se selecciona a alguien, es plantearse en qué medida ese persona podrá hacer frente de manera solvente a sus próximas responsabilidades y tareas. El sistema actual de contratación en la universidad (incluso si obviamos el mafioseo y la endogamia) está centrado en contar méritos pasados. Una selección más razonable requiere de un modelo de regresión (empírico o teórico) donde uno se plantee qué hace esperar un mejor desempeño, qué criterios son redundantes y no han de ser incorporados, y qué elementos están más cerca de ser un demérito que un mérito, cuando uno ya ha contabalizado el resto de aspectos.

lunes, diciembre 15, 2014

Francisco Mora, el neuroeducador con problemas de adanismo

En los últimos años, el profesor Francisco Mora Teruel se ha convertido en una de los opinadores de referencia en España sobre cuestiones educativas. Se ha convertido en uno de los grandes defensores de la 'neuroeducación', con un libro con ese mismo título. Esto supone una presencia frecuente en medios de comunicación (p.ej., aquí) y eventos educativos (p.ej., aquí). En febrero de este año lo entrevistaban para un blog de El País, donde se descolgaba con esta frase.

Esto me llevaba al siguiente intercambio de tuits con el profesor Mora:



Y ahí se acababa el diálogo. Parece ser que para el Sr. Mora disciplinas científicas como la pedagogía o la psicología, con décadas de recorrido, no han ofrecido nada, que hasta la llegada de la neuroeducación no sabíamos nada sobre educación, sobre cómo potenciar el aprendizaje y cómo explicarlo. Desde mi punto de vista, ahí hay un serio problema de adanismo educativo.

martes, diciembre 02, 2014

¿Por qué denunciar la situación de la Universidad española?

¿Por qué, como académicos, hemos de denunciar las miserias de la Universidad española?
  • Por ética:
    • Con los externos a la universidad o la sociedad en su conjunto: En un amplio porcentaje, el dinero público es el que nutre los presupuestos de las universidades. Podemos pensar que el dinero público no es de nadie o, mucho mejor, que el dinero público es de todos. Cada euro que se invierte en la universidad no se invierte en otros fines socialmente relevantes. Hemos de ofrecer la mejor univesidad posible para la sociedad que nos financia. Como universitarios, no "tenemos derecho a dinero", sino que la sociedad ha optado por entragárnoslo, bajo el supuesto de que obtendremos el mayor rendimiento del mismo.
    • Con los relacionados con la universidad: Hay gente muy buena que se queda fuera (fuera de un puesto de trabajo como docente, fuera de conseguir financiación para la investigación...) y hay gente muy mala que está dentro. En la medida en la que consigamos reducir estas dos disfunciones, que no puedo cuantificar sobre el total de profesorado universitario, estaremos generando un sistema más justo y que ofrecerá un mejor servicio. Cuando uno concede una plaza a un candidato con un currículum peor que otro, está quebrando el plan de vida del segundo injustamente y se nos tendría que caer la cara de vergüenza por ello.
  • Por estrategia:
    • Institucional: La situación, creo, es bien sencilla, o limpiamos la casa nosotros o vendrán de fuera y nos enchufarán la manguera de agua a presión. E iremos a peor. Con la situación económico y social actual, todo está ahora mismo bajo lupa. Ha llegado el turno de la universidad. Teníamos mucha basura y ahora está saliendo a la luz. O realizamos una demolición controlada de las viejas estructuras que dan problemas o nos bombardearán sin piedad y sin planos para nuevas estructuras.
    • Social: Cada vez que se ataca a la universidad pública, se ataca, por generalización, a lo público. Como trabajadores de universidades públicas, no sólo representamos a nuestra universidad, sino, parcialmente, a lo público. No denunciar lo que necesita cambio en la universidad es ayudar a que se entornen las puertas de servicios públicos básicos.
    • Personal:  Si uno es un profesional de valía, de los muchos que hay en la universidad, comprometido con docencia, investigación, gestión y transferencia, va a ganar con la mejora de la institución. Trabajar con vagos e incompetentes reduce la satisfacción laboral y la productividad. Lo mismo, con los cambios oportunos hasta conseguiríamos tener un sueldo coherente con la formación y especialización que aportamos.
¿Por qué no hemos de denunciar la situación?
  • Por estrategia:
    • Institucional y social: Ciertos partidos políticos y parte de la sociedad parece que han sacado el hacha, dispuestos a recortar, sin especial priorización, lo público. En la medida en la que con nuestra denuncia les demos argumentos, estaremos disparando contra nosotros mismos.
    • Personal: En la universidad se valora el perfil bajo. Para promocionar, lo que uno necesita es situarse en la cola, que ésta ya irá avanzando hasta llegar a uno. Uno de los motivos claros para salir de esta cinta transportadora conocida como carrera académica es hablar de más. Así que, una vez medio situado y con el puesto claro en la fila, ¿para qué hablar? El futuro está claro, el funcionariado, aunque eso lleve años. ¿Qué nos espera si cambia el sistema? A saber. ¿Y quién quiere incertidumbre?

sábado, noviembre 29, 2014

La relación entre estatus de peso percibido e IMC varía según edad y sexo

Es impresión común el considerar que, en general, el ganar edad se traduce también en ganancia de peso. Para ver en qué medida hay apoyo para esta idea vamos a recurrir a los datos de la Encuesta Nacional de Salud 2012. Ahí se pregunta se pregunta a varios miles de encuestados con una edad mínima de 15 años, en entrevista domiciliaria y representativa a nivel de país, sobre su altura y peso, dentro de una gran batería de preguntas¹. Con un sencillo modelo de regresión, podemos ver el índice de masa corporal (kilos / metros^2) estimado según edad y sexo. (Seleccionamos únicamenta a mayores de edad para éste y el resto de análisis).



Para poder interpretar este gráfico, es oportuno recordar los puntos de corte recomendados por la Organización Mundial de la Salud para transformar el índice de masa corporal² en categorías de estatus nutricional. Estos puntos de corte son iguales a lo largo de toda la edad adulta y no difieren según sexo:
- Por debajo de 18.5 kg/m^2, infrapeso.
- Entre 18.5 y 25, normopeso.
- Entre 25 y 30, sobrepeso.
- Por encima de 30, obesidad.

Mirando el gráfico, vemos cómo:
- El IMC pronosticado para personas jóvenes se sitúa, aproximadamente, en el punto de corte entre el normopeso y el sobrepeso.
- El IMC que esperamos encontrar aumenta con la edad, y este incremento paulatino es más marcado para hombres que para mujeres.
- Para cualquier edad, el IMC pronosticado para los hombres es mayor que para las mujeres. En coherencia con el punto anterior, la diferencia en IMC esperado entre hombres y mujeres crece con la edad.

En la Encuesta Nacional de Salud se le pregunta a la gente no sólo por su peso y altura, sino también por su percepción: "En relación a su estatura, diría que su peso es:
- Bastante mayor de lo normal
- Algo mayor de lo normal
- Normal
- Menor de lo normal"

Tenemos, así, el IMC autoinformado y el estatus de peso percibido. Podemos plantearnos para cada valor de IMC cuál es la probabilidad de situarse en cada uno de los diferentes niveles de peso percibido. Puesto que hombres y mujeres difieren en sus IMC promedio y éste cambio según la edad, es esperable la edad y el sexo sean variables relevantes a la hora de explicar la percepción de peso. Para poner a prueba esta idea, ajustamos un modelo de regresión logística multinomial, con estatus de peso percibido como variable dependiente y, como independientes, sexo, edad e IMC.

En la siguiente gráfica representamos las probabilidades de considerarse en cada uno de los cuatro estatus de peso percibido, para hombres y mujeres de 25 y 55 años. Ya que la edad es una variable continua, es necesario fijar un par de valores (arbitrarios) para poder representar gráficamente la relación:


¿Qué podemos ver aquí?
- Lo más evidente, que según vamos incrementando el IMC va subiendo el nivel de estatus de peso percibido en el que es más probable situarse.
- El IMC a partir del cual una persona empieza a considerarse con un peso bastante mayor del normal está marcadamente por encima de 30, el punto de corte de la OMS  para definir la obesidad.
- En general, a mayor edad, las líneas se desplazan hacia la derecha. Esto es, los IMC de corte para pasar de considerarse con algo de peso de más o bastante peso de más van siendo valores más altos.
- Para las mujeres, las líneas se situán a la izquierda de las líneas de los hombres. Esto es, pese a que para la OMS no hay diferencia por sexo en cómo categorizar los IMCs, las mujeres necesitan un IMC menor que los hombres para considerarse con sobrepeso. O, visto por el otro extremo, se consideran con un peso normal hasta IMCs más bajos que los hombres, antes de pasar a considerar que pesan de menos.

Por tanto, tenemos que las líneas de probabilidades de autodescripción son cambiantes según sexo y edad. Para poder ver este patrón de resultados, vamos a representar la gráfica que marca los diferentes puntos de corte entre las líneas. Los puntos de corte de IMC nos indican a partir de qué valores de IMC pasa a ser más probable considerarse en un determinado nivel de peso percibido en comparación con su nivel adyacente.


Aquí vemos lo anteriormente comentado con mayor claridad:
- Los puntos de corte van aumentado con la edad.
- Para las mujeres, estos puntos de corte están por debajo que para los hombres.
- El punto de corte que diferencia entre peso por debajo del normal y peso normal viene a corresponderse con el punto de corte de la OMS para señalar el infrapeso
- También lo hace, aunque en menor medida, el punto que marca el cambio entre peso normal y peso algo mayor del normal con IMC que según la OMS señala el paso al sobrepeso. Para los hombres mayores, tienden a considerarse como con algo de peso por encima del normal cuando según la OMS ya están bastante cerca de la obesidad.
- Importantemente, el punto de corte entre tener algo de peso de más y bastante peso de más se sitúa muy por encima de un IMC de 30, la frontera entre el sobrepeso y la obesidad. Se sitúan más bien en donde la OMS corta entre obesidad clase I y obesidad clase II.

Por tanto, si bien cabe esperar que vayamos ganando peso con los años, esto tiene un efecto limitado sobre nuestra percepción de estatus de peso, dado que vamos acomodando, correspondientemente, los puntos de corte. En general, a igualdad de IMC, las mujeres tienden a atribuirse un estatus de peso percibido superior al de los hombres. La frontera para estimar que tenemos bastante más peso del normal está muy por encima de punto en el que la OMS señala el comienzo de la obesidad.

En un futuro post espero poder discutir por qué la preocupación por el peso y el IMC son entre una tontería y contraproducentes y cómo estos datos cuadran con lo que sabemos sobre la relación entre el IMC y la salud.

Por cierto, si alguien se anima a convertir este pequeño post en un artículo científico, será muy bien recibido. Aquí hay material para ello, diría yo.

¹ Gran batería de preguntas en la que la salud mental ocupa un papel mínimo, del que se puede deducir sin demasiado problema la relevancia de este campo para el Ministerio de Sanidad.
² Estos puntos de corte tienen sentido a nivel epidemiológico, no individual. El estatus nutricional de una persona no puede determinarse considerando únicamente su IMC.

domingo, noviembre 23, 2014

Endogamia universitaria por decreto. El caso de la Universidad de Zaragoza.


Imagine que es usted profesor Ayudante Doctor o Contratado Doctor en la Universidad de HFG, donde ha conseguido, gracias a su esfuerzo y capacidad, un excelente currículum. Lamentablemente, le acaban de diagnosticar usted una enfermedad rara. Como tratamiento, parece que lo mejor son baños regulares en las aguas del Ebro. Por ello, una buena idea sería cambiar a la Universidad de Zaragoza. Revisando la página web¹ con las plazas disponibles, ve que está a tiempo de presentar los papeles para una convocatoria en su área de conocimiento de Contratado Doctor. Tirando de Google, ve que, tal y como era previsible, todo apunta a la presencia de candidato interno.

Para saber bien en qué terreno se mueve, consulta la normativa que regula la normativa de acceso. Para ello, se va a los Estatutos de la Universidad de Zaragoza. Ahí lee:
Artículo 147. Proceso de selección de profesorescontratados doctores
1. El proceso de selección de los profesores contratados doctores para el desarrollo de tareas de docencia e investigación se realizará conforme a lo previsto para la selección de profesores titulares.
Tal y como suele ser habitual en estos textos, 'rebota' hacia otro artículo:
Artículo 141. Criterios para resolver los concursos de acceso
2. El proceso de selección de los profesores titulares constará de dos pruebas:
a) La primera prueba consistirá en la exposición y debate del currículo, del proyecto docente, que  incluirá el programa de una de las materias o asignaturas de las que el área de conocimiento de que se trate tiene asignadas en el centro al que inicialmente se adscribe la plaza, y del proyecto investigador del candidato.
b) La segunda prueba consistirá en la exposición por el candidato, y posterior debate con la comisión, de un tema del programa presentado y elegido por aquél.

Nada anómalo, por el momento: exposición del CV, proyecto docente, proyecto investigador y tema. Pero sigue usted buceando por la normativa, hasta llegar a las disposiciones transitorias:
Disposiciones transitorias. Octava. 6.
Las plazas de profesor funcionario, profesor contratado doctor, profesor ayudante doctor o profesor colaborador convocadas conforme al apartado anterior se proveerán en la forma establecida en la normativa general de universidades y en estos Estatutos. En los procedimientos selectivos que se convoquen conforme a esta disposición, las comisiones de selección de profesorado contratado valorarán especialmente como mérito los servicios prestados a la Universidad de Zaragoza como personal docente e investigador, en los términos que señalen las correspondientes convocatorias de acuerdo con los criterios generales que establezca el Consejo de Gobierno.
Vaya. Esto ya empieza a tener malo pinta. Los méritos generados en la UZ puntúan más para la UZ. ¿Cómo encaja esto con el Artículo 103.3 de la Constitución Española, donde se habla de "acceso a la función pública de acuerdo con los principios de mérito y capacidad"?

Viendo cómo sus opciones migratorias se reducen y con el ánimo bajo, prosigue con su revisión sobre procedimientos. Llega a la Normativa reguladora de los concursos para la provisión de plazas de profesorado contratado por procedimiento ordinario, documento fechado en mayo de 2014. Ahí se aclara en qué consiste la valoración especial de ser candidato de la casa.
Disposiciones transitorias. Segunda. Valoración singular de los servicios prestados a la Universidad de Zaragoza en concursos a plazas de profesor contratado doctor y profesor colaborador
1. En las concursos correspondientes a las transformaciones de plazas a los que les sea de aplicación la disposición transitoria octava de los Estatutos de la Universidad de Zaragoza, las correspondientes comisiones de selección valorarán especialmente como mérito los servicios prestados en la Universidad de Zaragoza como personal docente e investigador, de acuerdo con lo establecido en los párrafos siguientes. Esa valoración afectará a la primera prueba.
2. En la primera prueba, la aplicación de los criterios adoptados por la comisión de selección, supondrá para cada candidato una puntuación denominada P1.
3. Además, a cada candidato se le calculará el valor V = 0,4 x P1 x n/N, siendo n el número de años con servicios prestados a la Universidad de Zaragoza como personal docente e investigador con dedicación a tiempo completo, y N el valor máximo de entre los candidatos que concurren, con un valor mínimo de cinco. Para fracciones de tiempo inferiores a un año o de dedicación a tiempo parcial se aplicarán reglas de proporcionalidad.
4. La valoración de los servicios prestados en la Universidad de Zaragoza se realizará sin perjuicio de la que se efectúe por otros conceptos que, aun que correspondan temporalmente a ese período, tomen en consideración otros criterios.
- La puntuación final de la primera prueba (P2) será la suma de P1 y V.
- Esta primera prueba valdrá, al menos, el doble que la segunda.
Traducido. Si un candidato interno lleva al menos cinco años trabajando en la Universidad de Zaragoza, su valoración en el primer ejercicio de dos (y este primer ejercicio ha de contar, al menos, el 67% de la puntuación final) se verá incrementada en un 40%. En el caso de haber varios candidatos internos o llevar menos de cinco años, se especifica la fórmula a aplicar.

Llegados a este punto, usted, probablemente, habrá descartado por completo la idea de presentarse a una plaza para la que no tiene ninguna opción. Le sorprenderá enormemente la desvergüenza de la Universidad de Zaragoza de publicar normativa descaradamente favorable hacia la endogamia. Pero, recapacitando, verá que tampoco es tan grave. Nadie en su sano juicio se presenta a una plaza que no es "su" plaza. Ganas innecesarias de pasar un mal trago para no conseguirla. Luego, ¿para qué regular la endogamia cuando ésta ya se produce sin hacer el ridículo en los boletines oficiales?

¹ ¿Algún día creará el Ministerio una página web donde se publiquen todas las plazas convocadas y obligará a las universidades a enviar información sobre cada nueva plaza? Buscar trabajo de profesor universitario fuera de tu universidad de origen supone estar revisando semana a semana unas 50 páginas web, habitualmente no demasiado fáciles de encontrar.

miércoles, noviembre 19, 2014

Los que nos preocupó y ya no y lo que nos preocupa en España

Una de las preguntas habituales del CIS en sus encuentas pide a los encuestados su opinión sobre los tres principales problemas de España. Aquí tienen los datos desde mayo de 1985 hasta octubre de 2014. Esto nos permite ver la evolución sobre lo que nos preocupó y ya no... (en el eje de las Y el porcentaje de encuestados que sitúa cada tema entre sus tres temas prioritarios)


... y la evolución de los temas que ahora consideramos como los principales problemas de España.

martes, noviembre 11, 2014

Demasiados psicólogos. Empleabilidad de los estudiantes de Psicología.

Estudiar Psicología es un mal invento en términos de empleabilidad.

Según Hernández (2003), en el curso 2003-2004 se podía estudiar la licenciatura de Psicología en España en 31 universidades. Veamos lo que ya se decía en el año 2005 en el Libro Blanco del Título del Grado en Psicología (PDF).
A pesar de la elevada demanda social de la profesión de psicólogo, el volumen de estudiantes y profesionales de la Psicología en España, es claramente superior a las posibilidades de inserción laboral. Esta desproporción deriva en gran medida del hecho de que, siendo una titulación demandada y popular, se ha considerado por parte de las autoridades educativas que no requería grandes inversiones en recursos humanos, docentes y de servicios o en recursos materiales. Ello ha convertido a la Licenciatura en Psicología en una titulación política, social y económicamente rentable. Hemos asistido así a la proliferación de Centros con estudios de Psicología en las universidades españolas que, además, han soportado históricamente una fuerte demanda de estudiantes de nuevo ingreso. Ni lo uno ni lo otro ha ocurrido normalmente en el resto de Europa. Por tanto, consideramos que ha llegado el momento de poner límite tanto a la creación de nuevos Centros con estudios de psicología como al número global de estudiantes que acceden a los mismos, teniendo en cuenta los recursos disponibles en cada Universidad. En consecuencia, se recomienda disminuir de forma significativa el número de alumnos que acceden a la Titulación de Psicología, en el conjunto de las Universidades españolas.
En contradicción con este mensaje, el número de universidades donde se puede estudiar Psicología ha aumentado hasta situarse en 45 durante el curso 2013-2014 (datos del MECD). Una parte importante de este incremento en la oferta se puede explicar por la proliferación de universidades privadas y a distancia, pero no por completo. Desde la redacción del Libro Blanco se han abierto estudios de Psicología en las universidades públicas de Cádiz, de Lérida, Rey Juan Carlos, de Zaragoza... La base de datos desde el curso 2008-2009 hasta el curso 2013-2014 puede consultarse aquí (libro Excel).

En coherencia con el aumento en la oferta de universidades donde cursar Psicología, ha aumentado también el número de estudiantes y, con ello, de egresados. Veamos los datos para el periodo 2008-2009 a 2013-2014. (Aquí no he considerado las dobles titulaciones, pocas y con pocos alumnos, que incluyen Psicología).


Nada de esto sería problemático si la expensación en la oferta de Psicología se correspondiera con una alta empleabilidad de quienes reciben esta formación. Lamentablemente, no parece ser el caso. El mes pasado el MECD hizo públicos los resultados principales del informe de Inserción Laboral de los Estudiantes Universitarios (PDF del PowerPoint de presentación). Siguiendo la mejor tradición en la política de transparencia, el informe original no se puede consultar todavía. Fiándome de los datos ofrecidos por El País, y sin poder entrar a valorar la metodología y no saber bien qué se mide, encontramos estos resultados (hoja Excel aquí):


Los titulados en el curso 2009-2011 en Psicología afiliados a la Seguridad Social en marzo del año 2014 se quedaban en 61%. Es importante tener en cuenta que aquí no se diferencia según características del puesto de trabajo. Lo cual sitúa a Psicología en un discreto punto medio, entre las titulaciones con mejores y peores opciones laborales, según informaron los periódicos (p.ej., El País).

En julio de este año, la AQU (Agencia para la Calidad del Sistema Universitario de Cataluña) publicaba otro informe de empleabilidad (PDF). Asumiré que la situación catalana y del resto de España no es muy diferente a este respecto. El informe permite una comparativa más fácil y completa entre áreas. Lamentablemente, aquí tenemos fundidos los resultados para Psicología y Pedagogía, aunque en los anexos pueden revisarse los datos en mayor detalle. En la página 79 del PDF se puede encontrar la definición de cada uno de los indicadores. Las flechas rojos indican que el área se sitúa peor de lo esperable si el tipo de estudios fuera trivial, la amarilla señala que no hay efecto y la verde que se encuentra por encima de lo esperable. Como puede verse, Psicología y Pedagogía acumulan flechas rojas, consiguen pocas amarillas y ninguna verde.


Por tanto, tenemos que Psicología es una titulación con más alumnos de los que se pueden colocar, sobre la que se han lanzado mensajes claros de reducir el número de estudiantes desde hace casi una década y sin voluntad universitaria por hacer caso a estos mensajes.

¿La parte positiva? En el informe de la AQU, se le pregunta a los entrevistados si volverían a escoger los mismos estudios si tuvieran que empezar de nuevo su recorrido universitario. Entre los psicólogos, el 75.25% dijo que sí, que se mantendría con su opción de Psicología. En general, quien estudia Psicología demuestra, desde el comienzo, ser más bien insensible a la empleabilidad y se mantiene así a lo largo del tiempo.

En otro post escribiré por qué está situación es imposible que se solucione desde la propia universidad.

lunes, octubre 27, 2014

Gasto por alumno y regresiones

Hasta donde sabemos, en España los alumnos de centros concertados presentan un mejor rendimiento educativo promedio (evaluado por pruebas como PISA o las propias del Instituto de Evaluación) que los alumnos de centros públicos. Si tenemos en cuenta que el estatus socioeducativo del alumnado varía según titularidad de los centros, esto resulta esperable. Una vez controlado el efecto de este estatus (ponga una regresión en su vida), la diferencia se neutraliza o se hace mínima, dependiendo del estudio que uno revise.

Luego la preferencia por un tipo de centro u otro no puede justificarse, hasta donde sabemos, por el rendimiento. El rendimiento, y repetimos la idea, medido por pruebas como PISA, y aceptando que ese rendimiento no agota todos los fines exigibles a la educación. Desechado ese argumento, otro modo de fundamentar nuestra preferencia por un tipo de centros u otros puede ser el económico.

Si cerráramos todos los colegios públicos, ¿ahorrarían las Comunidades Autónomas dinero? No es una pregunta menor. Según la respuesta que le demos, estaremos cargando la escopeta argumental de quienes defienden (o reniegan) de la concertada.

Según los datos disponibles, tal y como los expone Jesús Rogero en una publicación en Agenda Pública, el gasto por alumno según titularidad del centro queda así.

Varios son los aspectos que destacar para lo que aquí nos ocupa:
1) El gasto público por alumno es marcadamente mayor en los colegios públicos que en los concertados.
2) El gasto familiar es muy superior, en este apartado, para chavales escolarizados en concertados.
3) Si sumamos ambos apartados, el gasto por alumno sigue siendo menor en el caso de los concertados.

¿Sirve esta información para concluir que, al menos económicamente, son preferibles los conciertos? Claramente, no. Por el mismo motivo que no es adecuado concluir sobre la calidad de la educación ofrecida por los centros comparando, sin  más, las medias de rendimiento del alumnado. Los centros públicos y privados, los chavales que a ellos acuden, los barrios donde se ubican y las familias de las que provienen difieren en variables clave que afectan al gasto educativo.
1) Pensemos, por ejemplo, en las escuelas rurales, donde el coste por alumno se dispara. En general, no veremos ahí a colegios concertados. Luego al gasto público de la tabla anterior no se le puede aplicar el "a igualdad de condiciones" que desearíamos.
2) A los colegios concertados acuden, en promedio, chavales de mayor clase social y de mayor renta familiar. En general, la gente con dinero gasta dinero, también en la educación de los hijos. No es descartable que estos padres 'de posibles', en el caso de escolarizar a sus hijos en un centro público mantuvieran el mismo nivel de gasto educativo. O, visto por el otro lado, no sabemos si, en el caso de universalizar la concertada, aquellos padres de pública que no quieren o no pueden gastar más en la educación de sus hijos, incrementarían la inversión. De nuevo, no podemos añadir el "a igualdad de condiciones".

Por tanto, y hasta donde yo sé, no hay pruebas claras que nos informen de qué tipo de centros resultan  más baratos agrupando diferentes gastos y controlando por variables relevantes. Si yo tuviera que lanzar una respuesta con la información disponible, diría que la concertada, pero con la cautela de saber que faltan controles exhaustivos y que podemos estar comparando dos elementos que pueden diferir en variables críticas.

Me temo que hasta aquí he podido aclarar poca cosa, pero confío en haber resaltado la necesidad, para poder llegar a conclusiones sólidas, justas y razonables, de igualar a los centros y sus alumnados en variables críticas para poder comparar. Pero todo un límite, también el control.

Estos controles de variables, esta ficción de "hagamos como si los alumnos tuvieran el mismo estatus socioeducativo...", se hace regresiones estadísticas. Permitanme que describa muy por encima en qué consiste y algunos posibles malos usos con un ejemplo. Imaginemos hemos recogido información en varios institutos sobre el peso, altura, sexo y edad del alumnado. Estamos interesados en conocer cuál es la diferencia de peso promedio entre chicos y chicas. Un modelo de regresión sencillo de ajustar sería:
Pêso = b0 + b1 x Sexo

De este modo, y si en la variable Sexo tenemos 0 = Mujer y 1 = Hombres, b0 será el peso promedio de las mujeres (Pêso = b0 + b1 x 0 = b0) y b1 la diferencia de medias entre grupos, en concreto, el cambio necesario para pasar de la media para las mujeres a la media para los hombres (Pêso = b0 + b1 x 1 = b0 + b1) .

Alguien nos puede hacer ver que, dado chicos y chicas presentan un patrón de repetición de curso diferente, no podemos asumir que la edad promedio de ambos grupos es la misma. Un implícito en nuestra pregunta sobre la diferencia de peso por sexo es que queremos que sea el sexo la explicación, no variables irrelevantes para nuestra tema como la edad. Por ello, planteamos el modelo:
Pêso = b0 + b1 x Sexo + b2 x Edad

De este modo, la interpretación de los coeficientes cambia. Ahora, b0 es el peso pronosticado para una mujer con edad igual a 0, b1 es la diferencia de medias entre hombres y mujeres de una misma edad y b2 es el cambio de peso esperado por cada nuevo año (asumiendo que la edad la hemos medido en años).

Otra persona nos podría decir que, de este modo, no estamos empleando toda la información recogida, que estamos perdiendo la información que pudiera aportar la altura. Procedemos a ajustar el siguiente modelo:
Pêso = b0 + b1 x Sexo + b2 x Edad + b3 x Altura

Y aquí la pifiamos. Ahora el coeficiente que nos interesa, el de la variable Sexo, nos informa de la diferencia de peso entre chicos y chicas de una misma edad (bien) y una misma estatura (mal). ¿Tiene algún sentido, para ver la diferencia de peso por sexo, forzar que ambos compartan la altura? Chicos y chicas difieren en su peso promedio, en parte, por tener una altura diferente, pero incorporar esta variable al modelo nos lleva a no poder responder a la pregunta planteada. Por tanto, no siempre incorporar variables mejora la calidad de nuestros modelos.

(Aquí me temo que mi explicación de la regresión ha sido lo suficientemente superficial como para no aportar nada ni al que sabe ni al que no sabe del tema. Y paso por alto que sería necesario incluir una interacción Sexo x Edad, puesto que no es el mismo ritmo de incremento de peso para ellos y para ellas).

Lo cual me lleva a un informe del Área Federal de Educación de Izquierda Unida. La tabla básica sería ésta:

Lo que se plantea IU es "bien, sabemos que en los concertados la ratio es mayor y que los profesores cobran menos; ¿y si comparamos públicos y concertados igualándolos en estas variables?". Lo que encuentran es que, en tal caso, el gasto por alumno difiere en únicamente un euro. La lástima es que no prosigan con su argumentación y tiren del gasto familiar para, sumándolo, poder decir que los concertados son mucho más caros.

¿Para calcular el gasto por alumno es relevante incluir las variables de control que IU hace? Desde mi punto de vista, claramente no. Es como el modelo anterior en el que ajustábamos por altura. Ya hemos dejado de comparar lo que querríamos comparar (gasto por alumno) para comparar un no se sabe qué. Las variables de control razonables serían las propias del alumnado (estatus socioeducativo, p.ej.).

Veámoslo de otro modo. A iguales condiciones sociales, públicos y concertados son básicamente indistinguibles en los resultados educativos que consiguen. Siguiendo la lógica de IU, si igualamos por ratio y por sueldo, el rendimiento de los concertados es mucho mejor: con condiciones supuestamente adversas consiguen iguales resultados, ¿qué no harían de estar igualados? Y como ambos tienen el mismo coste económico, hemos de preferir los concertados. ¿No, Izquierda Unida?

jueves, octubre 23, 2014

La ciencia en el planeta F345 de la galaxia de Andrómeda

Planet F345 in the Andromeda galaxy is inhabited by a highly intelligent humanoid species very similar to Homo sapiens sapiens. Here is the situation of science in the year 3045268 in that planet. Although there is considerable growth and diversity of scientific fields, the lion’s share of the research enterprise is conducted in a relatively limited number of very popular fields, each one of that attracting the efforts of tens of thousands of investigators and including hundreds of thousands of papers. Based on what we know from other civilizations in other galaxies, the majority of these fields are null fields—that is, fields where empirically it has been shown that there are very few or even no genuine nonnull effects to be discovered, thus whatever claims for discovery are made are mostly just the result of random error, bias, or both. The produced discoveries are just estimating the net bias operating in each of these null fields. Examples of such null fields are nutribogus epidemiology, pompompomics, social psychojunkology, and all the multifarious disciplines of brown cockroach research—brown cockroaches are considered to provide adequate models that can be readily extended to humanoids. Unfortunately, F345 scientists do not know that these are null fields and don’t even suspect that they are wasting their effort and their lives in these scientific bubbles.

Young investigators are taught early on that the only thing that matters is making new discoveries and finding statistically significant results at all cost. In a typical research team at any prestigious university in F345, dozens of pre-docs and postdocs sit day and night in front of their powerful computers in a common hall perpetually data dredging through huge databases. Whoever gets an extraordinary enough omega value (a number derived from some sort of statistical selection process) runs to the office of the senior investigator and proposes to write and submit a manuscript. The senior investigator gets all these glaring results and then allows only the manuscripts with the most extravagant results to move forward. The most prestigious journals do the same. Funding agencies do the same. Universities are practically run by financial officers that know nothing about science (and couldn’t care less about it), but are strong at maximizing financial gains. University presidents, provosts, and deans are mostly puppets good enough only for commencement speeches and other boring ceremonies and for making enthusiastic statements about new discoveries of that sort made at their institutions. Most of the financial officers of research institutions are recruited after successful careers as real estate agents, managers in supermarket chains, or employees in other corporate structures where they have proven that they can cut cost and make more money for their companies. Researchers advance if they make more extreme, extravagant claims and thus publish extravagant results, which get more funding even though almost all of them are wrong.

No one is interested in replicating anything in F345. Replication is considered a despicable exercise suitable only for idiots capable only of me-too mimicking, and it is definitely not serious science. The members of the royal and national academies of science are those who are most successful and prolific in the process of producing wrong results. Several types of research are conducted by industry, and in some fields such as clinical medicine this is almost always the case. The main motive is again to get extravagant results, so as to license new medical treatments, tests, and other technology and make more money, even though these treatments don’t really work. Studies are designed in a way so as to make sure that they will produce results with good enough omega values or at least allow some manipulation to produce nice-looking omega values.

Simple citizens are bombarded from the mass media on a daily basis with announcements about new discoveries, although no serious discovery has been made in F345 for many years now. Critical thinking and questioning is generally discredited in most countries in F345. At some point, the free markets destroyed the countries with democratic constitutions and freedom of thought, because it was felt that free and critical thinking was a nuisance. As a result, for example, the highest salaries for scientists and the most sophisticated research infrastructure are to be found in totalitarian countries with lack of freedom of speech or huge social inequalities—one of the most common being gender inequalities against men (e.g., men cannot drive a car and when they appear in public their whole body, including their head, must be covered with a heavy pink cloth). Science is flourishing where free thinking and critical questioning are rigorously restricted, since free thinking and critical questioning (including of course efforts for replicating claimed discoveries) are considered anathema for good science in F345.
Tomado de Ioannidis (2012), Why Science is not Neccessarily Self-Correcting, Perspectives in Psychological Science, 7, 645-654.

martes, septiembre 30, 2014

La asignatura Tortilla I


– Los nombres de las asignaturas son inherentemente inconcretos con respecto a los objetivos de aprendizaje. Si tuviéramos una asignatura que se llamara “Tortilla I”, ahí podrían hablarnos sobre las tortillas a lo largo de la historia, efectos químicos en el huevo del proceso de cocinado, comparación entre tipos de tortillas… o cómo cocinar en tiempo y forma tortillas sabrosas. Es necesario reflexionar sobre los objetivos de aprendizaje que como profesores queremos asumir y alinear nuestra docencia según esos objetivos. Los objetivos de aprendizaje no son lo mismo que el temario. ¿Qué queremos que los alumnos sean capaces de hacer tras pasar por esta asignatura?

– Nadie ha aprendido a cocinar una tortilla escuchando a un profesor hablar solo durante horas sobre ellas. Es necesario ponerse el delantal, romper huevos y hacer tortillas malas. Eso obliga a redefinir el papel del profesor, pues el tradicional “de arriba abajo” no sirve.

– Una parte fundamental de la docencia es la evaluación de la misma. La evaluación es, probablemente, el instrumento más poderoso para alinear el quehacer de los estudiantes con nuestros objetivos de aprendizaje. En este contexto, sorprendería que una porción importante de la nota final no saliera de cocinar tortillas.

– Pongamos que el cocinar una tortilla de patatas se puede descomponer en subprocesos como pelar patatas, cortarlas, romper huevos, batirlos, darle la vuelta a la tortilla... A veces asumimos que tiene sentido extendernos en cada uno de estos elementos y dejar para la última semana el cocinar una tortilla real. También, muchas veces, por cómo diseñamos la evaluación, es posible aprobar la asignatura siendo capaz de sacar la mitad de los procesos, pero sin integrarlos ni completarlos. Un aprobado por pelar patatas y batir huevos, porque eso era la mitad del temario. Para mí, esto es la ficción de la linealidad en el aprendizaje. Lo más razonable sería, probablemente, evaluar el paso final para el que es necesario haber sido capaz de manejar los pasos previos.

– Como profesores, habitualmente vivimos en la ficción de la transferencia de conocimientos. Pensamos que leyendo un libro de cocina los estudiantes aprenden a cocinar.

– Como profesores, vivimos en el espejismo de la motivación. "Os apuntasteis a este curso porque queríais ser cocineros. Luego, ¿por qué esa actitud tan negativa por tener que leeros libros y libros de cocina?".

– Si bien es necesario cocinar tortillas para aprender a hacerlas, no tiene sentido dejar a alumnos sin experiencia previa en una cocina a su aire para ver hasta dónde llegan. Este modelo no directivo sólo puede funcionar si podemos asumir una inversión enorme de tiempo y varios incendios. O si sabemos que nuestros alumnos tienen experiencia previa en el campo, por lo que la experimentación no empezará de cero y el feed-back que se den a sí mismos puede ser suficiente. Para aquellos alumnos con poca experiencia o con rechazo inicial hacia la cocina, lo más probable es que el aprendizaje autoguiado implique desánimo, deserción y escaso aprendizaje.

– Casi todos hemos visto repetidas veces cocinar tortillas. Eso no implica que seamos capaces de realizarlas por nuestra cuenta. La imitación no implica aprendizaje. Es necesario tener habilidades de autorregulación, y éstas pasan por saber qué se está haciendo, qué es lo que se sabe, lo que no se sabe y qué se puede hacer para mejorar la ejecución y el aprendizaje.

– Es probable que para nosotros las tortillas sean una excusa de aprendizaje en el marco más general de enseñar a cocinar. No podemos asumir que los alumnos van a generalizar desde las tortillas a otros platos o ingredientes. La generalización se ve favorecida cuando uno ha pasado por muchos contextos diferentes, ha experimentado y ha detectado patrones de similitudes y diferencias. Por ello, es probable que resulte más adecuado recorrer varios platos intentando entender la lógica de los mismos, sacrificando la ejecución óptima en cada uno de ellos, que centrarse en uno en concreto, pese a que esta segunda opción genera la ilusión de aprendizaje (los alumnos harán ese tipo de plato muy bien, lo cual nos dejará contentos, pero no sabrán hacer nada más, algo que no detectaremos porque no les pediremos que hagan nada más).

miércoles, julio 30, 2014

Para detectar manipulaciones del factor de impacto

Acaba de salir la edición del 2013 de los Journal Citation Reports. Ahí podemos conocer los factores de impacto de una gran cantidad de revistas científicas. La idea es sencilla: los artículos buenos son citados, luego las citas son un indicador de calidad/utilidad. Críticas a esa idea, todas las que quieran, tanto en el concepto como en su interpretación. Pero, hoy por hoy, las citas se utilizan habitualmente para estimar valor y relevancia de revistas, países, instituciones e investigadores.

Una parte básica del proceso parte de la asunción de que las citas a los artículos son 'espontáneas', esto es, las citas de los artículos se plantean por la utilidad de lo que ahí se expone. Un modo fácil de piratear al sistema es distorsionando este sistema de citación, citando con el fin de inflar el factor de impacto.

Vamos a intentar ver aquí cómo detectar estas manipulaciones del factor de impacto (FI). Para ello, el seguir a las revistas españolas y latinoamericanas de Psicología ayuda enormemente. Iremos viendo en qué información habríamos de fijarnos dentro de los JCR.

Tendencia en el factor de impacto
El FI es un indicador basado en la media de un gran número de elementos, por lo que tiende a ser bastante estable de año en año. Por ello, grandes saltos en las series indican activaciones o desactivaciones de prácticas de manipulación.

En el caso del Spanish Journal of Psychology podemos ver cómo su FI permanece bastante estable a lo largo de los años. (No estoy diciendo que haya necesariamente de ser estable el FI. Si así fuera, no tendría sentido seguir calculando los JCR. El error de los artículos que van entrando año a año influye. También, cambios en la política de la revista. Por ejemplo, desde comienzos del 2014, el Spanish Journal ha pasado a publicarse por Cambridge Journals -editorial de revistas muy importantes en el campo como Psychological Medicine-, pero deja de ser de acceso abierto para ser de pago. Veremos cómo afecta).


Universitas Psychologica es una revista colombiana. Entro por la puerta grande en los JCR con un valor que no ha vuelto a obtener. Esta anomalía queda totalmente explicada por un único artículo citador diseñado para alterar por completo al panoramo del FI de las revistas de Psicología españolas y latinas, tal y como expliqué anteriormente. Este tipo de patrones ha de llevarnos a pensar que algo raro pasó.


Psicología Conductual es una revista española. En este caso el patrón es perfectamente creciente. Aquí hay dos opciones: o bien los artículos que publican cada vez despiertan mayor interés o se están forzando los números. Si entra en la página web de la revista, veremos que los artículos son de pago (sin opción a suscripción institucional, diría), en castellano y la navegabilidad bastante pobre. No son predictores de una elevación del FI.


Por el momento, pondríamos bajo el foco de la sospecha a Psicología Conductual.

Volumen de autocitas
Es comprensible que si yo envío un artículo a una revista especializada en depresión, cite artículos sobre depresión, que bien pueden estar publicados en la revista a donde remito mi trabajo. Las autocitas son razonables. Pero: (a) hasta un cierto punto, (b) dependiendo de la amplitud de los temas tratados en la revista, (c) de las revistas alternativas sobre el mismo campo, y (d) dependiendo del idioma de los artículos. El punto de ruptura a partir del cual ya pasa a ser sospechoso el volumen de autocitas no sabría bien dónde establecerlo. ¿Un 10%?

Un aspecto importante es el de la amplitud temática de la revista y el número de alternativas. Revistas dedicadas a la lateralidad (zurdos, diestros...), comprensiblemente, hay pocas, luego encaja que los artículos citen otros artículos de ese misma revista. Pero es mucho más sospechoso que en revistas multidisciplinares o generalistas una parte importante de las citas vayan hacia la propia revista, porque artículos sobre esta temática pueden estar diseminados entre decenas de alternativas.

El idioma también es un aspecto relevante. Una revista que publica en castellano limita sus lectores y autores potenciales. En general, publicar en castellano es quemar un artículo, y el perfil de investigadores dispuestos a ellos es muy concreto. También lo es el de lectores que están por la labor de leer artículos destinados a quemarse. Por ello, es esperable que estas revistas tengan un FI muy bajo y nutrido de autocitas y de revistas que publiquen en el mismo idioma.

Empecemos por el Spanish Journal. Podemos ver cómo sólo el 3% del FI corresponde a autocitas.



En Psicothema el volumen se dispara hasta el 17%, por encima de lo común. (Por cierto, veremos qué tal le sale a Psicothema la apuesta de publicar desde este año únicamente en inglés. Creo que es una buena noticia para la Psicología española, si aceptamos que ser cola de león es mejor que ser cabeza de ratón. Y que no quieran ser  un ratón-león con manipulaciones del FI).



Y aquí, ya, la fiesta de la autocita. Por orden, dos viejos amigos del blog (1, 2, 3), el International Journal of Clinical and Health Psychology y Revista de Psicodidáctica, y Psicología Conductual. El porcentaja de autocitas va desde el 40% hasta el 50%. En alguna o algunas de estas revistas es obligatorio para la aceptación del artículo el citar artículos previos publicados ahí.


 

Hacia dónde van y de cuándo son las citas de la revista
Imaginemos que hemos escrito un artículo menor que vamos a intentar publicar, pues, en una revista menor. ¿Sería razonable que casi todo el material en el que nos basamos y, por ello, citamos fuera de esa revista sin especial importancia? Desde luego que no. De hecho, habiendo como hay decenas de revistas interesantes, ni siquiera en las grandes revistas las referencias suelen estar plagadas de documentos publicados en ellas mismas. Aquí no estoy hablando de las autocitas tal y como las veíamos antes (citas gracias a la propia revista / total de citas recibidas), sino a las autorreferencias (artículos en las referencias de la propia revista / total de artículos de las referencias). El numerador permanece, pero no el denominador.

Un porcentaje elevado autorreferencial es indicativo, de nuevo, de interés en manipular el factor de impacto. Este interés queda especialmente reflejado cuando las autorreferencias se concentran en los años de entran para el cómputo del FI (el FI del año X se calcula como citas recibidas durante X en los artículos publicados durante X-1 y X-2).

Empecemos viendo el patrón de resultados para Psychological Bulletin, revista de la APA con 14.4 punto de impacto y ninguna necesidad de inflar su FI. Podemos ver cómo los artículos citados apenas provienen de los años 2012 y 2013 y cómo las autorreferencias (en amarillo) son mínimas. Aquí una gráfica que apunta a normalidad.


Podemos ver cómo la distribución para el Spanish Journal guarda un enorme parecido con la anterior. De nuevo, ninguna indicación de manipulación del IF por parte del Spanish.


Comparemos estos resultados con los del International Journal y la Revista de Psicodidáctica, en este orden. Del International Journal destaca la escasa tendencia a citar artículos de más allá de unos pocos años. Para ambas revistas sobresale la presencia del amarillo, las autorreferencias, y cómo éstas se concentran en la ventana temporal considerada para computar el FI.




¿Qué podemos sacar de esto?
Resumiendo y comentando:
- Quien tendía al pirateo, sigue por el mismo camino.
- Algunas revistas parecen estarse sumando a ese camino. (Citar artículos de la revista como requesito para publicar).
- Algunas revistas españolas presentan un comportamiento exquisito a este respecto. (Para mi gusto, la única pega al Spanish Journal, además de su cambio a ser de pago, es el más de medio año desde aceptación hasta publicación en la web del PDF).
- Hay otras prácticas de manipulación del FI que piden otras estrategias para ser detectadas. Especialmente presentes también en revistas españolas, las redes de citación: Revista A publica un artículo donde se citan 30 artículos de revista B y revista B corresponde. Eso no deja rastro las autocitas o autorreferencias. Sí en las tablas de citación. Pero si casi nadie revisa las autocitas, como para mirar más allá...
- Pese a ello, sigo defendiendo el valor del FI para la selección de profesorado. Prefiero  un indicador imperfecto a una comisión de contratación tendenciosa. Cuando las comisiones de contratación en España, en promedio, empiecen a actuar de buena fe, cambiaré de opinión.

domingo, julio 27, 2014

El problema de la medición en Psicología (y alrededores)

Supongamos que estamos interesados en la relación entre la altura y el peso en personas adultas españolas. Si tuviéramos conocimiento perfecto y absoluto de todo, sabríamos que la correlación entre ambas variables es igual a 0.50. Pero, simples mortales, no tenemos acceso al valor poblacional. Y, como pobres investigadores, no podemos costearnos el recoger información de los millones de adultos españoles. Tendremos que conformarnos con una muestra aleatoria a quienes pesaremos y tallaremos.

La idea básica del proceso investigador es bien sencilla. Metemos a todos los millones de españolitos en un saco bien grande, lo agitamos con ganas y, sin mirar, sacamos a un persona bien mareada. Lo medimos y tallamos. Lo volvemos a echar al saco (muestro con reemplazamiento) o no (sin reemplazamiento) y volvemos a agitar / extraer / medir, así hasta completar el tamaño muestral (n) que queremos y podemos alcanzar. Una completado, tenemos n pares de valores de altura y peso y calcular una correlación de Pearson es fácil.

¿Ha de coincidir la correlación muestral con la correlación poblacional? Aquí las respuestas de los estudiantes que se inician en la estadística van de un rotundo 'Sí' hasta un claro 'No'. Por desgracia investigadora y lógica estadística, no han de coincidir. De hecho, las estimaciones muestrales coincidieran con los valores poblacionales siempre, no tendría sentido intentar trabajar con muestras amplias.

Ejemplos cotidianos nos ilustran esta idea. Sé que en mi ciudad la mitad son hombres y la mitad mujeres. Me siento en un banco de la plaza a ver pasar gente y voy mirando cuántas mujeres hay en cada grupo de diez personas que veo. ¿Se repite una y otra vez el patrón 'cinco de diez', 'cinco de diez', 'cinco de diez'...?

Esta es la idea extensamente trabajado en las clases de estadística de distribución muestral. Pero ahora vamos a darle otra matiz más, habitualmente no cubierto, pero necesario en la investigación en casi todos los campos. Recordemos, sabemos que la correlación real entre altura y peso para nuestra población de interés es igual a 0.50.

Tenemos dos opciones. Una, evaluar la información antropométrica con instrumentos de precisión y personal capacitado y serio, que nos puede proporcionar Good Quality Measures. Otra, mucho más barata, contratar a mi amigo Pepe, con tendencia a presentarse borracho a trabajar y con frecuentes espasmos musculares. Good Quality Measures conlleva un nivel de error despreciable y Pepe un mucho mayor error. El primer sistema es más fiable y el segundo en mucha menor medida. La medición repetida de una misma persona por Good Quality ofrecerá resultados (casi) idénticos. Con Pepe, una persona de peso promedio ahora parece tener serio infrapeso, ahora parece tener obesidad extrema.

¿Cuál es el impacto del error de medición en la estimación de la correlación? Para valorarlo, realizamos una simulación en R, lenguaje de programación especialmente útil en el campo de la estadística. En una simulación podemos fijar el valor real de correlación (algo casi imposible fuera de la simulación, porque no tenemos conocimiento de los valores poblaciones), podemos generar miles de muestras del tamaño deseado (algo también inviable fuera de la simulación) y ver la relación entre estimaciones y realidad.

Fijamos varios valores para el estudio de simulación.
- El tamaño muestral es igual 25.
- Una fiabilidad poblacional de las mediciones igual a 0.6. Esto equivale a decir si medimos dos veces a un mismo grupo de personas, la correlación entre ambos resultados sería igual a 0.6.
- Repetimos el proceso de generar muestras al azar 50000 veces.

Los resultados en los que nos vamos a fijar van a ser:
- La distribución muestral de las correlaciones entre las dos variables con sus valores reales (marcados como T por True). Esto nos informará de en qué medida muestras independientes con tamaños muestrales iguales obtienen iguales resultados. En la gráfica, la línea roja.
- La distribución muestral de las correlaciones entre una variable medida sin error (T) y otra variable medida con error (X). Así vemos el efecto del error de medida en una única variable. En la gráfica, la línea azul.
- La línea marrón muestra la distribución muestral de las correlaciones cuando ambas variables son medidas con error (igual en ambos casos).

Las líneas verticales señalan la correlación media para cada distribución. Se muestra también el resumen con cinco números (mínimo, primer cuartil, mediana, tercer cuartil y máximo).


Varios son los resultados que merecen comentario:
- Cuando trabajamos con variables medidas sin error, la correlación esperada es indistingible de la correlación poblacional: la línea vertical roja casi corta en 0.50 y la mediana es 0.51.
- En ese caso, el 50% de las correlaciones muestrales se encuentran en el intervalo [0.40, 0.61]. O, visto por el otro lado, en algo más del 50% de los casos el error entre la correlación estimada y la real es superior a 0.10.
- Cuando pasamos al caso de una variable sin error y otra con error (línea azul; X1T2) la correlación esperada ya no coincide con la correlación real. La mediana de las correlaciones en este caso se sitúa en 0.39. Infraestimamos, en promedio, el tamaño de la relación entre variables. La falta de fiabilidad en los indicadores reduce, en general, la relación observada entre variables.
- Esto no es así en todos los casos. En aproximadamente un 25% de los casos, la correlación estimada con X1T2 es mayor a 0.5, el valor poblacional. Luego no siempre el error de medida supone encontrar correlaciones por debajo del valor poblacional.
- El error de medida implica ampliar la dispersión de los resultados muestrales: las distribuciones se van aplanando. Si para variables sin error el rango intercuartil era de 0.21, ahora es de 0.24.
- El error de medida aumenta la proporción de ocasiones en las que la correlación observada tiene un signo negativo, contrario al poblacional. No únicamente podemos infraestimar el efecto, sino cambiar su sentido.
- En el caso donde ambas variables se evalúan con error de medida, los efectos de la falta de fiabilidad se hacen más marcados. De la correlación poblacional igual a 0.50 pasamos a una mediana de la correlación muestral para X1,X2 igual a 0.31.

En resumen: El error de medida atenúa el tamaño de la relación aparente entre variables. El error de medida aumenta la dispersión de los resultados muestrales. Esto tiene serias implicaciones para la investigación. Introduce inconsistencia en los resultados.

Algunas de las condiciones de la simulación pueden parecen poco realistas. Por ejemplo, un tamaño muestral igual a 25 puede parecer escaso. En el caso del ejemplo que planteábamos (medición de variables antropométricas, por tanto, muy sencillas de valorar) así sería. Pero no en otros contextos. Pensamos en la gran cantidad de estudios experimentales (Psicología Básica, Psicología Social, Evolutiva...) con estos tamaños o inferiores.

También se puede plantear que una fiabilidad de 0.60 es baja. De nuevo, depende. En algunos contextos, simplemente no conocemos la fiabilidad de las mediciones. Evaluar la fiabilidad es parte del procedimiento común cuando se trabaja con cuestionarios de múltiples preguntas (ponga usted un alfa de Cronbach en su vida), pero no con tareas de laboratorio o con variables evaluadas con un único ítem. Incluso en el caso de cuestionarios, algunos manuales de uso extendido indican que cuando la función de la evaluación no es usar las puntuaciones particulares para tomar decisiones con ellas para cada individuo (tú tienes anorexia, tú no tienes anorexia..., por ejemplo), sino emplearlas para investigación (la relación entre una escala de anorexia y la depresión es..., por ejemplo) valores de fiabilidad por encima de 0.5 podrían ser aceptables.

Ninguna de las ideas que se plantean en este post es mía. Los problemas de atenuación de la correlación, cómo corregir las estimaciones de correlación por falta de fiabilidad, el impacto de la fiabilidad en la probabilidad de detectar relaciones que no existen o de pasar por alto relaciones que sí existen... han sido analizados durante años.

Las soluciones a estos problemas se centrarían en:
- Trabajar con muestras más amplias, bien sea en los estudios particulares o agregando estudios mediante meta-análisis.
- Trabajar con variables de mayor fiabilidad.
- Informar de la fiabilidad estimada de las variables en los estudios.
- Incorporar la incertidumbre sobre las estimaciones en nuestros resultados con intervalos de confianza, errores típicos...
- Informar del tamaño de los efectos con nuestras mediciones y con técnicas para corregir las consecuencias de la falta de fiabilidad.
- No publicar únicamente estudios con resultados estadísticamente significativos.

Aquí dejo la sintaxis de R para quien quiera trabajar en el tema o ver el efecto de manipular los valores de la simulación.

rm(list=ls())
poblacion.cort1t2 <- 0.50
fiabilidad <- 0.60
poblacion.cort1x1 <- sqrt(fiabilidad)
poblacion.cort2x2 <- sqrt(fiabilidad)
muestra.cort1t2 <- NULL
muestra.corx1x2 <- NULL
muestra.cort1x1 <- NULL
muestra.cort2x2 <- NULL
muestra.corx1t2 <- NULL
muestra <- 25
replicas <- 50000
t1 <- replicate(replicas,rnorm(muestra))
ex1 <-replicate(replicas,rnorm(muestra))
x1 <- t1*poblacion.cort1x1 + ex1*(1-poblacion.cort1x1^2)^.5
et2 <- replicate(replicas,rnorm(muestra))
t2 <- t1*poblacion.cort1t2 + et2*(1-poblacion.cort1t2^2)^.5
ex2 <- replicate(replicas,rnorm(muestra))
x2 <- t2*poblacion.cort2x2 + ex2*(1-poblacion.cort2x2^2)^.5
for (i in 1:replicas) {
  muestra.cort1t2 <- c(muestra.cort1t2, cor(t1[,i],t2[,i]))
  muestra.corx1x2 <- c(muestra.corx1x2, cor(x1[,i],x2[,i]))
  muestra.cort1x1 <- c(muestra.cort1x1, cor(t1[,i],x1[,i]))
  muestra.cort2x2 <- c(muestra.cort2x2, cor(t2[,i],x2[,i]))
  muestra.corx1t2 <- c(muestra.corx1t2, cor(x1[,i],t2[,i]))
}
 
plot(density(muestra.cort1t2),
     main="",
     xlab="Correlación",
     ylab="",
     xlim=c(-0.5, 1),
     col="red",
     lwd=4,
     axes = FALSE)
text(-0.5, max(density(muestra.cort1t2)$y*1), paste("Tamaño muestral = ", muestra), adj = c(0,0))
text(-0.5, max(density(muestra.cort1t2)$y*0.95), paste("Cor(T1,T2) = ", poblacion.cort1t2), adj = c(0,0))
text(-0.5, max(density(muestra.cort1t2)$y*0.90), paste("Fiabilidad = ", fiabilidad), adj = c(0,0))
axis(1,seq(-0.5,1,0.25),paste(seq(-0.5,1,0.25)))
lines(density(muestra.corx1t2), col="blue", lwd=4)
lines(density(muestra.corx1x2), col="brown", lwd=4)
abline(v=mean(muestra.cort1t2),col="red",lty=2,lwd=2)
abline(v=mean(muestra.corx1t2),col="blue",lty=2,lwd=2)
abline(v=mean(muestra.corx1x2),col="brown",lty=2,lwd=2)
legend(-0.5,max(density(muestra.cort1t2)$y*0.85),c("Cor(T1,T2)", "Cor(X1,T2)", "Cor(X1,X2)"),lwd=c(2,2,2),col=c("red","blue","brown"))
 
resultados <- list(muestra.cort1t2=muestra.cort1t2, muestra.corx1t2=muestra.corx1t2, muestra.corx1x2=muestra.corx1x2)
resultados.resumen <- round(vapply(resultados, fivenum, c(Min.=0, "1st Qu."=0, Median=0, "3rd Qu."=0, Max.=0)),2)
colnames(resultados.resumen) <- c("T1,T2", "X1,T2", "X1,X2")
 
for (i in 1:3)
  text(-0.45+i*0.125,max(density(muestra.cort1t2)$y)*0.60,colnames(resultados.resumen)[i])
for (j in 1:5)
  text(-0.45,max(density(muestra.cort1t2)$y)*(0.60-j*0.05),rownames(resultados.resumen)[j])
for (i in 1:3)
  for (j in 1:5)
    text(-0.45+i*0.125,max(density(muestra.cort1t2)$y)*(0.60-j*0.05),resultados.resumen[j,i])
Created by Pretty R at inside-R.org