jueves, marzo 13, 2008

Cómo manipular y malinterpretar el factor de impacto

¿Qué artículos tienen más trascendencia o relevancia? Aquellos más usados como base para futuras publicaciones y que, por ello, son incluidos entre las referencias. Tenemos como objetivo medir la relevancia de un artículo y nos hemos dotado de un indicador para ello, las citas recibidas, también llamadas impacto.

Esta indicador simple, donde simple es tanto un mérito como una limitación, requiere que alguien construya y gestione una enorme base de datos en la que, para cada nuevo artículo añadido, se marquen todos los artículos incluidos en las referencias. Este trabajo lo realiza, entre otros, Thomson Scientific.

El impacto se puede evaluar para artículos concretos, para países, para grupos de investigación, universidades, para toda unidad de agrupación que a uno se le pueda ocurrir. Y, entre ellas, las revistas científicas. En el caso de las revistas, es común acotar el intervalo temporal tenido en cuenta para el cálculo del impacto. No interesa en qué grado se citaron en los años 80 los artículos de los años 50, por ejemplo, sino que únicamente se tienen en cuenta las citas a artículos recientes realizadas por artículos igualmente actuales. El indicador comúnmente empleado, el factor de impacto del Journal Citation Reports (de Thomson), calcula el impacto del año X de la reivsta Y calculando la cantidad de veces que cualquiera de las revistas indexadas en la base de datos (y eso incluye también a la revista Y) cita cualquier artículo publicado en Y en los años X-1 y X-2. Esto se divide entre los artículos publicados por Y en esos datos años, X-1 y X-2. (Hay algunos matices adicionales en el cálculo, pero pasaremos por encima de ellos).

¿De qué nos informa el factor de impacto así calculado? Sabiendo en qué revista fue publicado un artículo publicado en los años X-1 y X-2, el número de citas que cade esperar que haya recibido durante el año X es igual al índice de impacto de la revista Y. A nivel de revistas, este indicador permitiría ordenarlas según relevancia, con unos cuantos supuestos en mitad del salto que va del impacto a la transcendecia.

Obviamente, el impacto de un artículo no es un indicador de su calidad. Un artículo excelente mantiene idéntica calidad tanto si se publica en la Revista del Barrio, en la Revista N.1 del Mundo o se deja en un cajón. Eso sí, a cuántos llegue y qué provecho se pueda sacar sí que depende del medio donde se edita.

En general, los científicos quieren que sus aportaciones sirvan para algo y que los demás se lo reconozcan. Por ello, intentan colocar sus artículos en las revistas que publican artículos altamente citados. En general, a más índice de impacto de una revista, más artículos recibe para su evaluación y más exigentes pueden ser para aceptarlos. Dos artículos publicados en dos revistas diferentes con distintos índices de impacto, cabe esperar que el de mayor calidad sea el de la revista con mayor índice de impacto.



Hasta aquí, la teoría. Ahora, el porqué de la casi inutilidad del índice de impacto de una revista para evaluar la relevancia de un artículo concreto.

Supongamos que yo he publicado un artículo en la revista Y en el año 2004 y quiero conocer la relevancia de mi artículo. ¿Qué indicador he de emplear? ¿El índice de impacto de Y en el 2004? Absurdo, puesto que los artículos empleados para el cálculo eran los de los dos años previos. ¿El índice de impacto de Y en el 2005 o en el 2006? Absurdo. Dos años después de la publicación de mi artículo ya puedo conocer las citas que ha recibido éste. Las que han recibido, en promedio, los de la revista son un indicador indirecto, que no tiene sentido usar teniendo acceso al valor exacto.
El índice de impacto sólo sirve para conocer la citabilidad de mi artículo publicado este mismo años o el anterior, puesto que, en este caso, no hay relevancia real, sino únicamente relevancia esperada.

Entonces, ¿por qué cuando quieren evaluar artículos se obstinan en emplear el índice de impacto de la revista en la que fue publicado, obvieando que una media no supone que todos los artículos sean iguales? Por ejemplo, la ANECA apunta, comentando los criterios de valoración de los currículums para la acreditación como Ayudante Doctor:
Para la valoración de las publicaciones científicas se atiende, entre otros, a los siguientes factores: el índice de impacto, el lugar que ocupa la revista en el conjunto de las que corresponden a un mismo ámbito de conocimiento, el número de autores y la posición que ocupe entre ellos el solicitante.
Lo importante es publicar en revistas con alto índice de impacto, aunque después nadie te haga ni caso. Lo que realizan las agencias de evaluación de profesorado es un maluso del índice de impacto, basado en una incompresión generalizada del mismo.



El índice de impacto está basado en la idea de que los investigadores eligen libremente a qué artículos citar y que la citación está justificada. La citación no siempre está justificada. Por ejemplo, hay autores que da igual de qué hablen que ellos siempre plantan todo su currículum en las referencias. Pero peor es cuando los editores buscan aumentar las citas a sus revistas para inflar el índice de impacto. Un caso conocido es el de Leukemia. El editor de la revista devolvía con la revisión de los artículos el siguiente texto: "Amablemente le pedimos que incluya referencias de artículos publicados en Leukemia a su artículo actual".

Unas de las primeras revistas españolas en el campo de la Psicología en conseguir el índice de impacto incluía en la carta del editor similares consignas. No cabía interpretarlo como una recomendación. Era absolutamente necesario citar algún artículo publicado en los dos años previos para que el artículo fuera admitido. La medida, además de quebrar voluntariamente uno de los supuestos básicos que justifican el uso del índice de impacto para comparar revistas, estaba mal llevada. Un artículo aceptado en el 2008 probablemente sea publicado en el 2009, por lo que las citas a artículos del 2006 no inflarán el índice de impacto. Esta revista, ahora mismo, tiene un índice de impacto en torno a 1, por encima del índice de impacto de las mejores revistas internacionales de mi área. Según la ANECA, más me vale ir publicando ahí.

Otra revista española, también de Psicología, recientemente incorporada a la base de datos de Thompson, utiliza otro sistema. Publica artículos marcando las directrices de cómo han de ser los artículos que se publiquen en esa revista. Los artículos enviados tienen que demostrar que se ajustan a lo pedido, por lo que citan a los artículos que marcan el canon. Pero la historia no acaba ahí.

Imaginen que en el año 2000 se publica un artículo de "Cómo hacerlo todo bien para esta revista". Perfecto, porque en el 2001 y en el 2002 se citará mucho ese artículo y eso disparará el índice de impacto. El problema viene de que los artículos de años posteriores que citen publicaciones del año 2000 ya no son tenidos en cuenta para el cálculo del índice de impacto. ¿Qué hacer? Pues bien fácil. Cada tres años publicas una nueva versión. Año 2003: "Cómo hacerlo todo bien para esta revista. Algunas mejoras". Año 2006: "Cómo hacerlo todo bien para esta revista. Situación actual". Alguno de estos artículos conocen versiones casi idénticas, una en español y otra en inglés, convenientemente separadas en el tiempo.

Estas medidas, claro, inflan las autocitas de las revistas, dado que uno puede consultar junto al índice de impacto, pero que nadie tiene en cuenta. En el caso de la segunda revista, esta práctica conlleva que la distribución de citas dentro de la revista sea extremadamente desequilibrada. El artículo más citado de esa revista ha recibido 141 citas, el siguiente 55, el tercero 20, el cuarto 14 (y no tiene ni un año). El primer artículo en número de citas que no forma parte del conjunto de artículos normativos ha recibido 12 citas. A eso hay que añadir que esas 12 citas no son tales. Sorprendido porque un estudio sobre geología marina citara un artículo sobre ansiedad, he comprobado lo esperable. El ISI atribuye citas que no existen. No he revisado más, pero creo que todavía le sobran unas cuantas más.

Pero eso tampoco le importa a la ANECA o agencias similares.

11 comentarios:

  1. Interesante crítica, Topo. El tema de los índices de impacto es motivo de discusión desde hace tiempo. Sin embargo, ¿cuál sería tu alternativa? ¿Contar las citas por artículo? ¿Algo así como el factor "h"?

    Respecto a las auto-citas, es una pena que haya gente que abusa para darse auto-promoción. Mi ingenuidad me lleva a creer que la gran mayoría de los que citan sus trabajos lo hace porque realmente es la bibliografía relevante. Y esto es difícil de corregir sin perjudicar a la gente que lo hace de buena fe.

    ResponderEliminar
  2. Jordi:

    Me puedo poner más o menos radical en mi respuesta.

    Opción radical: Que cada departamente o universidad establezca el sistema de selección que le dé la gana. Que asuman los riesgos que quieran (contratar a alguien es como comprar un melón). Con una financiación vinculada a objetivos, ya se espabilirán para hacerlo lo mejor posible.

    Si a un profesor ni le va ni le viene a quién contraten, porque va a seguir cobrando lo mismo y teniendo los mismos medios para su trabajo, ¿qué preferirá, un incompetente simpática o un capaz menos agradable para cruzárselo por los pasillos?

    Opción menos radical:

    El índice de impacto sólo ha de utilizarse cuando se carece de información acerca del impacto real de los artículos. Por tanto, sólo cuando el artículo es muy reciente. En otros casos, convendría utilizar cualquier indicador basado en citas reales, no citas esperadas, como sumatoria de citas, promedio de citas por artículo, índice H... cualquiera mejor que lo que se hace ahora.

    Y el día que hagamos esto seremos más consciente de cómo, en general, los artículos de investigadores españoles son citados por debajo del índice de impacto de la revista. Publicamos poco y con poco impacto.

    Respecto a las auto-citas, hoy mismo hay en el blog de bibliometría.com una entrada al respecto. Las autocitas son buenas no sólo porque engordan las citas recibidas directamente, sino porque, al servir de escaparate de tus artículos previos, aumentan tu citabilidad porque hacen más visible tu producción previa.

    ResponderEliminar
  3. Lamentablemente las soluciones basadas en mirar índices son todas muy susceptibles de manipulación. Os cito ejemplos existentes.

    (A) Colectivos internacionales amplios donde hay consigna de cita sistemática para evitar cálculos que evitan la autorreferencia. Esto explica parcialmente el altísimo índice de impacto de un determinado área de la física española.

    (B) El caso contrario: grupos enemigos que nunca se citan aunque corresponda. Objetivo: hundir la flota.

    (C) Citas impuestas de forma sibilina por los editores. Un editor escoge referees que te "piden" que comentes la relación y diferencia con este, este y este otro artículo. Si el referee lo hace por su cuenta te puedes quejar al editor (llegas incluso a descubrir al referee) pero en muchos casos esto es hecho en connivencia con el editor y tragas porque quieres el artículo publicado.

    (D) Revistas donde casi sólo publican los editores con consignas implícitas de hinchar las referencias.

    Hay de todo. En España no nos fiamos de los investigadores y aún menos de los profesores universitarios, probablemente con mucha razón. Por tanto, le dejamos a Thomson hacer nuestra selección de personal. (Bueno, solo aparentemente. En verdad todo es pasteleo).

    ResponderEliminar
  4. Topo,

    "Que cada departamente o universidad establezca el sistema de selección que le dé la gana."

    Bueno... esto no es realmente una opcion como tal. Mi pregunta no iba dirigida a como debe evaluar el Ministerio, sino como se debe evaluar. Es decir, que sistema elegirias tu si fueras jefe de departamento. La opcion menos radical seria tu eleccion?

    Actualmente estoy en EE.UU., y, entre otras cosas, estoy planteandome mi futuro aqui. Ahora que ya conozco un poco el sistema, te dire que aqui hay autonomia y que cada universidad/departamento valora como le da la gana. Curiosamente, todas acaban repitiendo los mismos criterios. Cierto es que la cosa es cualitativa, ya que no se centra tanto en el CV, sino que valora tus cartas de recomendacion (lo que dicen de ti pesa mucho) y los proyectos de investigacion y de ensenyanza que presentas (si son viables, si se ajustan a la filosofia del departamento...). Last but not least, viene la entrevista personal, que es lo que decanta la balanza.

    De todas maneras, en el primer filtro el CV sigue siendo herramienta de evaluacion principal. Y, ahi, tener un Science o un Nature es algo que le da un brillo importante que pesa. Y eso es tendencia general. Y tambien pesa el numero de articulos, asi como quien ha sido tu jefe. No he oido que el indice "h" tenga mucho peso...

    Total, que la evaluacion es mucho mas global, pero acaba usando criterios que no son tan diferentes de los que usa el Ministerio en Espanya.

    La entrada en Bibliometria es exactamente a lo que yo me referia. El tema es espinoso y todo porque el personal se aprovecha de como funcionan las cosas... Ah, la naturaleza humana...

    Un saludo.

    ResponderEliminar
  5. Anónimo:

    Muy interesantes las historias que cuentas. Me quedo especialmente con la últimas frases, que me parecen geniales:

    En España no nos fiamos de los investigadores y aún menos de los profesores universitarios, probablemente con mucha razón. Por tanto, le dejamos a Thomson hacer nuestra selección de personal. (Bueno, solo aparentemente. En verdad todo es pasteleo).

    Son como para reír, sino fueron como para llorar.

    ---

    Jordi:

    Gracias por contar cómo va la selección por USA. Imaginaba que sería algo así, por mi experiencia en UK (estancia breve de la beca).

    Me pides mi modo de actuar si fuera director de departamento y, claro, tuviera flexibilidad como para poder definir criterios propios.

    Yo intentaría valorar el potencial. Hay personas con un gran CV gracias a estar agarradas durante años a un grupo de investigación y que, fuera de él, no sacarán nada. Hay personas productivas y conflictivas: ellos van sacando artículos mientras que consiguen interrumpir el trabajo de todos los demás. Hay a quien se le han agotado las ideas... Todo esto no se ve en un currículum sin más, lleva índices de impacto, índices H o lo que sea.

    Si yo tuviera que contratar, miraría su CV (especialmente, artículos de primer autor), entrevista, recomendaciones y presentación con todo el departamento presente de sus planes de investigación para los próximos tres años. Algo así creo que iría bien.

    ResponderEliminar
  6. Soy anónimo de nuevo, también firmante como Javier, y al igual que Jordi estoy en los USA y confirmo lo que dice. Aún os voy a decir más sobre cómo funcionan las cosas donde estoy. Además de la entrevista personal, que en mi área consiste en una charla/seminario ante todo el departamento, se programa al candidato una serie de entrevistas con cualquier profesor del departamento que esté interesado. Esas personas (que no tienen acceso a las cartas de recomendación: sólo las ve el comité) se van haciendo una idea de la calidad del trabajo del candidato y eventualmente son los que inclinan la balanza para que el comité de contratación haga una oferta. La oferta solo se puede hacer si el 60/70% del departamento está de acuerdo (varía según el tipo de contrato).

    No voy a decir que todo funciona bien. El proceso es lento (eso sí, ¡se inicia en noviembre!) y falla ocasionalmente, pero todo él anda en la dirección de "¿qué queremos para el departamento?". Antes de hace se decide qué se quiere hacer. En España hacemos una ley.

    Se me ocurrió preguntar alrededor sobre el índice h. Casi nadie sabía qué era. Los índices de impacto los conocen y los usan para mostrar calidad cuando piden sus NSF-grants (nuestros proyectos ministeriales) pero nunca para evaluar la calidad de un investigador, especialmente en los inicios de su carrera.

    Esta vez sí firmo. Desde MN

    Javier

    ResponderEliminar
  7. Para entender cómo se evalúan en España las trayectorias profesionales de los científicos, no debemos olvidar de dónde venimos. La práctica evaluadora en nuestro país antes de la democracia se la puede imaginar cualquiera (queda magníficamente descrita por Carlos Castilla del Pino en la segunda parte de su autobiografía, La casa del Olivo, cap. 37). Para evitar cacicadas y fomentar la apertura, la internacionalización, de la ciencia española, no hubo mejor medida que la adoptada, valorar preferentemente las aportaciones en revistas de prestigio reconocido (entendiendo como tales las que ocupan posiciones relevantes dentro del JCR) (ver BOE de 20 de noviembre de 1996).

    Es probable que haya tramposos que se salgan con la suya, es probable que haya mejores formas de medir, pero el sistema actual tiene una ventaja frente a otros. Todos saben cuales son las reglas del juego, y esto asegura que las reglas no sean amoldadas en función de "el candidato".

    Dicho esto, por mi actual experiencia en la evaluación de ayudas para personal investigador en biomedicina (ayudas predoctorales, posdoctorales...), os puedo asegurar que no se valora tirando únicamente del factor de impacto (aunque no niego que se mire). Hay muchos otros factores que intervienen en dicha valoración, más relacionados con la calidad que con la cantidad, con la trayectoria que con el dato concreto.

    Y todo ello sin que dejeis de tener razón en muchas de las cosas que habeis dicho.

    ResponderEliminar
  8. Estoy de acuerdo con Álvaro en que el sistema, sea bueno o malo, establece las mismas reglas para todos. La alternativa es que cada departamento haga su lista de revistas "buenas, regulares y malas", y, por lo menos por las pocas de las que he sabido, llega a meter miedo lo que se considera "equivalente a una revista internacional de máximo prestigio" en nuestro país.

    Eso sí, cada departamento o universidad ya tiene el sistema de selección que le da la gana. Personalmente sólo he tenido que salir a concursar por las Españas una vez, pero eso me quedó muy claro.

    [Si no, a ver cómo se explica que siendo doctor con ocho JCR y año y medio de experiencia docente, te ocurra lo siguiente:

    En la universidad A, te pasen por delante los becarios de primer año de la casa (!)

    En la universidad B, un candidato en concreto que no cumplía el requisito legal de haber terminado los cursos de doctorado (!!) ]

    ResponderEliminar
  9. Y si no, quedas primero y dejan la plaza desierta, como me pasó a mí en un centro valenciano...
    Respecto a criterios, en una convocatoria reciente de contratos posdoc de la UAB evalúan los artículos sólo en función del cuartil de la revista. No especifican qué año del JCR utilizarán, si el del año en que fue publicado o el último (2006).

    ResponderEliminar
  10. Syngamus:

    Precisamente por la insistencia de la UAB en el cuartil de las revistas escribí esta entrada. Me repito: puntúa más un artículo no citado en una 'gran revista' que uno con impacto en una revista menor.

    ---

    ¿Por qué no impugnáis las plazas cuando tenéis la ley de vuestra parte? Imagino (y supongo que comparto) vuestras razones, pero me gustaría conocerlas.

    ResponderEliminar
  11. Hola, no sé si esa última pregunta sobre impugnar la plaza era para mí. En mi caso con este instituto valenciano, recurrí, pero me contestaron que aunque hubiese sido el único que pasó el corte de la anep (¿o aneca? siempre las confundo), mi perfil no se ajustaba a la plaza, y punto pelota (como dice mi sobrina).

    ResponderEliminar