Recuperación de Información

The Conversation: CORD-19: corpus semántico de información científica para hacer frente a la pandemia

En diciembre de 2021 publiqué con mi compañera y amiga Rosana López Carreño, el artículo «Vista de sistemas de recuperación de información implementados a partir de CORD-19: herramientas clave en la gestión de la información sobre COVID-19» en la Revista Española de Documentación (número de 1 de diciembre de 2020). Al poco tiempo, los editores de esa revista científica nos recomendaban publicar un resumen del trabajo en el portal The Conversation (proyecto auspiciado por la CRUE y en el que participan bastantes universidades españolas).

Les hicimos caso, fruto de esa idea es la entrada en este portal titulada «CORD-19: Buscador semántico de información científica para hacer frente a la pandemia» que copiamos a continuación en este blog (siguiendo también recomendaciones de los editores del portal).

Shutterstock / PopTika

Francisco-Javier Martinez-Mendez, Universidad de Murcia y Rosana López-Carreño, Universidad de Murcia

Vivimos una pandemia de origen y alcance sin determinar que requiere de grandes esfuerzos para frenar sus efectos. La coordinación de científicos, políticos y ciudadanía, con el apoyo de muchas empresas tecnológicas, es un hecho singular que afecta positivamente a la investigación científica en un espacio muy breve de tiempo, generando herramientas de búsqueda basadas, muchas de ellas, en tecnologías semánticas.

La descripción de la documentación científica, la normalización terminológica vía tesauros y facetas, la minería de datos y el desarrollo de sistemas interoperables han permitido, en un tiempo récord, generar una amplia variedad de fuentes de información alrededor del coronavirus (artículos, casos clínicos, datos epidemiológicos, evidencias o patentes).

La reacción en cadena de editoriales, universidades, centros de investigación y empresas tecnológicas ha propiciado una diseminación de la información científica sobre la COVID-19, paralela al ritmo de contagio del propio virus, que algunos autores califican de “revolución”.

Buscadores de información

Revistas biomédicas como New England Journal of Medicine, Lancet, Nature, Science o British Medical Journal han publicado abundante material bibliográfico en abierto. Además, las editoriales han creado espacios de información con búsquedas predefinidas por los principales tópicos (Cambridge Core Coronavirus Free Access Collection, EBSCO Covid-19, Elsevier Coronavirus Research Repository, etc.).

Por otra parte, los repositorios temáticos ofrecen artículos y ‘preprints’. Entre ellos podemos encontrar MedRxiv, Biorxiv o Pubmed. Esta última, por ejemplo, ha añadido publicaciones relacionadas diariamente desde principios de enero, con un pico de 300 artículos en un solo día.

Las grandes plataformas bibliográficas y los buscadores académicos también permiten acceder a los documentos mediante búsquedas predeterminadas, filtros y conjuntos de datos estructurados (Dimensions, Kaggle, Google Dataset Search, Semantic Scholar, etc.). También están involucrados el buscador de patentes Lens (patentes) y el de casos clínicos, Kahun.

Las autoridades sanitarias, universidades, sociedades científicas y centros de investigación han desarrollado servicios informativos: National Institutes of Health, Centers for Disease Control and Prevention, Organización Mundial de la Salud y el Centro de Recursos de Coronavirus de la Universidad Johns Hopkins, el punto informativo más conocido.

La emergencia informativa no solo recae en el ámbito científico, sino también en el político y social. Ello propicia una enorme proliferación de datos de distinto tipo, estructura, formato y cobertura, saturando su localización y gestión.

Centro de Recursos del Coronavirus de la Universidad Johns Hopkins. Johns Hopkins University

¿Cuántos tipos de buscadores existen?

Es preciso diferenciar entre ellos. Podemos encontrar los estadísticos (epidemiológicos), terminológicos (semánticos) y bibliográficos. Los primeros se nutren de las series estadísticas aportadas por las administraciones e instituciones sanitarias. Esta información no suele disponerse en formatos y estructuras limpias para su reutilización. Además, necesita del desarrollo de herramientas de visualización y actualización para la toma de decisiones y para su difusión en medios de comunicación.

Para ello, se suele utilizar infografías y visualizaciones de datos, donde destacan ‘Information is beautiful’ y el mapa de la Universidad Johns Hopkins, enlazado a más de 200 000 sitios web y referente de los medios de comunicación.

Por su parte, los conjuntos de datos terminológicos son fundamentales en la gestión de información. Por ejemplo, hay distintos lenguajes controlados, como MESH o DeCS, que poseen un valor equiparable a la propia producción científica porque aumentan la precisión al recuperar información.

Al mismo tiempo, los conjuntos de datos bibliográficos recogen datos estructurados de investigación y agregan contenido desde otras fuentes. Además, es la base para el desarrollo de buscadores basados en conceptos y mapas de relaciones.

Sin embargo, la sobrecarga informativa producida por la vasta producción científica es más un problema que una ayuda si no se dispone de sistemas de recuperación de información adecuados. Los buscadores web convencionales no sirven para cribar la información útil.

Por ello, ha rebrotado la importancia de la descripción documental en estos conjuntos de datos y se apuesta claramente por la inteligencia artificial y la minería de datos, poniéndose a disposición de los investigadores prototipos que no habían tenido suficiente audiencia e interés hasta ahora.

Se precisa un nuevo paradigma para recuperar información que filtre entre la inmensa plétora de resultados. El reto es tremendo por el volumen y por trabajar al unísono con artículos revisados, ‘preprints’ y una heterogénea colección de fuentes oficiales. Es un verdadero desafío para la recuperación de información y, además, hay una gran urgencia en disponer de la misma.

CORD-19: Recopilación de datos sobre SARS-CoV-2

Por eso, en respuesta a esta gran cantidad de datos, el Instituto Allen y la Oficina de Política de Ciencia y Tecnología de Estados Unidos pusieron en marcha un recurso de libre acceso para la comunidad investigadora, llamado CORD-19, que engloba datos de investigación abierta sobre covid-19. Cuenta con 280 000 artículos académicos, incluyendo más de 150 000 con texto completo, sobre covid-19, SARS-CoV-2 y coronavirus relacionados.

Este recurso se puso en marcha el 16 de marzo de 2020 y participaron también la Biblioteca Nacional de Medicina (NLM), la iniciativa Chan Zuckerberg, Microsoft Research Asia y el contenedor de datos Kaggle, coordinado por el Centro de Seguridad y Tecnologías Emergentes de la Universidad de Georgetown.

CORD-19 agrega información semanalmente desde los repositorios PubMed, MedRxiv y OMS. Además, existe una gran sinergia entre el repositorio y el buscador semántico académico Semantic Scholar, por lo que permite la descarga del conjunto de datos. Es, sin duda alguna, el referente informativo para los investigadores durante esta pandemia, ya que Google Scholar no ha llevado a cabo algo parecido.

El esfuerzo desarrollado por la comunidad científica no tiene precedentes en volumen de su producción y en la velocidad de su transmisión. El volumen de información a manejar es ingente, el ‘big data’ ayuda a los virólogos y a otros expertos en el manejo de la información estadística y en la identificación de posibles patrones de comportamiento de la pandemia.

Información científica clasificada

A partir de CORD-19, hemos identificado más de 40 fuentes (13 conjuntos de datos y 27 buscadores) sobre la pandemia que podemos clasificar en tres categorías:

  1. Buscadores convencionales. Similares a los sistemas de búsqueda de las plataformas bibliográficas. Estos alinean la respuesta según la relevancia, con filtrado de documentos por fuente (Elsevier, biorxiv, WHO/OMS, etc.), revista, autor y fecha de publicación. También localizan información por términos o por frase exacta.
  2. “Visualizadores” de la información. Además de la búsqueda convencional localizan documentos gracias a tesauros, frecuencia de uso, proximidad de términos en las frases y expresiones regulares. Suelen complementarse con herramientas de visualización de las asociaciones entre estos conceptos (genes, productos químicos, fármacos, mutaciones, líneas celulares, especies y enfermedades). También muestran los resultados mediante nubes de etiquetas.
  3. Inteligencia artificial. Son herramientas de última generación que aplican modelos de redes neuronales para mejorar la calidad de la información recuperada. Pretenden ayudar a la toma de decisiones basadas en evidencias y en generación de ideas. También es posible la navegación por facetas y otros sistemas se apoyan en la idea del ‘chatbot’. Hay sistemas que aplican el modelado de temas para descubrir ideas subyacentes. Otros sistemas entregan como respuesta informes con asociaciones entre conceptos, filtrado por fuentes, edad de los pacientes, género, tipo de publicaciones, características del trastorno, tratamientos aplicados y resultados, palabras clave más relacionadas con el concepto, fechas de publicación y autores más influyentes en el campo de la consulta.

Es muy significativo, y digno de elogio, el esfuerzo de empresas e instituciones que han desarrollado servicios de consulta y los han puesto a disposición de la comunidad científica.

Resulta claro que la lucha contra la pandemia ha disparado el uso de buscadores semánticos por la necesidad de filtrar los resultados de las búsquedas por tres razones. La primera es la enorme producción científica que puede “infoxicar”, algo consustancial al tiempo presente. La segunda es la necesidad de recuperar por facetas o conceptos más que por coincidencia de términos. La última es la imposibilidad material de emplear el impacto como referencia para elegir un artículo.

Queda ahora verificar si este avance de la tecnología de búsqueda semántica se va a quedar circunscrito a la lucha contra la pandemia o si se va a ampliar a otros sistemas de información. Lo lógico (y deseable) es que así sea.

Una versión más ampliada de este artículo está accesible en acceso abierto en la Revista Española de Documentación Científica, editada por el CSIC.The Conversation

Francisco-Javier Martinez-Mendez, Profesor Titular de Biblioteconomía y Documentación, Universidad de Murcia y Rosana López-Carreño, Profesora de Fuentes de Información y Documentación Científica, Universidad de Murcia

Este artículo fue publicado originalmente en The Conversation. Lea el original.

El índice de concordancia: ¿origen de las humanidades digitales?.

El Padre Busa trabajando con ordenadores IBM

​​​​Bravo Ramón recuerda que una de las primeras manifestaciones de las humanidades digitales ocurrió en 1949, cuando el sacerdote Busa pidió ayuda a IBM, para elaborar un índice de concordancia (lista ordenada y clasificada por frecuencia de los términos que aparecen en un corpus de obras) de las obras completas de Santo Tomás de Aquino (más de 11 millones de palabras). Este índice se denomina ‘Index Thomisticus’.
Seguir leyendo…

Propuesta y desarrollo de un modelo para la evaluación de la recuperación de información en Internet

La recuperación de información, como disciplina claramente diferenciada de la recuperación de datos, posee una naturaleza determinista que provoca ineludiblemente ciertas dosis de incertidumbre a la hora de realizar una operación de búsqueda. Es por ello que, desde el inicio del desarrollo de esta disciplina, ha sugerido una considerable cantidad de propuestas de medida de la efectividad del funcionamiento de los sistemas encargados de esta tarea: los sistemas de recuperación de información (SRI). La consolidación de la World Wide Web como ejemplo paradigmático del desarrollo de la Sociedad de la Información y del Conocimiento, y la continua multiplicación del número de documentos que en ella se publican cada día, propicia la creación de los sistemas de recuperación de información más avanzados, de mayor volumen de documentos gestionados y de mayor popularidad: los motores de búsqueda.
Seguir leyendo…

El carácter selectivo de la recuperación de información

recuperación de datos e informaciones (nube)

recuperación de datos e informaciones (nube)

 

Uno de los libros fundamentales sobre recuperación de información es la obra ‘Language and representation in information retrieval de D.C. Blair de 1990. Y una de sus principales aportaciones es, sin duda alguna, el llegar a establecer una clara diferenciación entre el término ‘data retrieval’ y el término ‘information retrieval’, utilizando como criterios distintivos: 

  1. En recuperación de datos se usan preguntas altamente formalizadas, cuya respuesta es directamente la información deseada. En cambio, en recuperación de información las preguntas resultan difíciles de trasladar a un lenguaje normalizado (aunque existen lenguajes para ello son de naturaleza mucho menos formal que los empleados en los sistemas relacionales) y la respuesta es un conjunto de documentos que pueden contener, sólo probablemente, lo deseado, con un evidente factor de indeterminación.
     
  2. De lo anterior y según la relación entre el requerimiento al sistema y la satisfacción de usuario, la recuperación de datos es determinista y la recuperación de información es posibilista, por causa del nivel de incertidumbre presente en la respuesta.
     
  3. En cuanto al éxito de la búsqueda, en recuperación de datos el criterio a emplear es la exactitud de lo encontrado, mientras que en recuperación de información, el criterio de valor es el grado en el que la respuesta obtenida satisface las necesidades de información del usuario, es decir, su percepción personal de utilidad, más conocido como la relevancia de la respuesta..

Jesús Tramullas destaca un aspecto de las reflexiones de Blair, “la importancia, en ocasiones ignorada, que tiene el factor de predicción. Predicción por parte del usuario, ya que éste debe intuir, en numerosas ocasiones, los términos que han sido utilizados para representar el contenido de los documentos, independientemente de la presencia de mecanismos de control terminológico. Este criterio de predicción es otro de los elementos que desempeñan un papel fundamental en el complejo proceso de la recuperación de información” y que no se presenta en el campo de la recuperación de datos.

¿Recuperamos información o recuperamos datos?

conexiones de conocimiento, logo

En el campo de la recuperación de información, casi al principio de la disciplina, era normal encontrarnos con autores que empleaban la voz «recuperación de datos» cuando en realidad de lo que estaban hablando era de «recuperación de información». Esto se debía fundamentalmente a una clara influencia de la terminología informática, disciplina cuya rapidísima evolución ha inducido a muchos autores a cometer el error de considerar sinónimos ambos conceptos, llegándose a olvidar que se puede recuperar información sin emplear procedimientos informáticos (hecho posible aunque no sea lo más común hoy en día, evidentemente).
Seguir leyendo…

Utilidad lineal.

medidas de la recuperación de información la utilidad lineal

La usabilidad lineal es una medida de la recuperación de información que, esencialmente asume que la presencia de documentos relevantes en la respuesta de un sistema de recuperación de información a una determinada pregunta debe tomarse como un rédito a favor del sistema, al mismo tiempo que los documentos no relevantes deben considerarse como un débito. Por lo tanto, esta medida establece su valor favoreciendo el acierto y penalizando al mismo tiempo el desacierto
Seguir leyendo…

El Modelo del Espacio Vectorial (I): similitud entre vectores.

representación de la función del coseno para calcular la similitud de dos vectores de documentos en recuperación de información

En algunas partes de este sitio web hablamos de Gerad Salton y de «su Modelo del Espacio Vectorial que implementan la mayoría de los motores de búsqueda lo implementan como estructura de datos y que el alineamiento suele realizarse en función del parecido (o similitud) de la pregunta con los documentos almacenados. Viniendo hacia el trabajo me he parado a pensar que igual muchos no saben cómo funciona realmente este modelo y que no sería nada malo dedicarle una pequeña serie de posts para explicarlo. Vamos a ello.

La idea básica de este modelo reside en la construcción de una matriz (podría llamarse tabla) de términos y documentos, donde las filas fueran estos últimos y las columnas correspondieran a los términos incluidos en ellos. Así, las filas de esta matriz (que en términos algebraicos se denominan vectores) serían equivalentes a los documentos que se expresarían en función de las apariciones (frecuencia) de cada término. De esta manera, un documento podría expresarse de la manera d1=(1, 2, 0, 0, 0, … … …, 1, 3) siendo cada uno de estos valores el número de veces que aparece cada término en el documento. La longitud del vector de documentos sería igual al total de términos de la matriz (el número de columnas).

De esta manera, un conjunto de m documentos se almacenaría en una matriz de m filas por n columnas, siendo n el total de términos almacenamos en ese conjunto de documentos. La segunda idea asociada a este modelo es calcular la similitud entre la pregunta (que se convertiría en el vector pregunta, expresado en función de la aparición de los n términos en la expresión de búsqueda) y los m vectores de documentos almacenados. Los más similares serían aquellos que deberían colocarse en los primeros lugares de la respuesta.

¿Cómo se calcula esta similitud? Disponemos de varias fórmulas que nos permiten realizar este cálculo, la más conocida es la Función del Coseno, que equivale a calcular el producto escalar de dos vectores de documentos (A y B) y dividirlo por la raíz cuadrada del sumatorio de los componentes del vector A multiplicada por la raíz cuadrada del sumatorio de los componentes del vector B.

representación de la función del coseno para calcular la similitud de dos vectores de documentos en recuperación de información

No hay que asustarse a la hora de oir hablar de «producto escalar de dos vectores», ya que se calcula multiplicando componente a componente y sumando los productos. Así, si disponemos de los vectores de documentos A (1, 0, 1, 0, 1, 0) y B (1, 0, 1, 1, 0, 0) su valor de similitud según la función del Coseno se calculará tal como podemos ver en la siguiente tabla:

tabla de ejemplo de cálculo de la función de similitud del coseno

De esta manera tan sencilla se calcula este valor de similitud. Como es obvio, si no hay coincidencia alguna entre los componentes, la similitud de los vectores será cero ya que el producto escalar será cero (circunstancia muy frecuente en la realidad ya que los vectores llegan a tener miles de componentes y se da el caso de la no coincidencia con mayor frecuencia de lo que cabría pensar). También es lógico imaginar que la similitud máxima sólo se da cuando todos los componentes de los vectores son iguales, en este caso la función del coseno obtiene su máximo valor, la unidad. Lo normal es que los términos de las columnas de la matriz hayan sido filtrados (supresión de palabras vacías) y que en lugar de corresponder a palabras, equivalgan a su raíz ‘stemmed’ (agrupamiento de términos en función de su base léxica común, por ejemplo: economista, económico, economía, económicamente, etc.). Generalmente las tildes y las mayúsculas/minúsculas son ignorados. Esto se hace para que las dimensiones de la matriz, de por sí considerablemente grandes no alcancen valores imposibles de gestionar. No obstante podemos encontrar excepciones a la regla general, tal como parece ser el caso de Yahoo!, que no ignora las palabras vacías.

Para finalizar, la del coseno no es la única función de similitud. Existen otras, entre las que destacan las de Dice y Jaccar, pero que pueden resultar algo más engorrosas no sólo de calcular sino más bien de interpretar y que por tanto son menos aplicadas en Recuperación de Información

Precisión y exhaustividad normalizadas

Entre las medidas alternativas a la relevancia encontramos la Exhaustividad Normalizada como propuesta de diversos autores. Casi todo el mundo reconoce que el mayor problema de las medidas basadas en la relevancia es la alta dosis de subjetividad inherente a su determinación. Otro de los problemas que conlleva su uso reside en la secuencialidad de la lectura de los resultados. Korfhage avisa: “los sistemas de recuperación de información típicos presentan los resultados formando una secuencia de documentos. Incluso en aquellos sistemas que no presentan así la información, el usuario suele examinar los documentos secuencialmente» (Korfhage, 1997). Inevitablemente, este modo de consulta afectará al juicio que el usuario ha de llevar a cabo sobre la relevancia o no de los documentos siguientes.

En la práctica, todos los usuarios de estos sistemas sufren este problema cuando, al consultar dos documentos más o menos igual de interesantes y relacionados con una materia, centran su atención de forma preferente en el primero de ellos, aunque el segundo no desmerezca en nada al anterior. Algo parecido acaece cuando un usuario realiza una búsqueda y los primeros documentos recuperados resultan relevantes con el tema de su interés. En esta circunstancia, el usuario tendrá una sensación positiva y se considerará satisfecho, no preocupándose por el número de documentos no relevantes que también recupera (que puede llegar a ser muy grande). La situación contraria también ocurre cuando la presencia de los documentos no relevantes al principio de la respuesta es masiva. En este caso la sensación de frustración va a ser de gran consideración, independientemente de que en el global de la búsqueda se entreguen muchos más documentos relevantes que no relevantes.

Estas reflexiones han propiciado el desarrollo de medidas que tomen en consideración la secuencia en la que los documentos son presentados a los usuarios. El primer trabajo conocido corresponde a Rocchio (citado en [Rijsbergen, 1999] y en [Moschitii, 2003]), quien define una exhaustividad normalizada y una precisión normalizada para sistemas que presentan los documentos alineados según un determinado criterio de clasificación y donde no afecte el tamaño de la muestra analizada. El autor define un “sistema ideal donde los documentos relevantes se recuperan antes que los documentos no relevantes y se puede representar en un gráfico la evolución de la exhaustividad de esta operación de recuperación de información”. 

e-p normalizadas
Ejemplo de cómo la Exhaustividad normalizada queda comprendida entre el peor y el mejor resultado posible. Fuente: Rijsbergen, C.J. Information Retrieval. [En línea]. Glasgow, University, 1999.[Consulta: 29 noviembre 2004]

Si en una base de datos de 25 documentos se sabe que cinco de ellos son relevantes, y que han sido devueltos por el sistema al realizar una búsqueda en las posiciones {3, 5 , 10, 11, 15}, se puede representar un gráfico etapa a etapa (tal como muestra la imagen anterior). La exhaustividad de esta búsqueda alcanza el valor de 0.2 (1 documento relevante recuperado dividido entre 5 documentos relevantes de la colección) al analizar el tercer documento (hasta entonces vale cero). Cada vez que se analice un documento relevante, el valor de la exhaustividad aumentará, hasta llegar a la unidad (en este caso, en el documento 15), permaneciendo constante hasta el último documento recuperado, ya que todos los relevantes ya han aparecido. Tal como se desprende de la comparación con la gráfica de la mejor búsqueda posible (cuando se presentan los cinco documentos relevantes en las cinco primeras posiciones de la secuencia) o con la peor búsqueda posible (cuando se presentan los cinco documentos relevantes en las cinco últimas posiciones de la secuencia), resulta muy intuitiva, tal como se refleja en la anterior imagen.

Para Korfhage, “el área comprendida entre la búsqueda actual y la gráfica ideal representa una medida de la ejecución del SRI” (Korfhage, 1997). Esta medida se calcula restando al valor de la unidad el resultado de dividir el valor de esta área por (n1 * (N – n1)). En el ejemplo anterior, el valor del área es 29, por lo que el valor de la exhaustividad normalizada, aplicando la anterior fórmula, será el resultado de la siguiente operación: (1 – 21/(5 * (25 – 5)) = (1 – 0.21) = 0.79

La precisión normalizada se define de manera análoga: “mientras la precisión ordinaria es una medida exactamente definida, esta medida depende del conocimiento del número total de documentos relevantes” (Korfhage, 1997). Rijsbergen propone como método para su cálculo “restar a la unidad el resultado de dividir el valor de esta área por el valor del área existente entre la búsqueda ideal y la peor búsqueda” (Rijsbergen, 1999). En el ejemplo propuesto, el resultado de esta precisión normalizada sería (1 – 21/(95 – 15)) = (1 – 21/80) = 0.7375. Rijsbergen destaca algunos aspectos de estas medidas: “ambas presentan un comportamiento consistente, es decir, cuando una se aproxima a cero la otra se aproxima a la unidad. Ambas medidas asignan valores distintos de peso a los documentos recuperados en la secuencia, la precisión los asigna a los iniciales y la exhaustividad asigna un valor uniforme a todos los documentos relevantes. En tercer lugar, estas medidas pueden entenderse como una aproximación de la precisión y exhaustividad promedio y, por último, los problemas que surgían en la determinación de la longitud esperada de búsqueda (por la posición de los documentos relevantes), son inexistentes en este caso”.

Bibliografía.

(Korfhage, 1997) Korfhage, R.R. Information Retrieval and Storage. New York: Wiley Computer Publisher, 1997.

(Moschitti, 2003) Moschitti, A. ‘A study on optimal parameter tuning for Rocchio Text Classifier’. ECIR 2003 [En línea][Consulta: 29 noviembre 2004]

(Risjbergen, 1999) Risjbergen, C. J. Information Retrieval. [En línea]Glasgow, University, 1999.[Consulta: 29 noviembre 2004]