febrero 2026

¿Recuperamos información o datos?

Nota de actualización de entracda antigua en el blog

Actualizo una entrada antigua de este blog que escribí en el año 2006 sobre la cierta confusión existente sobre si, en una búsqueda, recuperamos información o datos. Vamos a ver cómo queda.

En el campo de la recuperación de información (‘information retrieval‘), casi al principio de la disciplina, era normal encontrar autores que empleaban la expresión «recuperación de datos» cuando en realidad de lo que estaban hablando era de recuperar información. Teniendo en cuenta las fechas de lasque hablamos (años 80, cuando el tecnopop), Esto se debía, fundamentalmente, a una clara influencia de la terminología informática, disciplina cuya rapidísima evolución llevó a muchos autores a cometer el error de considerar sinónimos ambos conceptos, llegándose a olvidar, como afirmaba Brookes, que se puede recuperar información sin emplear procedimientos informáticos (hecho indiscutible aunque no sea lo más común hoy en día, evidentemente).

Portda del Diccionaro MacMillan de Tecnologías de la Informació

El frecuente y necesario empleo de una tecnología no sustituye la obligatoriedad de utilizar adecuadamente los conceptos terminológicos. Un ejemplo de este desacierto lo hallamos en el Glosario ALA que define “information retrieval” como “recuperación de la información» en su primera acepción y como “recuperación de datos” en una segunda, considerando sinónimos ambos términos en lengua inglesa. De parecida opinión es el Diccionario Mac Millan de Tecnología de la Información, que considera la recuperación de información como el conjunto de “técnicas empleadas para almacenar y buscar grandes cantidades de datos y ponerlos a disposición de los usuarios”.

Afortunadamente, es mayor el grupo de autores que establecen diferencias entre ambos conceptos. Entre ellos destaca Meadow, para quien la recuperación de la información es “una disciplina que involucra la localización de una determinada información dentro de un almacén de información o base de datos”. Este autor establece de forma implícita una ligazón entre recuperación de información y el concepto de «selectividad» a la hora de presentar esa información al usuario siguiendo algún tipo de criterio discriminatorio (selectivo por tanto) entre una gran colección de documentos. Meadow marca un poco más estas diferencias, al afirmar que no es lo mismo la recuperación de información entendida como traducción del término inglés information recovery que cuando se traduce el término information retrieval, porque “en el primer caso no es necesario proceso de selección alguno”. Pérez-Carballo Strzalkowski refuerzan esta idea afirmando que “una típica tarea de la recuperación de información es traer documentos relevantes desde una gran archivo en respuesta a una pregunta formulada por un usuario y ordenar estos documentos de acuerdo con su relevancia.

Grossman y Frieder indican que la recuperación de información es “hallar documentos relevantes, no encontrar simples correspondencias a unos patrones de bits”. De similar criterio es el W3C que define recuperar información como “dado un conjunto de documentos y una pregunta, encontrar el conjunto de documentos más relevantes con la pregunta”.

En clase, explico a mis estudiantes que, en la recuperacíón de datos, las preguntas son altamente formalizadas y la respuesta  es directamente toda la información deseada. Así, “recuperar los títulos de los libros escritos por Jorge Luis Borges en la década de los 50” sería la ecuación “SELECT titulo WHERE autor=’Jorge Luis Borges’ AND fecha>1949  AND fecha<1960”. Otra pregunta fácil es saber cuántos ciudadanos de Murcia tienen alguna multa de tráfico sin abonar al Ayuntamiento de la ciudad y cuánto totaliza esa deuda para las arcas municipales. Nos movemos en un paradigma determinista, el territorio del modelo relacional de bases de datos. También les explico que en la recuperación de información, las preguntas son más difíciles de trasladar a un lenguaje formal y la respuesta es un conjunto de documentos que probablemente contendrá la información deseada, siempre con un factor de cierta indeterminación. En este modelo, el territorio de los SRI, La consulta sería, por ejemplo, «Obras Borges década 50”.

Foto de C.J: Rijsbergen, de la Universidad de Glasgow

El gran profesor ‘Keith’ Rijsbergen establece en la siguiente tabla las diferencias entre recuperar datos e información:

Diferencias entre recuperación de datos y recuperación de información según Keith Risjbergen

Finalizo siempre esta cuestión presentando la siguiente cita de Ricardo Baeza-Yates:

dada una necesidad de información (consulta + perfil del usuario + … ) y un conjunto de documentos, ordenar los documentos de más a menos relevantes para esa necesidad y presentar un subconjunto de aquellos de mayor relevancia

¿Sigue este tema vigente?

Creo que esta distinción conceptual sigue siendo especialmente pertinente hoy en día. Si se observa la evolución reciente de los sistemas de búsqueda y acceso a la información. Las tecnologías actuales —como la búsqueda semántica, el uso de representaciones vectoriales (embeddings) o los modelos de lenguaje de gran tamaño (LLMs)— no han eliminado el problema clásico de la recuperación de información, sino que han añadido nuevas capas de complejidad. Estos sistemas ya no se limitan a la coincidencia literal entre términos (‘matching‘), sino que operan sobre representaciones semánticas del contenido, aproximándose con mayor eficacia a la noción de relevancia, aunque sin resolverla plenamente.

Datos, información y recuperación en sistemas de búsqueda actuales
Datos, información y recuperación en sistemas de búsqueda actuales.
Imagen elaborada por chatGPT.

Muchos de los SRI contemporáneos combinan, de forma híbrida, procedimientos propios de la recuperación de datos y de la recuperación de información. La indexación estructurada, las búsquedas exactas o las consultas sobre bases de datos conviven con mecanismos de ranking, inferencia semántica y estimación de relevancia. Esta convergencia tecnológica no invalida la distinción conceptual entre ambos enfoques; al contrario, la hace más necesaria, ya que permite comprender mejor los límites, fortalezas y riesgos interpretativos de cada tipo de sistema. En este contexto, los sistemas basados en modelos de lenguaje de gran tamaño y arquitecturas de retrieval-augmented generation (RAG) reintroducen, bajo nuevas formas, el debate clásico entre datos e información. Aunque estos modelos pueden generar respuestas coherentes y contextualmente plausibles, su funcionamiento depende en gran medida de procesos previos de recuperación y selección de documentos relevantes. La calidad informativa del resultado no reside únicamente en la capacidad generativa del modelo, sino en la adecuación del proceso de recuperación que lo alimenta, confirmando la vigencia de los principios fundamentales de la recuperación de información.

Fuentes bibliográficas

[1] Brookes afirma esto en la presentación del primer capítulo de la obra Information Retrieval Research titulado ‘Information Technology and Information Science’, donde recuerda que el problema de la recuperación de información no ha de aplicarse sólo a lo automático, sino también a lo manual. (Oddy et al, 1981). Salton también lo recalca al comentar que no siempre se recupera información textual (Salton & McGill, 1983).

[2] Meadow, C.T. (1992) Text Information Retrieval

[3] Pérez-Carballo, J. and Strzalkowski, T. ‘Natural language information retrieval: progress report’. Information Processing and Management 36, 2000. p. 155-178

[4] (Grossman and Frieder, 1998) Grossman, D.A. and Frieder, O. Information retrieval: algorithms and heuristics. Boston: Kluwer Academia Publishers, 1998.

Los CRIS y su papel en la Ciencia Abierta

CRIS son las siglas de ‘Current Research Information System‘ (sistemas de información de investigación), plataformas que representan un pilar esencial para que las instituciones de investigación adopten plenamente la estrategia de la Ciencia Abierta. Su importancia va más allá del registro de la producción científica —como artículos, capíutlos de libros o proyectos— ya que operan como una infraestructura de metadatos que lleva a cabo la conexión entre personas, publicaciones, datos, financiación e impacto de la investigación, facilitando la trazabilidad, visibilidad, interoperabilidad y reutilización del conocimiento. En un contexto en que las agencias financiadoras, las universidades y los repositorios convergen hacia la apertura, la transparencia y la responsabilidad en la investigación como pilares del tránsito a la Ciencia Abierta, los CRIS permiten que esa transformación se realice de forma sistemática y estructurada.

El CRIS como elemento conector en el contexto de la Ciencia (imagen elaborada con chatGPT).
El CRIS como elemento conector en el contexto de la Ciencia (imagen elaborada con chatGPT).

Un aspecto central del valor de un CRIS es su capacidad para articular el ciclo completo de la investigación: desde la financiación y la planificación de proyectos hasta la publicación, el depósito de datos, la transferencia y la evaluación. Esta visión sistémica favorece que las instituciones puedan cumplir con mandatos de acceso abierto y datos abiertos (por ejemplo, enlazando las publicaciones con sus versiones en repositorio o monitoreando embargos), que gestionen resultados más allá del artículo tradicional (conjuntos de datos de investigación, código de software libre, materiales docentes, etc.) y que generen métricas e informes para evaluación responsable. En este sentido, el CRIS actúa como una “capa de información contextual”: quién, qué, cuándo, con qué financiación, bajo qué proyecto, qué impacto, etc., mientras que los repositorios suelen limitarse de la preservación y difusión del objeto digital.

A nivel internacional encontramos ejemplos de CRIS que ilustran tanto el modelo como su relación con la Ciencia Abierta. Por ejemplo, el sistema nacional noruego CRIStin (Current Research Information System in Norway) permite documentar toda la producción académica de los investigadores noruegos y complementa su uso para evaluación del sistema de investigación público.

Cabecera del sitio web Cristin
Cabecera del sitio web Cristin

En Finlandia, Alemania y los Países Bajos también se han desarrollado modelos nacionales de gestión de la información de investigación, como documenta el informe de OCLC Research. También en Europa, la asociación euroCRIS promueve el estándar CERIF (Common European Research Information Format) con el fin de asegurar la interoperabilidad entre los CRIS.

Esquema general del estándar CERIF
Esquema general del estándar CERIF

Estos ejemplos muestran cómo los CRIS institucionales y nacionales se integran en un ecosistema mayor de datos e infraestructuras de Ciencia Abierta. En el caso de un país que adopte un CRIS nacional o regional, la ventaja es que se construye una infraestructura homogénea para la agregación de datos de múltiples instituciones, lo cual permite realizar análisis nacionales, comparativos y soportar políticas de Ciencia Abierta a gran escala.

En España, los CRIS institucionales de las universidades funcionan en estrecha relación con los llamados “portales de investigación” públicos, es decir, las interfaces visibles donde se exponen perfiles de personal investigador, grupos, publicaciones, proyectos y métricas. Dichos portales, alimentados por la base de datos de Dialnet y por el CRIS de cada institución académica, permiten la visibilidad institucional y cumplen una función de transparencia hacia la sociedad. La integración entre CRIS y portal es clave: el primero organiza, vincula y valida los metadatos, el segundo los presenta al público de forma navegable.

Este marco es fruto del Proyecto Hércules, impulsado por Crue Universidades Españolas, que proponía una arquitectura semántica común para los CRIS universitarios españoles, basada en estándares compartidos, ontologías alineadas y una solución de gestión de la investigación común. El resultado final facilita que los datos de diferentes universidades se puedan comparar, agregar y explotar de forma interoperable. Sin duda alguna, la clave de bóveda de este proyecto ha sido el papel de Dialnet, si el trabajo previo de esta fundación, todo el desarrollo de este proyecto hubiera resultado valdío. Una vez más se demuestra la frase de Bill Gates: ‘content is king‘. Poco a poco, se van implementando los portales de investigación de las universidades españolas y se está configurando un sistema de información científica agregado que puede asumir funciones similares a las de un CRIS colectivo para aquellas instituciones que no cuentan con soluciones propias completas. Estas plataformas son elementos articuladores de un ecosistema de investigación abierta, interoperable y de alcance cada vez mayor. A nivel internacional, los sistemas que adopten el estándar CERIF muestran cómo la gestión de la información investigadora se ha transformado en una infraestructura de infraestructuras (“infraestructura de segundo orden”) para la Ciencia Abierta. En España, esta convergencia entre CRIS, portales de investigación y plataformas cooperativas como Dialnet, señala una evolución hacia un modelo más integrado, transparente y orientado al bien público del sistema de investigación.

Tres importantes universidades británicas «abandonan» Elsevier, ¿por qué y cómo lo hacen?

Las universidades de Sheffield (la de nuestro «Tío Tom» tenía que ser), Lancaster y Surrey decidieron rechazar un nuevo acuerdo de suscripciones ‘read and publish‘ y abandonan la suscripción masiva de revistas científicas con Elsevier.

Esta decisión está impulsada por restricciones financieras de estas instituciones y por la demanda de mejores condiciones de acceso abierto, pone de manifiesto la creciente presión sobre los costes de suscripción a las revistas científicas de alto nivel. Las editoriales privadas venden paquetes completos de este tipo de publicaciones, junto con otros servicios y productos, elevando los costes hasta cantidades que representan un esfuerzo, no siempre justificado en términos de aprovechamiento, para las instituciones de educación superior.

Estas tres universidades se unieron a un grupo creciente en el Reino Unido (York, EssexKent y Sussex, entre otras) que optaron por priorizar modelos sostenibles centrados en el acceso abierto (¡el de verdad! no el que firman las universidades españoles a través de CRUE y con ayuda del ministerio), frente a los paquetes tradicionales «todo incluido» que ofrecen las grandes editoriales de pago y que se convierten en insostenibles en épocas donde la inversión en lo público se reencamina más hacia gastos militares que hacia la mejora de la financiación de las universidades públicas.

En la línea marcada anteriormente por UCLA, las universidades de Sheffield, Lancaster y Surrey han dispuesto medidas de contingencia para no «dejar desabastecidos» a sus estudiantes e investigadores:

  • Préstamo interbibliotecario de «alta velocidad». Es la «joya de la corona» de su estrategia, se ha optimizado el préstamo para que los investigadores puedan solicitar artículos específicos que ya no están bajo suscripción. El éxito se basa en la rapidez (entregas digitales en menos de 30 minutos en muchos casos) y búsqueda ampliada (plataformas como StarPlus de Sheffield que permiten buscar más allá de la colección propia y generar solicitudes automáticas). 
  • Suscripciones selectivas y acceso histórico: las universidades «no cortan el grifo» por completo. De hecho, sus bibliotecas mantienen títulos individuales (se seguirá pagando de forma independiente por las revistas de Elsevier que tengan el mayor uso e impacto real en su comunidad) y se mantiene acceso post-cancelación (se conserva el derecho a leer artículos publicados durante los años en que la suscripción estuvo activa).
  • Fomento del uso de software que rastrea versiones gratuitas y legales de los artículos, recomendando las extensiones del navegador como LibKey Nomad o sistemas como Unpaywall que detectan si un artículo tiene una versión en abierto mientras el usuario navega.
  • Uso intensivo de los repositorios institucionales impulsando sus propios archivos digitales (como White Rose Research Online) donde los autores depositan sus manuscritos aceptados.
  • Las universidades de Surrey y Lancaster han implementado políticas de «Rights Retention«. Esto obliga a sus investigadores a mantener la propiedad intelectual de sus manuscritos para que puedan subirse a la web de la universidad inmediatamente, sin esperar a que la editorial levante el «muro de pago». 

Alternativas implantadas en la Universidad de California para "superar" el fin de las suscripciones masivas a Elsevier y otras editoriales. Fuente: Universo Abierto.

Alternativas implantadas en la Universidad de California para «superar» el fin de las suscripciones masivas a Elsevier y otras editoriales. Fuente: Universo Abierto.

Es posible que a los mayores les suene este modelo de acceso a la literatura científica (que podríamos llamar «bajo demanda»). De alguna manera, reproduce el cómo se accedía a los artículos a principios de este siglo, con una visión algo más actual en cuanto al uso de la tecnología donde la Ciencia Abierta comienza a abrirse paso. Si esto funcionaba antes del tremendo derroche acometido por universidades y autoridades gubernamentales que lo han financiado. Es muy posible que el rendimiento y la excelencia investigadora no vayan a sufrir deterioro alguno y, teóricamente, se podrán dedicar esos recursos a financiar más y mejores equipos de investigación, en lugar de, literalmente, regalarlos a editoriales privadas como Elsevier, cuando no a editoriales directamente depredadoras.

Cantimplora con la famosa frase de Newton grabada

El avance científico no se va a detener, seguro que siempre habrá alguien que pueda ver más allá porque está aupado sobre los hombros de muchos sabios que le han precedido (Newton dixit). Y quizá deberíamos volver a confiar en las bibliotecas que siguen estando ahí, internet no las jubiló (aunque para muchos así lo haya parecido).