febrero 2026

El «contrato para la web» de Berners-Lee

Actualizo una entrada de noviembre en 2019 sobre el «Contrato para la Web» que puso en marcha el inventor de todo esto, Sir Tim Berners-Lee, para intentar asegurar que internet debe seguir siendo un bien público para toda la sociedad.

fragmento del contrato para la web de Sir Tim Berners Lee

«La web se diseñó para unir a la gente y hacer que el conocimiento fuese accesible para todos y todas. Ha cambiado el mundo para bien y ha mejorado la vida de miles de millones de personas. Sin embargo, todavía hay muchas personas que no pueden acceder a sus ventajas y muchas otras para las que la Web supone un coste demasiado elevado.

Todos tenemos un papel que cumplir a la hora de salvaguardar el futuro de la Web. Los representantes de más de 80 organizaciones redactaron el Contrato para la Web en nombre de gobiernos, empresas y la sociedad civil. En él se establecen los compromisos que deben guiar las políticas digitales. Con el fin de alcanzar los objetivos del Contrato, los gobiernos, las empresas, la sociedad civil y las personas deben comprometerse con el desarrollo sostenido de dichas políticas, así como con la defensa y la implementación de este texto».

Así presentaba en el año 2019 Sir Tim Berners-Lee, el inventor de la web, su iniciativa llamada «Contrato para la Web«. El objeto de la misma era garantizar que todos tenemos acceso a ella, no solo las personas que viven en países donde el nivel de vida lo permitiera y el gobierno sea democrático. La idea de Berners-Lee iba en la línea de conseguir el verdadero acceso universal a «su criatura», la que propuso casi de escondidas a sus jefes del CERN hace más de 30 años.

Este contrato se estructuraba en 9 principios básicos que presentamos de forma resumida:

Asegurarse de que todo el mundo pueda conectarse a internet para que cualquier persona, independientemente de quién sea o dónde viva, pueda participar de forma activa en la red.
Hacer que la totalidad de internet esté disponible en todo momento para que a nadie se le niegue el derecho a disfrutar de un acceso completo a la red.
Respetar y proteger los derechos básicos de las personas sobre sus datos y su privacidad en la red para que todo el mundo pueda usar Internet libremente de forma segura y sin miedo.
Hacer que el acceso a internet sea asequible y accesible para todo el mundo para que nadie quede excluido del uso y el desarrollo de la web.
Respetar y proteger la privacidad y los datos personales, con el fin de generar confianza en la red para que las personas tengan el control sobre sus vidas en Internet y que cuenten con opciones claras y relevantes en lo relativo a sus datos y su privacidad.
Desarrollar tecnologías que promuevan lo mejor de la humanidad y contribuyan a mitigar lo peor para que la web sea realmente un bien público en donde prevalezca el interés de las personas.
Crear y colaborar en la web para que la web tenga un contenido rico y relevante para todos.
Construir comunidades sólidas que respeten el discurso civil y la dignidad humana para que todo el mundo se sienta seguro y bienvenido en la red.
Luchar por la web para que siga siendo abierta y un recurso público global para las personas de todo el mundo, ahora y en el futuro.

Estos principios afectan («reclaman» más bien) a gobiernos, empresas y ciudadanos. Están dirigidos a gran parte (a lo mejor a toda) de la sociedad actual. Asegurar que la red tenga infraestructura suficiente, que el acceso sea lo más barato posible, que se respeten los derechos de los usuarios y que su uso esté dirigido a mejorar a las personas, son causas por las que vale la pena postularse, más allá de rellenar el formulario de adhesión y hacer clic con el dedo en la pantalla del teléfono.

Actualización a fecha de 2026.

Portada de la declaración por el futuro de la internet — Portada de la declaración

Al momento de su lanzamiento, gobiernos como Francia y Alemania se sumaron a la iniciativa. El gobierno alemán anunció su apoyo a la iniciativa en noviembre de 2018, destacando internet como un «bien público» y un derecho fundamental que debe ser protegido, asegurando el acceso para todos y respetando la privacidad. El gobierno francés también se adhirió a la iniciativa en términos similares. Además, la Unión Europea se ha alineado estrechamente con los principios básicos dictados por Berners-Lee, al igual que los esfuerzos conjuntos de Estados Unidos y otros 60 países firmantes de la «Declaración para el Futuro de Internet«, que busca un internet abierto, seguro y libre. Países como Ghana y Brasil han tenido intervenciones directas apoyadas por la Web Foundation para mejorar la asequibilidad y los derechos digitales.

En el caso brasileño, apoyó activamente el desarrollo y aprobación del Marco Civil da Internet en Brasil, considerado el primer «proyecto de ley de derechos» de internet en el mundo. Esta legislación consagraba derechos fundamentales como la neutralidad de la red, la privacidad y la libertad de expresión. En Ghana, la fundación trabajó para abordar la brecha digital, particularmente la brecha de género, a través de la red Women’s Rights Online (WRO). Esto incluye la promoción de políticas de TIC que sean sensibles al género, fomentando el acceso a internet asequible y garantizando los derechos digitales de las mujeres.

Las políticas públicas influenciadas por el contrato se centran en los tres pilares de gobierno del documento:

1. Asegurar la conectividad (acceso): Políticas destinadas a reducir la brecha digital y garantizar que todo el mundo pueda conectarse a internet, haciendo que sea asequible y accesible.
2. Mantener la red abierta (neutralidad y disponibilidad): Normativas que prohíben el cierre o la censura total de internet por parte de los gobiernos.
3. Respetar la privacidad y datos (gobernanza): Políticas alineadas con el cumplimiento de derechos de datos, similares al RGPD (Reglamento General de Protección de Datos) en la UE.

Principales aliados tecnológicos:
Más de 150 organizaciones respaldan la iniciativa, incluyendo grandes tecnológicas como Google, Facebook (Meta), GitHub, Reddit y DuckDuckGo, que han ajustado sus políticas de producto a estos principios.

Para finalizar, queremos recordar que el contrato no es solo una aspiración, es una verdadera «hoja de ruta» para políticas concretas para asegurar que internet siga siendo una herramienta para el bien público.

02/24/2026 por admin blog Internet 10

¿Recuperamos información o datos?

Nota de actualización de entracda antigua en el blog

Actualizo una entrada antigua de este blog que escribí en el año 2006 sobre la cierta confusión existente sobre si, en una búsqueda, recuperamos información o datos. Vamos a ver cómo queda.

En el campo de la recuperación de información (‘information retrieval‘), casi al principio de la disciplina, era normal encontrar autores que empleaban la expresión «recuperación de datos» cuando en realidad de lo que estaban hablando era de recuperar información. Teniendo en cuenta las fechas de lasque hablamos (años 80, cuando el tecnopop), Esto se debía, fundamentalmente, a una clara influencia de la terminología informática, disciplina cuya rapidísima evolución llevó a muchos autores a cometer el error de considerar sinónimos ambos conceptos, llegándose a olvidar, como afirmaba Brookes, que se puede recuperar información sin emplear procedimientos informáticos (hecho indiscutible aunque no sea lo más común hoy en día, evidentemente).

Portda del Diccionaro MacMillan de Tecnologías de la Informació

El frecuente y necesario empleo de una tecnología no sustituye la obligatoriedad de utilizar adecuadamente los conceptos terminológicos. Un ejemplo de este desacierto lo hallamos en el Glosario ALA que define “information retrieval” como “recuperación de la información» en su primera acepción y como “recuperación de datos” en una segunda, considerando sinónimos ambos términos en lengua inglesa. De parecida opinión es el Diccionario Mac Millan de Tecnología de la Información, que considera la recuperación de información como el conjunto de “técnicas empleadas para almacenar y buscar grandes cantidades de datos y ponerlos a disposición de los usuarios”.

Afortunadamente, es mayor el grupo de autores que establecen diferencias entre ambos conceptos. Entre ellos destaca Meadow, para quien la recuperación de la información es “una disciplina que involucra la localización de una determinada información dentro de un almacén de información o base de datos”. Este autor establece de forma implícita una ligazón entre recuperación de información y el concepto de «selectividad» a la hora de presentar esa información al usuario siguiendo algún tipo de criterio discriminatorio (selectivo por tanto) entre una gran colección de documentos. Meadow marca un poco más estas diferencias, al afirmar que no es lo mismo la recuperación de información entendida como traducción del término inglés information recovery que cuando se traduce el término information retrieval, porque “en el primer caso no es necesario proceso de selección alguno”. Pérez-Carballo y Strzalkowski refuerzan esta idea afirmando que “una típica tarea de la recuperación de información es traer documentos relevantes desde una gran archivo en respuesta a una pregunta formulada por un usuario y ordenar estos documentos de acuerdo con su relevancia”.

Grossman y Frieder indican que la recuperación de información es “hallar documentos relevantes, no encontrar simples correspondencias a unos patrones de bits”. De similar criterio es el W3C que define recuperar información como “dado un conjunto de documentos y una pregunta, encontrar el conjunto de documentos más relevantes con la pregunta”.

En clase, explico a mis estudiantes que, en la recuperacíón de datos, las preguntas son altamente formalizadas y la respuesta es directamente toda la información deseada. Así, “recuperar los títulos de los libros escritos por Jorge Luis Borges en la década de los 50” sería la ecuación “SELECT titulo WHERE autor=’Jorge Luis Borges’ AND fecha>1949 AND fecha<1960”. Otra pregunta fácil es saber cuántos ciudadanos de Murcia tienen alguna multa de tráfico sin abonar al Ayuntamiento de la ciudad y cuánto totaliza esa deuda para las arcas municipales. Nos movemos en un paradigma determinista, el territorio del modelo relacional de bases de datos. También les explico que en la recuperación de información, las preguntas son más difíciles de trasladar a un lenguaje formal y la respuesta es un conjunto de documentos que probablemente contendrá la información deseada, siempre con un factor de cierta indeterminación. En este modelo, el territorio de los SRI, La consulta sería, por ejemplo, «Obras Borges década 50”.

Foto de C.J: Rijsbergen, de la Universidad de Glasgow

El gran profesor ‘Keith’ Rijsbergen establece en la siguiente tabla las diferencias entre recuperar datos e información:

Diferencias entre recuperación de datos y recuperación de información según Keith Risjbergen

Finalizo siempre esta cuestión presentando la siguiente cita de Ricardo Baeza-Yates:

“dada una necesidad de información (consulta + perfil del usuario + … ) y un conjunto de documentos, ordenar los documentos de más a menos relevantes para esa necesidad y presentar un subconjunto de aquellos de mayor relevancia”

¿Sigue este tema vigente?

Creo que esta distinción conceptual sigue siendo especialmente pertinente hoy en día. Si se observa la evolución reciente de los sistemas de búsqueda y acceso a la información. Las tecnologías actuales —como la búsqueda semántica, el uso de representaciones vectoriales (embeddings) o los modelos de lenguaje de gran tamaño (LLMs)— no han eliminado el problema clásico de la recuperación de información, sino que han añadido nuevas capas de complejidad. Estos sistemas ya no se limitan a la coincidencia literal entre términos (‘matching‘), sino que operan sobre representaciones semánticas del contenido, aproximándose con mayor eficacia a la noción de relevancia, aunque sin resolverla plenamente.

Datos, información y recuperación en sistemas de búsqueda actuales.
Imagen elaborada por chatGPT.

Muchos de los SRI contemporáneos combinan, de forma híbrida, procedimientos propios de la recuperación de datos y de la recuperación de información. La indexación estructurada, las búsquedas exactas o las consultas sobre bases de datos conviven con mecanismos de ranking, inferencia semántica y estimación de relevancia. Esta convergencia tecnológica no invalida la distinción conceptual entre ambos enfoques; al contrario, la hace más necesaria, ya que permite comprender mejor los límites, fortalezas y riesgos interpretativos de cada tipo de sistema. En este contexto, los sistemas basados en modelos de lenguaje de gran tamaño y arquitecturas de retrieval-augmented generation (RAG) reintroducen, bajo nuevas formas, el debate clásico entre datos e información. Aunque estos modelos pueden generar respuestas coherentes y contextualmente plausibles, su funcionamiento depende en gran medida de procesos previos de recuperación y selección de documentos relevantes. La calidad informativa del resultado no reside únicamente en la capacidad generativa del modelo, sino en la adecuación del proceso de recuperación que lo alimenta, confirmando la vigencia de los principios fundamentales de la recuperación de información.

Fuentes bibliográficas.

[1] Brookes afirma esto en la presentación del primer capítulo de la obra Information Retrieval Research titulado ‘Information Technology and Information Science’, donde recuerda que el problema de la recuperación de información no ha de aplicarse sólo a lo automático, sino también a lo manual. (Oddy et al, 1981). Salton también lo recalca al comentar que no siempre se recupera información textual (Salton & McGill, 1983).

[2] Meadow, C.T. (1992) Text Information Retrieval.

[3] Pérez-Carballo, J. and Strzalkowski, T. ‘Natural language information retrieval: progress report’. Information Processing and Management 36, 2000. p. 155-178

[4] (Grossman and Frieder, 1998) Grossman, D.A. and Frieder, O. Information retrieval: algorithms and heuristics. Boston: Kluwer Academia Publishers, 1998.

02/14/2026 por admin blog Recuperación de información 9

Los CRIS y su papel en la Ciencia Abierta

CRIS son las siglas de ‘Current Research Information System‘ (sistemas de información de investigación), plataformas que representan un pilar esencial para que las instituciones de investigación adopten plenamente la estrategia de la Ciencia Abierta. Su importancia va más allá del registro de la producción científica —como artículos, capíutlos de libros o proyectos— ya que operan como una infraestructura de metadatos que lleva a cabo la conexión entre personas, publicaciones, datos, financiación e impacto de la investigación, facilitando la trazabilidad, visibilidad, interoperabilidad y reutilización del conocimiento. En un contexto en que las agencias financiadoras, las universidades y los repositorios convergen hacia la apertura, la transparencia y la responsabilidad en la investigación como pilares del tránsito a la Ciencia Abierta, los CRIS permiten que esa transformación se realice de forma sistemática y estructurada.

El CRIS como elemento conector en el contexto de la Ciencia (imagen elaborada con chatGPT).

Un aspecto central del valor de un CRIS es su capacidad para articular el ciclo completo de la investigación: desde la financiación y la planificación de proyectos hasta la publicación, el depósito de datos, la transferencia y la evaluación. Esta visión sistémica favorece que las instituciones puedan cumplir con mandatos de acceso abierto y datos abiertos (por ejemplo, enlazando las publicaciones con sus versiones en repositorio o monitoreando embargos), que gestionen resultados más allá del artículo tradicional (conjuntos de datos de investigación, código de software libre, materiales docentes, etc.) y que generen métricas e informes para evaluación responsable. En este sentido, el CRIS actúa como una “capa de información contextual”: quién, qué, cuándo, con qué financiación, bajo qué proyecto, qué impacto, etc., mientras que los repositorios suelen limitarse de la preservación y difusión del objeto digital.

A nivel internacional encontramos ejemplos de CRIS que ilustran tanto el modelo como su relación con la Ciencia Abierta. Por ejemplo, el sistema nacional noruego CRIStin (Current Research Information System in Norway) permite documentar toda la producción académica de los investigadores noruegos y complementa su uso para evaluación del sistema de investigación público.

En Finlandia, Alemania y los Países Bajos también se han desarrollado modelos nacionales de gestión de la información de investigación, como documenta el informe de OCLC Research. También en Europa, la asociación euroCRIS promueve el estándar CERIF (Common European Research Information Format) con el fin de asegurar la interoperabilidad entre los CRIS.

Estos ejemplos muestran cómo los CRIS institucionales y nacionales se integran en un ecosistema mayor de datos e infraestructuras de Ciencia Abierta. En el caso de un país que adopte un CRIS nacional o regional, la ventaja es que se construye una infraestructura homogénea para la agregación de datos de múltiples instituciones, lo cual permite realizar análisis nacionales, comparativos y soportar políticas de Ciencia Abierta a gran escala.

En España, los CRIS institucionales de las universidades funcionan en estrecha relación con los llamados “portales de investigación” públicos, es decir, las interfaces visibles donde se exponen perfiles de personal investigador, grupos, publicaciones, proyectos y métricas. Dichos portales, alimentados por la base de datos de Dialnet y por el CRIS de cada institución académica, permiten la visibilidad institucional y cumplen una función de transparencia hacia la sociedad. La integración entre CRIS y portal es clave: el primero organiza, vincula y valida los metadatos, el segundo los presenta al público de forma navegable.

Portada del portal de investigación de la Universidad de Murcia

Este marco es fruto del Proyecto Hércules, impulsado por Crue Universidades Españolas, que proponía una arquitectura semántica común para los CRIS universitarios españoles, basada en estándares compartidos, ontologías alineadas y una solución de gestión de la investigación común. El resultado final facilita que los datos de diferentes universidades se puedan comparar, agregar y explotar de forma interoperable. Sin duda alguna, la clave de bóveda de este proyecto ha sido el papel de Dialnet, si el trabajo previo de esta fundación, todo el desarrollo de este proyecto hubiera resultado valdío. Una vez más se demuestra la frase de Bill Gates: ‘content is king‘. Poco a poco, se van implementando los portales de investigación de las universidades españolas y se está configurando un sistema de información científica agregado que puede asumir funciones similares a las de un CRIS colectivo para aquellas instituciones que no cuentan con soluciones propias completas. Estas plataformas son elementos articuladores de un ecosistema de investigación abierta, interoperable y de alcance cada vez mayor. A nivel internacional, los sistemas que adopten el estándar CERIF muestran cómo la gestión de la información investigadora se ha transformado en una infraestructura de infraestructuras (“infraestructura de segundo orden”) para la Ciencia Abierta. En España, esta convergencia entre CRIS, portales de investigación y plataformas cooperativas como Dialnet, señala una evolución hacia un modelo más integrado, transparente y orientado al bien público del sistema de investigación.

02/06/2026 por admin Ciencia Abierta Gestión de Información 8

Tres importantes universidades británicas «abandonan» Elsevier, ¿por qué y cómo lo hacen?

Las universidades de Sheffield (la de nuestro «Tío Tom» tenía que ser), Lancaster y Surrey decidieron rechazar un nuevo acuerdo de suscripciones ‘read and publish‘ y abandonan la suscripción masiva de revistas científicas con Elsevier.

Esta decisión está impulsada por restricciones financieras de estas instituciones y por la demanda de mejores condiciones de acceso abierto, pone de manifiesto la creciente presión sobre los costes de suscripción a las revistas científicas de alto nivel. Las editoriales privadas venden paquetes completos de este tipo de publicaciones, junto con otros servicios y productos, elevando los costes hasta cantidades que representan un esfuerzo, no siempre justificado en términos de aprovechamiento, para las instituciones de educación superior.

Estas tres universidades se unieron a un grupo creciente en el Reino Unido (York, Essex, Kent y Sussex, entre otras) que optaron por priorizar modelos sostenibles centrados en el acceso abierto (¡el de verdad! no el que firman las universidades españoles a través de CRUE y con ayuda del ministerio), frente a los paquetes tradicionales «todo incluido» que ofrecen las grandes editoriales de pago y que se convierten en insostenibles en épocas donde la inversión en lo público se reencamina más hacia gastos militares que hacia la mejora de la financiación de las universidades públicas.

En la línea marcada anteriormente por UCLA, las universidades de Sheffield, Lancaster y Surrey han dispuesto medidas de contingencia para no «dejar desabastecidos» a sus estudiantes e investigadores:

Préstamo interbibliotecario de «alta velocidad». Es la «joya de la corona» de su estrategia, se ha optimizado el préstamo para que los investigadores puedan solicitar artículos específicos que ya no están bajo suscripción. El éxito se basa en la rapidez (entregas digitales en menos de 30 minutos en muchos casos) y búsqueda ampliada (plataformas como StarPlus de Sheffield que permiten buscar más allá de la colección propia y generar solicitudes automáticas).
Suscripciones selectivas y acceso histórico: las universidades «no cortan el grifo» por completo. De hecho, sus bibliotecas mantienen títulos individuales (se seguirá pagando de forma independiente por las revistas de Elsevier que tengan el mayor uso e impacto real en su comunidad) y se mantiene acceso post-cancelación (se conserva el derecho a leer artículos publicados durante los años en que la suscripción estuvo activa).
Fomento del uso de software que rastrea versiones gratuitas y legales de los artículos, recomendando las extensiones del navegador como LibKey Nomad o sistemas como Unpaywall que detectan si un artículo tiene una versión en abierto mientras el usuario navega.
Uso intensivo de los repositorios institucionales impulsando sus propios archivos digitales (como White Rose Research Online) donde los autores depositan sus manuscritos aceptados.
Las universidades de Surrey y Lancaster han implementado políticas de «Rights Retention«. Esto obliga a sus investigadores a mantener la propiedad intelectual de sus manuscritos para que puedan subirse a la web de la universidad inmediatamente, sin esperar a que la editorial levante el «muro de pago».

Alternativas implantadas en la Universidad de California para "superar" el fin de las suscripciones masivas a Elsevier y otras editoriales. Fuente: Universo Abierto. — Alternativas implantadas en la Universidad de California para «superar» el fin de las suscripciones masivas a Elsevier y otras editoriales. Fuente: Universo Abierto.

Es posible que a los mayores les suene este modelo de acceso a la literatura científica (que podríamos llamar «bajo demanda»). De alguna manera, reproduce el cómo se accedía a los artículos a principios de este siglo, con una visión algo más actual en cuanto al uso de la tecnología donde la Ciencia Abierta comienza a abrirse paso. Si esto funcionaba antes del tremendo derroche acometido por universidades y autoridades gubernamentales que lo han financiado. Es muy posible que el rendimiento y la excelencia investigadora no vayan a sufrir deterioro alguno y, teóricamente, se podrán dedicar esos recursos a financiar más y mejores equipos de investigación, en lugar de, literalmente, regalarlos a editoriales privadas como Elsevier, cuando no a editoriales directamente depredadoras.

Cantimplora con la famosa frase de Newton grabada

El avance científico no se va a detener, seguro que siempre habrá alguien que pueda ver más allá porque está aupado sobre los hombros de muchos sabios que le han precedido (Newton dixit). Y quizá deberíamos volver a confiar en las bibliotecas que siguen estando ahí, internet no las jubiló (aunque para muchos así lo haya parecido).

02/04/2026 por admin Ciencia Abierta 11

febrero 2026

El «contrato para la web» de Berners-Lee

¿Recuperamos información o datos?

Los CRIS y su papel en la Ciencia Abierta

Tres importantes universidades británicas «abandonan» Elsevier, ¿por qué y cómo lo hacen?

Archives

Categories

febrero 2026

Tags

Archives

Categories