Data web best practices (DWBP by W3C)

El World Wide Consortium (W3C) publicó en 2017 el documento ‘Data on the Web Best Practices: W3C Recommendation(DWBP), una detallada guía para el diseño, publicación y uso de datos enlazados en la web, con el objeto de promover su accesibilidad, interoperabilidad y reutilización.

logo del W3C

Este documento proporciona orientación a los editores de datos en línea sobre cómo representarlos y compartirlos en un formato estándar y accesible. Las prácticas se han desarrollado para fomentar y permitir la expansión continua de la web como medio para el intercambio de datos. El documento menciona el crecimiento en la publicación de datos abiertos por parte de los gobiernos en todo el mundo, la publicación en línea de los datos de investigación, la recolección y análisis de datos de redes sociales, la presencia de importantes colecciones de patrimonio cultural y, en general, el crecimiento sostenido de los datos abiertos en la nube, destacando la necesidad de una comprensión común entre editores y consumidores de datos, junto con la necesidad de mejorar la consistencia en el manejo de los datos.

Estas buenas prácticas cubren diferentes aspectos relacionados con la publicación y el consumo de datos, como son los formatos, el acceso, los identificadores y la gestión de los metadatos. Con el fin de delimitar el alcance y obtener las características necesarias para implementarlas, se recopilaron casos de uso que representan escenarios de cómo se publican habitualmente estos datos y cómo se utilizan. El conjunto de requisitos derivados de esta recopilación se utilizó para guiar el desarrollo de las DWBP, independientes del dominio y la aplicación. Estas recomendaciones pueden ampliarse o complementarse con otros documentos de similar naturaleza. Si bien las DWBP recomiendan usar datos enlazados, también promueven el empleo de otros formatos abiertos como son CSV o json, maximizando más si cabe el potencial de este contexto para establecer vínculos.

CATEGORÍABUENA PRÁCTICA
Metadatos Requisito fundamental. Los datos no podrán ser descubiertos o reutilizados por nadie más que el editor si no se proporcionan metadatos suficientes.BP 1: Proporcionar metadatos
BP 2: Proporcionar metadatos descriptivos
BP 3: Proporcionar metadatos estructurales
Licencias
Según el tipo de licencia adoptada por el editor, puede haber más o menos restricciones a la hora de compartir y reutilizar los datos.
BP 4: Proporcionar información sobre la licencia de los datos
Procedencia
El reto de publicar datos en la web es proporcionar un nivel adecuado de detalle sobre su origen.
BP 5: Proporcionar información sobre la procedencia de los datos
Calidad
Puede tener un gran impacto en la calidad de las aplicaciones que utilizan un conjunto de datos.
BP 6: Proporcionar información sobre la calidad de los datos
Versiones
Los conjuntos de datos pueden cambiar con el tiempo. Algunos tienen previsto ese cambio y otros se modifican a medida que las mejoras en la recogida de datos hacen que merezca la pena actualizarlos.
BP 7: Proporcionar un indicador de versión BP 8: Proporcionar el historial de versiones
Identificadores
El descubrimiento, uso y citación de datos en la web depende fundamentalmente del uso de URI HTTP (o HTTPS): identificadores únicos globales.
BP 9: Utilizar URIs persistentes como identificadores de conjuntos de datos
BP 10: Utilizar URIs persistentes como identificadores dentro de conjuntos de datos
BP 11: Asignar URIs a versiones y series de conjuntos de datos
Formatos
El mejor y más flexible mecanismo de acceso del mundo carece de sentido si no se sirven los datos en formatos que permitan su uso y reutilización.
BP 12: Utilizar formatos de datos estandarizados legibles por máquina
BP 13: Utilizar representaciones de datos neutras respecto a la localización
BP 14: Proporcionar datos en múltiples formatos  
Vocabularios
Se utiliza para clasificar los términos que pueden utilizarse en una aplicación concreta, caracterizar las posibles relaciones y definir las posibles restricciones en su uso.
BP 15: Reutilizar vocabularios, preferentemente estandarizados BP 16: Elegir el nivel adecuado de formalización
Acceso a los datos
Facilitar el acceso a los datos permite tanto a las personas como a las máquinas aprovechar las ventajas de compartir datos utilizando la infraestructura de la red.
BP 17: Proporcionar descarga masiva
BP 18: Proporcionar subconjuntos para conjuntos de datos grandes
BP 19: Utilizar negociación de contenidos para servir datos disponibles en múltiples formatos
BP 20: Proporcionar acceso en tiempo real
BP 21: Proporcionar datos actualizados
BP 22: Proporcionar una explicación para datos que no están disponibles
BP 23: Hacer datos disponibles a través de una API
BP 24: Utilizar estándares web como base de las APIs
BP 25: Proporcionar documentación completa para su API
BP 26: Evitar cambios que rompan su API
Preservación
Las medidas deben tomar los editores para indicar que los datos se han eliminado o archivado.
BP 27: Preservar identificadores
BP 28: Evaluar la cobertura del conjunto de datos
Retroalimentación (‘feedback’)
Ayuda a los editores en la  mejora de la integridad de los datos, además de fomentar la publicación de nuevos datos. Permite a los consumidores de datos tener voz describiendo experiencias de uso.
BP 29: Recopilar comentarios de los consumidores de datos
BP 30: Hacer comentarios disponibles
Enriquecimiento
Procesos que pueden utilizarse para mejorar, perfeccionar los datos brutos o previamente procesados. Esta idea y otros conceptos similares contribuyen a hacer de los datos un activo valioso para casi cualquier negocio o empresa moderna.
BP 31: Enriquecer datos generando nuevos datos
BP 32: Proporcionar presentaciones complementarias
Republicación
Combinar datos existentes con otros conjuntos de datos, crear aplicaciones web o visualizaciones, o reempaquetar los datos en una nueva forma.
BP 33: Proporcionar comentarios al editor original
BP 34: Seguir los términos de la licencia
BP 35: Citar la publicación original
Resumen de las Data Web Best Practices del W3C

Beneficios e incovenientes de las DWBP

Como podemos ver, se trata de unas pautas que precisan de cierto volumen de trabajo y muchas han de ser aplicadas por personas con mucha experiencia. A continuación, resumimos los beneficios y los (posibles) inconvientes de las mismas.

Beneficios:

  1. Interoperabilidad: Las prácticas están diseñadas para asegurar que los datos publicados sean comprensibles y accesibles para una amplia variedad de aplicaciones y sistemas. Esto facilita la integración y el intercambio de datos entre organizaciones y plataformas.
  2. Reutilización: Si se siguen las buenas prácticas, los datos se estructuran coherentemente y se proporcionan metadatos claros. Esto facilita la reutilización de los datos por parte de otros usuarios y organizaciones para crear nuevas aplicaciones, servicios o análisis. Esto fomenta la innovación y la creación de valor.
  3. Calidad de los datos: Las buenas prácticas promueven la calidad de los datos al definir estándares para la representación y la semántica de los datos. Esto reduce los errores y las ambigüedades en los datos publicados, mejorando la confiabilidad y la precisión de la información.
  4. Accesibilidad: Un seguimiento de las buenas prácticas asegura que los datos estén disponibles y sean accesibles para un público amplio, incluyendo personas con discapacidades. Esto promueve la inclusión y garantiza que los datos estén disponibles para todos los usuarios, independientemente de sus necesidades.
  5. Indexación y búsqueda: Los motores de búsqueda comprenden mejor e indexan más eficazmente los datos que siguen las DWBP. Esto mejora su encontrabilidad, aumentando la visibilidad de los datos en los resultados, lo que aumenta su alcance y utilidad.
  6. Transparencia: Publicar datos según estándares abiertos y transparentes, se promueve la transparencia y la rendición de cuentas. Esto es especialmente importante en los datos de las administraciones públicas y también en datos científicos, donde la accesibilidad a los conjuntos de datos es esencial para la toma de decisiones informadas y la supervisión.
  7. Facilita la colaboración: Estas buenas prácticas fomentan la colaboración entre organizaciones y comunidades al proporcionar un marco común para compartir datos. Esto es especialmente útil en proyectos de colaboración donde múltiples partes necesitan compartir y trabajar con datos de manera eficiente.

Posibles inconvenientes

  1. Coste: Implementar las DWBP puede requerir inversiones significativas en recursos humanos y tecnológicos, lo que es un problema para organizaciones con presupuestos limitados.
  2. Complejidad: Algunas de las mejores prácticas del W3C resultan técnicamente complejas de implementar, especialmente para personas u organizaciones sin experiencia previa en estándares web y tecnologías relacionadas.
  3. Cumplimiento: Asegurarse de cumplir con todas las directrices y recomendaciones puede ser un desafío, y el incumplimiento podría afectar la efectividad de la publicación de datos.
  4. Adopción: No todas las organizaciones y comunidades pueden estar dispuestas o capacitadas para adoptar estas prácticas de inmediato. Esto puede limitar la interoperabilidad y la reutilización de datos.
  5. Seguridad y privacidad: La publicación de datos ha de hacerse con precaución para evitar la divulgación de información sensible o privada. El cumplimiento de las normativas de protección de datos es esencial y requiere un esfuerzo adicional.
  6. Actualización continua: Mantener los datos actualizados y en conformidad con las buenas prácticas puede ser un verdadero desafío a largo plazo. Esto va a precisar de dedicación y recursos continuos.
trabajando con buenas prácticas de datos en la web

En resumen, publicar datos siguiendo las Data Web Best Practices del W3C ofrece numerosos beneficios en términos de interoperabilidad, reutilización de datos, calidad de datos, accesibilidad y transparencia. Sin embargo, también conlleva inconvenientes relacionados con el costo, la complejidad, el cumplimiento, la adopción, la seguridad y la privacidad, así como la necesidad de mantener los datos actualizados. Seguir estas mejores prácticas va a depender de los objetivos y recursos de la organización y de su compromiso con la calidad y la accesibilidad de los datos a publicar.

En otras entradas seguiremos hablando de buenas prácticas y conjuntos de datos, algo preciso para llegar a la Ciencia Abierta.

No lo digo yo, lo dice CNEAI (es decir, ANECA)

convocatorio de sexenio de ANECA CNEAI

Los méritos que los investigadores queramos ver reconocidos en la Convocatorio de Sexenios de CNEAI y que hayan sido publicados desde 2011, deben ser depositados en repositorios institucionales o temáticos (si no lo están ya).

Comienzan a notarse algunos cambios impuestos por la LOSU. De confirmarse lo indicado en el borrador de criterios que han sido expuestos a consulta pública, de acuerdo con su artículo, 12 en todos los campos se requerirá el depósito en repositorios institucionales o temáticos de acceso abierto de las publicaciones científicas, conjuntos de datos, códigos y metodologías que se sometan a evaluación, incluyendo un identificador persistente (DOI, Handle, o similar), a fin de alcanzar los objetivos de investigación e innovación responsables y de libre circulación de los conocimientos científicos y las tecnologías que promulgan las políticas europeas de ciencia abierta.

Así, en el caso de las publicaciones seriadas o periódicas, se recuerda a las personas solicitantes que, desde la entrada en vigor de la LCTI, el 2 de diciembre de 2011, el personal de investigación cuya actividad investigadora esté financiada mayoritariamente con fondos públicos hará pública la versión final aceptada para publicación en repositorios institucionales o temáticos de acceso abierto (artículo 37 de la LCTI, en su versión previa a la Ley 17/2022). Este precepto, reforzado ahora en los artículos 12.2 y 12.3 de la LOSU, será por tanto de aplicación para las publicaciones presentadas con fecha 2011 o posterior, excepto en el caso de otros formatos de publicación como las monografías.

Principios FAIR
Principios FAIR

Además, el vigente artículo 37 de la LCTI, tras su modificación por la Ley 17/2022), añade que se deberá depositar una copia de la versión final aceptada para publicación y los datos asociados a las mismas en repositorios institucionales o temáticos de acceso abierto, de forma simultánea a la fecha de publicación, siendo este precepto de aplicación para las publicaciones presentadas con fecha 2022 o posterior. Asimismo, de acuerdo con el citado artículo 37 de la LCTI y el artículo 12.5 de la LOSU, los conjuntos de datos que se sometan a evaluación, con fecha 2022 o posterior, deberán cumplir con los principios FAIR (fáciles de encontrar, accesibles, interoperables y reutilizables) y, siempre que sea posible, se difundirán en acceso abierto en repositorios o infraestructuras de datos de confianza.

programa informático, su código

En el caso de las aplicaciones informáticas, se valorará que sean desarrolladas según los principios de colaboración abierta del software libre y publicadas bajo la Licencia Pública de la Unión Europea o licencias compatibles

La sociedad de la información

Si internet posee actualmente el nivel de desarrollo y popularización tan alto es debido, sin duda alguna, al interés que despertó entre algunos políticos de primer nivel a principios de los años 90. Se ha hablado mucho (y con razón) de la trascendencia de la información y de la necesidad de disponer de una adecuada gestión de la misma como recurso vital para el desenvolvimiento de las organizaciones en el contexto actual: la Sociedad de la Información (entorno que ya aventuraba el sociólogo japonés Yoneji Masuda como: ‘sociedad que crece y se desarrolla alrededor de la información y aporta un florecimiento general de la creatividad intelectual humana, en lugar de un aumento del consumo material» (‘The information society as post-industrial society‘, 1981).

Yoneji Mausda, el inventor de la sociedad de la información como concepto.
Yoneji Masuda

Yoneji Masuda fue un eminente sociólogo japonés, fallecido en 1995, cuya actividad profesional y académica tuvo una importancia decisiva en la definición estratégica de un modelo de sociedad tecnológica para Japón impulsado desde las políticas públicas. Al tiempo, fue uno de los pioneros en la conceptualizar la idea de Sociedad de la Información. Trabajó en diversos programas de los ministerios de Trabajo y Educación japoneses destinados a mejorar y racionalizar las prácticas de producción y formación de la población. Fue director del Instituto para el Desarrollo de los Usos de los Computadores en Japón y fundador y presidente del Instituto para la Informatización de la Sociedad, profesor de la Universidad de Aomuri y director de la Sociedad Japonesa de Creatividad. A partir de un informe del Ministerio de Industria y Comercio (MITI) elabora para el Instituto JACUDI un plan para la Sociedad de la Información como «objetivo nacional para el año 2000«.

Imagen que ilustra cómo la información y la tecnología están integradas en la vida cotidiana de personas de diversas edades y orígenes étnicos. Espero que estas representaciones te ayuden a visualizar el impacto de la tecnología en nuestra sociedad.
Alegoría de la Sociedad de la Información (dibujada por Dalle 3 – chat GPT).

Cuando DARPA deja de ser el principal soporte financiero, el proyecto de internet se desarrolló en esta década al amparo de otras organizaciones financiadoras, destacando entre todas enormemente la NSF (‘National Science Foundation’, agencia del gobierno de EEUU independiente del Departamento de Defensa que impulsa investigación y educación fundamental en todos los campos no médicos). En esa época llegó a establecerse un altísimo vínculo entre los ordenadores de su propia red y los que procedían de la originaria Arpanet. De esta forma surge la declaración RFC 985 (‘Request for comments» o «Requisitos para pasarelas de Internet», serie de notas sobre la red y sobre sistemas que se conectan a internet, que comenzaron a publicarse en 1969) que formalmente aseguraba la interoperabilidad entre las partes de la red y establecía los mecanismos necesarios para asegurar y facilitar la incorporación de nuevas redes.Tanto NSF como otras agencias financiaban los costes de la infraestructura común, incluidos los circuitos transoceánicos destinados a dar acceso a la red a comunidades científicas de otras partes del mundo. Al mismo tiempo surgió el interés de organizaciones privadas de hacer uso de la red, infraestructura que hasta entonces había estado dedicada de forma exclusiva a usos educativos y de investigación. Hacia el año 1988 se comienza a hablar de la necesidad de disponer de una infraestructura nacional de redes que permitierse ese uso conjunto y justo en todo momento.Esta iniciativa llama la atención de Al Gore (senador entonces y después vicepresidente de los EEUU, ahora Premio Nobel de la Paz por su labor en defensa del Medio Ambiente) quien propició la elaboración de la iniciativa NII (siglas en inglés de ‘National Information Infrastructure’)

Foto de Al Gore cuando era vicepresidente USA
Al Gore cuando era vicepresidente USA

NII era una propuesta de red avanzada y perfecta de las redes de comunicaciones públicas y privadas, servicios interactivos, de hardware y software interoperable, computadoras, bases de datos y electrónica de consumo a poner una gran cantidad de información al alcance de los usuarios). En este documento y (casi seguramente) por primera vez hallamos un texto político que habla del valor estratégico de la información en el contexto actual, basando su éxito en el desarrollo de una infraestructura de telecomunicaciones de alcance mundial que promoviera el uso de internet en todos los ámbitos.

Más o menos en la misma época, la Unión Europea redactaba un documento similar en la línea de desarrollar un acceso global a la red y a desarrollar un mercado de servicios y productos alrededor de la misma. Este documento es conocido como el «Informe Bangemann» (1994) donde el excomisario europeo Martin Bangemann afirmaba:

«cuya principal meta ha sido acelerar la instauración de un mercado mundial abierto y «autoregulado». Política que ha contado con la estrecha colaboración de organismos multilaterales como la Organización Mundial del Comercio (OMC), el Fondo Monetario Internacional (FMI) y el Banco Mundial, para que los países débiles abandonen las regulaciones nacionales o medidas proteccionistas que «desalentarían» la inversión; todo ello con el conocido resultado de la escandalosa profundización de las brechas entre ricos y pobres en el mundo».

Informe Bangemann

A pesar de esta visión tan economicista y neoconservadora, el propio autor reconocía que las TIC eran un factor clave en la aceleración de la globalización económica porque su imagen está más asociada a aspectos más «amigables» de este proceso, como internet, telefonía celular e internacional, TV por satélite, etc. Así, la Sociedad de la Información ha asumido la función de «embajadora de buena voluntad» de la globalización, cuyos beneficios» podrían estar al alcance de todos/as, si solamente si pudiera estrechar la brecha digital«.

Para ampliar información sobre este concepto, la Fundación Telefónica edita regularmente textos e informes sobre la Sociedad de la Informaciónse recomienda su lectura.

TCP/IP: la base de la interconexión global

El siguiente paso en la evolución de internet fue la introducción en la red de un protocolo de comunicaciones (conjunto de reglas y procedimientos que regulan las comunicaciones telemáticas) global, robusto y eficaz para hacer posible la sencilla conexión de nuevos hosts y de nuevas redes independientes. En su primera implementación, Arpanet disponía de un protocolo “host a host” de manera que había que modificarlo según las características de los diferentes equipos informáticos que pretendieran incorporarse a ella.

Entonces, los ordenadores eran bastante incompatibles unos con otros e incluso a nivel interno manejaban distintos códigos para la representación de la información (ASCIIEBCDIC, etc.). Por tanto, no se trataba únicamente de conectar equipos, sino de conseguir que pudieran dialogar entre ellos y compartir información de manera comprensible. Este inmenso trabajo, unido al rápido crecimiento de la red, hizo inviable continuar con la conexión «punto a punto» y propició el desarrollo de una nueva familia de protocolos de comunicaciones.

Surge así un nuevo paradigma: la interconexión de sistemas abiertos (‘internetworking‘), de manera que equipos informáticos de distinta naturaleza pudieran compartir datos y aplicaciones dentro de un entorno abierto de comunicaciones.

  • ASCII (‘American Standard Code for Information Interchange’ – Código Estándar Estadounidense para el Intercambio de Información). Código de caracteres basado en el alfabeto latino creado en 1963 por el Comité Estadounidense de Estándares (conocido desde 1969 como Instituto Estadounidense de Estándares Nacionales, o ANSI) como refundición o evolución de los conjuntos de códigos usados entonces en telegrafía. En 1967, se incluyeron las minúsculas, y se redefinieron códigos de control para formar el código US-ASCII.
  • EBCDIC (acrónimo de ‘Extended Binary Coded Decimal Interchange Code’) es un código estándar de 8 bits usado por computadoras mainframe IBM, la empresa que adaptó el EBCDIC del código de tarjetas perforada en los años 1960 y lo promulgó como una táctica customer-control cambiando el código estándar ASCII.
Mapas que muestran el crecimiento de arpanet camino de ser interet
Crecimiento de Arpanet en su primera década

Esta idea nace en contraposición a los sistemas propietarios (o cerrados), típicos de la época cuyo paradigma lo representaba perfectamente la familia de ordenadores IBM S/360, sistemas donde tanto el hardware como el software eran específicos y propiedad del fabricante y existían muchísimos problemas, tanto técnicos como económicos, para hacerlos compatibles con otros equipos (además, como la empresa IBM era el “gigante informático” de la época, con un nivel de dominio superior incluso al que ha llegado a tener Microsoft, el mercado se veía muy condicionado por sus sistemas y tecnologías). 

Vista frontal de un ordenador IBM 360.
Frontal de un ordenador IBM 360.

El IBM 360 fue el primer ordenador en usar microprogramación. Con su introducción en el mercado se creó el concepto de arquitectura de familia que consistió en 6 ordenadores que podían hacer uso del mismo software y los mismos periféricos. El sistema también hizo popular la computación remota, con terminales conectados a un servidor, por medio de una línea telefónica. El IBM 360 es uno de los primeros ordenadores comerciales que usó circuitos integrados, y podía realizar tanto análisis numéricos como administración o procesamiento de archivos. Se considera que la tercera generación de computadoras comenzó con su introducción. Estos modelos comenzaron a ser retirados a partir del año 1977 (aunque no era raro verlos operativos en la década de los 80, y más fuera de Estados Unidos, donde igual acababan de «llegar»).

Robert E. Khan y Vinton Cerf, padres del TCP/IP, hoy en día.
Khan y Cerf hoy en día

La solución a la incompatibilidad entre  equipos conectados a una misma red pasaba por definir una arquitectura de comunicaciones en la que, en forma de niveles o capas, se planteara la resolución de los problemas por medio de unas funciones que desarrollan distintos protocolos de comunicaciones. Bajo esta perspectiva se define un nivel de “interconexión” superior al nivel de “intrared”. Así, los equipos trabajan a nivel local según las características de su sistema operativo y luego operan a nivel de red bajo nuevas reglas, formatos y procedimientos especificados por un protocolo de red con vocación de sistema abierto. En el caso de internet ese protocolo de comunicaciones es el TCP/IP  (‘Transmission Control Protocol/Internet Protocol’), propuesto y desarrollado por dos de los ingenieros más importantes en la historia de la redVinton Cerf y Robert Khan (1974).

TCP/IP es en realidad una familia de protocolos donde TCP es el encargado del control del flujo de datos y de la transmisión segura por la red de los paquetes de datos e IP de la identificación de origen y destino de la transmisión y del adecuado direccionamiento de los paquetes de datos (se corresponden con los niveles 3 y 4 del Modelo OSI de interconexión de sistemas abiertos).DARPA (la siguiente denominación de ARPA, en la que ya se incluçó la palabra «Defense») financió la implementación de este protocolo y, en poco tiempo, existieron versiones independientes que podían interoperar.

Esquema general del protocolo TCP/IP
Esquema general del protocolo TCP/IP

Al principio, todos estos desarrollos se realizaban conectando grandes equipos informáticos (aún no se había popularizado el ordenador personal). Por ello, se desarrollaron versiones más sencillas y compactas que dieron fruto a dos implementaciones: la del PARC de Xerox y otra, la que resultó más trascendente (al menos para el gran público), para el PC de IBM, consiguiéndose que los ordenadores personales también pudieran convertirse en hosts de ARPANET sin necesidad de formar parte de otras redes más grandes: con esto se había dado un paso definitivo hacia la interconexión global.

Ordenador personal de IBM con monitor en color.
Ordenador personal de IBM con monitor en color.

El IBM Personal Computer, fue el ordenador que lo cambió todo. Introducido en agosto de 1981 y creado por el equipo del IBM Entry Systems Division. Junto al «microcomputador» y al «computador casero», el término «computador personal» ya estaba en uso antes. Se empleó en 1972 para caracterizar al Alto de Xerox PARC, pero el éxito de IBM hizo que PC equivaliese al microcomputador compatible con sus productos. El grupo de trabajo reunido para desarrollarlo decidió que el sistema operativo viniera de vendedores externos. Esta ruptura con la tradición de la compañía (siempre habían apostado por desarrollos internos), se llevó a cabo para ahorrar tiempo. Microsoft fue la empresa seleccionada como fabricante del sistema operativo: el PC-DOS (MS-DOS si la máquina no era de IBM como ocurrió al poco tiempo). En pocos años, esta decisión se vio claro que esta decisión fue el mayor error estratégico de la empresa, básicamente porque propició el lanzamiento de otro gigante informático: la empresa de Bill Gates, Steve Pallmer y Paul AllenMicrosoft Curiosamente, en la misma época, incluso un poco antes, Steve Wozniak y Steve Jobs lanzaban el Apple II, la primera serie de microcomputadores de producción masiva a través de otro gigante actual de la informática: Apple Computer, pero este avance quedó un poco «escondido» por la trascendencia del IBM PC. 

'Floppys' (disquetes) con una de las primeras versiones de windows.
‘Floppys’ (disquetes) con una de las versiones de windows para IBM.

Y también pasó algo desapercibido un nuevo término que comenzó a usarse con cierta profusión en aquella época: la palabra ‘internetting‘ («interconexión») que al poco tiempo quedó en «internet» y fue como comenzó a conocerse a la red de redes (en detrimento de Arpanet).

Mapa lógico de Arpanet hacia 1977.
Mapa lógico de Arpanet hacia 1977. Fuente Wikipedia https://es.wikipedia.org/wiki/ARPANET 

Y también pasó algo desapercibido un nuevo término que comenzó a usarse con cierta profusión en aquella época: la palabra ‘internetting‘ («interconexión») que al poco tiempo quedó en «internet» y fue como comenzó a conocerse a la red de redes (en detrimento de Arpanet).

Arpanet: el origen primigenio

Sello italiano con una ilustración de la perrita Laika, elprimer ser vivo de la Tierra que la circunvaló fuera de nuestra atmósfera.
La perrita Laika

Internet es fruto de varios proyectos desarrollados en Estados Unidos de forma paralela, en un principio sin llegar a entrar verdaderamente en contacto entre ellos y, de forma algo más coordinada al final, por la intervención de la agencia ARPA (siglas de Advanced Research Projects Agency , institución directamente vinculada al Departamento de Defensa de los EE.UU. creada en 1958 en respuesta al lanzamiento soviético del satélite Sputnik 2 tripulado por la perrita Laika). 

Por ello, muchos autores la consideran fruto de un proyecto de investigación militar destinado a buscar soluciones de comunicación informática en plena “guerra fría”, contexto donde se vivía permanentemente bajo la amenaza de una guerra nuclear que afortunadamente no llegó a producirse. Lo cierto es que la participación de la administración norteamericana en este desarrollo fue vital, independientemente de los objetivos que la auspiciasen. Contribuyó durante bastante tiempo al desarrollo de la verdadera infraestructura de red, algo que tuvo lugar unos cuantos años más tarde.

Operadores trabajando en un ordenador "mainframe", años 60.
Operadores trabajando en un ordenador «mainframe», años 60.

Dos eran los objetivos que seguían estos grupos de trabajo. Hasta ese momento, los sistemas informáticos funcionaban generalmente en entornos mainframes, en los cuales se centralizaban todos los procesos en el ordenador principal, al mismo tiempo que la gestión y el almacenamiento de los datos. Los terminales que se usaban para interaccionar con ellos no eran ordenadores como los que usamos hoy en día, sino simples consolas de comunicaciones con reducidas capacidades de proceso de datos. Transformar esa idea de sistema centralizado en una metáfora de sistema descentralizado donde todas las estaciones de trabajo pudieran acceder a datos y programas y tuvieran cierta capacidad de proceso (que no fueran unos simples terminales de comunicaciones, sino ordenadores), representaba una nueva idea que vino a plasmarse años después: la de red de ordenadores, independientemente de su alcance.

Este cambio, por sí mismo, es trascendental y constituye la base de los sistemas de comunicaciones actuales. En este nuevo paradigma es donde se encuentran los vínculos con proyectos de investigación militares: el sistema centralizado es más vulnerable que un sistema descentralizado y la defensa estratégica estadounidense necesitaba de otros modos de comunicación.

En realidad, el sistema descentralizado también podía llegar a ser vulnerable (hay que recordar que el mundo vivía entonces en plena psicosis de posible guerra nuclear) por lo que Paul Baran (1964) llegó a proponer una red de conmutación de paquetes para comunicación vocal segura en el ámbito militar en un entorno distribuido. Sobre esa idea, y unos cuantos años más tarde, se concibió Arpanet si bien el proyecto de Baran ya había sido cerrado para entonces por RAND Corporationel laboratorio de ideas de las fuerzas armadas norteamericanas.

Baran, en el año 2010, explicando en RAND su proyecto de red "galáctica".
Baran explicando en RAND su proyecto de red «galáctica».

El segundo objetivo que concentró una gran cantidad de esfuerzos de los investigadores fue cambiar el modo en el que podrían dialogar los ordenadores entre sí (una vez conectados), abandonando la tradicional conmutación de circuitos (que precisaba del establecimiento de la llamada y de la ocupación de todo un circuito de datos para la transmisión) e implementando la conmutación de paquetes de datos (donde no se tiene que esperar al establecimiento de la llamada y cada paquete transmitido procura aprovechar al máximo la capacidad del enlace). Esto permitió a los equipos informáticos compartir datos y aplicaciones en tiempo real. Ambas ideas estaban predestinadas a confluir en la creación de algo importante, como así fue.

Son dos también las fases en las que se podría dividir esta época. De 1961 a 1965 podemos hablar de planteamientos teóricos, siendo el más destacado el de la “Red Galáctica” de Licklider quien presentó su idea de red interconectada globalmente por medio de la cual cada uno pudiera acceder desde cualquier lugar a datos y programas (el concepto era muy parecido a la internet actual, aunque entonces era un sueño). Desde 1965 entramos en la primigenia conexión de dos equipos informáticos que llevó a cabo Roberts para verificar que la conmutación de circuitos no servía para sus propósitos. La segunda etapa coincide con su incorporación a ARPA en 1966 para desarrollar el concepto de red de ordenadores, idea que plasma en un proyecto denominado Arpanet presentado en una conferencia científica donde se percatan de que otros grupos de trabajo habían conseguido avances importantes en este campo.

A partir de ahí se suceden los avances y en septiembre de 1969 se elige al ordenador del equipo de Kleinrock como el primer IMP (“procesador de mensajes de interfaz”) y desde ese equipo, un mes más tarde, se envía el primer mensaje a otro ordenador del SRI (algunos participantes en el proyecto han comentado recientemente que la segunda letra de la palabra “Hi” no llegó nunca a California). Después se añadieron dos nodos en la Universidad de California, Santa Bárbara, y en la Universidad de Utah. De esta manera, acabando 1969, cuatro ordenadores (“hosts” en la jerga de la red; estos ordenadores pueden ser al mismo tiempo clientes y servidores) estaban conectados a la Arpanet inicial.

Esquema técnico de la  primera Arpanet dibujado a mano.
(Fuente: Stanford Research Institute:
Esquema técnico de la primera Arpanet dibujado a mano.
(Fuente: Stanford Research Institute: http://www.sri.com/about/timeline/arpanet.html)

Y así comenzó todo …

Evolución de internet

Hoy en día usamos la expresión “nativos digitales” para referirnos a las personas que han crecido con internet y la usan permanentemente con una habilidad consumada. Estas personas sienten atracción por todo lo relacionado con las TIC por medio de las cuales cubren una buena parte de sus necesidades de entretenimiento, diversión, comunicación, información y, tal vez, de formación.

Trabajo en un centro de compiutación en los años 70.
Ordenadores de los años 70

Para estas personas, conocer que el primer mensaje de correo electrónico constaba de una palabra de dos letras: «Hi» y que fue enviado en octubre del año 1969 por Kleinrock desde el MIT (Instituto Tecnológico de Massachussets) al Network Information Center de la Universidad de Stanford, puede resultar increíble a la par que paradójico, pudiendo llegar a ser para ellos bastante complicado aceptar que internet ya existía cuando sus padres iban al instituto, cuando The Beatles era aún un grupo de música en activo que acababa de editar el disco “Yellow Submarine”, la famosa Guerra de Vietnam estaba en su apogeo, el Muro de Berlín seguía en su sitio (sin graffiti alguno y con muchos guardias), en los Juegos Olímpicos, de forma repetitiva (a veces apabullante) atletas «amateurs» de un país llamado CCCP (siglas en cirílico de Союз Советских Социалистических Республик, la antigua Unión Soviética) ganaban montones de medallas cada cuatro años.

Cubierta del disco Yellow Submarine de The Beatles
Cubierta y parte trasera del LP «Yellows Submarine» de The Beatles

Y sin embargo, parafreseando a Galileo: «todo eso es cierto«.


siguiente

Cumbre Global de Acceso Abierto Diamante 2023

Del 23 al 27 de octubre de 2023, se ha celebrado en la ciudad de Toluca, México, la Cumbre Global de Acceso Abierto Diamante para reflexionar y avanzar en las iniciativas y prácticas de promoción del Acceso Abierto Diamante (AAD). Tras casi una semana de extensas y profundas discusiones, entre otros acuerdos, se ha propuesto  fortalecer la colaboración dentro del sector del AAD a nivel global, destacando el apoyo al Manifiesto sobre la Ciencia como Bien Público Global: Acceso Abierto No Comercial de la IV Conferencia Redalyc de Editores de Revistas.

Cumbre global sobre el Acceso Diamante. Toluca, 2023. Cartel.

El conocimiento es nuestro activo más valioso y un bien público que debe compartirse ampliamente para garantizar la sostenibilidad de nuestro planeta y nuestro futuro. La revolución digital proporciona medios sin precedentes para difundir resultados e ideas científicas por todo el mundo en un instante, en beneficio de todos. El Acceso Abierto Diamante es un modelo de comunicación académica en el que los resultados de la investigación están disponibles abiertamente, sin cobrar tasas ni a los autores ni a los lectores. En este modelo, todos los elementos relacionados con el contenido están dirigidos y son propiedad de las comunidades académicas. 

Modalidades del acceso abierto libre y gratuito.

El apoyo a las revistas, repositorios y plataformas ya existentes y nuevas a nivel mundial puede reducir significativamente las barreras de acceso y difusión de la investigación financiada con fondos públicos. Este movimiento adopta intrínsecamente el concepto de bibliodiversidad. El AAD es, en última instancia, un medio para alcanzar un fin: el acceso equitativo a la publicación y la lectura académicas, centrándose en la calidad del contenido más que en el lugar de publicación. Reconoce y recompensa todas las contribuciones al proceso de publicación. Además, las revistas, repositorios y plataformas representan iniciativas editoriales impulsadas por la comunidad, dirigidas por académicos y propiedad de éstos (como es el caso de los portales de revistas y libros abiertos y del repositorio digital de nuestra Universidad, la de Murcia), que permiten que los resultados de investigación sean, a su vez, propiedad de la comunidad académica y científica.

Frente a otros modelos de negocio editorial que se presentan como «abiertos», el AAD representa un modelo de publicación al servicio de una sociedad diversa y más justa en la que el conocimiento académico de calidad es un bien público.

Uno de los pilares de la Ciencia Abierta ha sido, es y seguirá siendo, la publicación en abierto sin restricciones de los resultados de investigación. Fomentar este derecho, y consolidarlo, es responsabilidad de las administraciones públicas y de todas las personas que formamos parte de la comunidad científica. 

‘Data steward’, ‘Data research analyst’: perfiles profesionales para la gestión de información

Photo of a data steward in an office, a South Asian female in her late 20s, intently reviewing data on a secure computer terminal that displays complex encryption algorithms. The room has high-security features like a secure card access point and surveillance cameras, with posters on the wall emphasizing data privacy and cybersecurity best practices. She is also seen advising a colleague on data protection measures, illustrating the use of secure databases.

Un ‘data steward‘ es un perfil profesional de una organización cuya tarea principal es garantizar la calidad, disponibilidad, seguridad y usabilidad de los conjuntos de datos producidos o gestionados.

Esta función es esencial en el marco de la gestión de datos empresariales (Enterprise Data Management, EDM), especialmente en una era tan digitalizada como la nuestra, en la que los datos se consideran un activo vital para muchas organizaciones. Entre las tareas y responsabilidades específicas de estos profesionales destacan:

  1. Garantizar la calidad de los datos: asegurar que sean precisos, consistentes, completos y estén actualizados. Esto puede implicar la validación de la entrada de datos, la resolución de discrepancias y la implementación de protocolos para eliminar datos duplicados o irrelevantes.
  2. Gobernanza de datos: consiste en implementar y supervisar políticas y procedimientos que garanticen la correcta gestión de los datos. Esto puede incluir estándares de nomenclatura, estructuras de clasificación y reglas de retención de datos.
  3. Seguridad: trabajar junto con el equipo de seguridad para proteger los datos de accesos no autorizados o violaciones de datos. Esto puede incluir la garantía de cumplimiento de las leyes y de las regulaciones de privacidad y protección de datos.
  4. Facilitar el acceso a los datos: el administrador de datos puede trabajar para garantizar que estos sean fácilmente accesibles para los usuarios autorizados dentro de la organización, y que se utilicen de manera efectiva para tomar decisiones empresariales.
  5. Educación y soporte: los administradores de datos pueden ser responsables de formar a otros miembros de la organización en la importancia de la gestión de datos, cómo acceder y usar los datos correctamente, y la importancia de mantener la calidad y seguridad de los datos.
'stewards' es un partido de fúrbol
‘stewards’ en un partido de fútbol

Las personas encargadas de estas tareas suelen tener fuertes habilidades en análisis y gestión de datos, así como un profundo conocimiento de las leyes y regulaciones que se aplican a los datos en su industria. También deben tener habilidades de comunicación sólidas para trabajar con otros departamentos y ayudar a fomentar una cultura de gestión de datos eficaz en toda la organización. Algo más cercanos a las organizaciones de investigación aparece el perfil profesional ‘data research analyst‘ (analista de investigación de datos), función que si bien es diferente de la anterior. también es crucial en el manejo y análisis de información en una organización.

Similitudes y diferencias

Como perfiles diferentes que son, comparten algunas similitudes y presentan diferencias importantes en cuanto a sus responsabilidades y enfoques.

Similitudes:

  1. Uso y manejo de datos: en ambos perfiles profesionales se trabaja intensivamente con datos. Los profesionales deben ser competentes en la interpretación de datos, la identificación de patrones y tendencias y tener una comprensión sólida de las herramientas y sistemas de manejo de datos.
  2. Importancia de la calidad de los datos: los dos roles comprenden la importancia de la calidad de los datos para obtener resultados precisos. Por lo tanto, pueden involucrarse en actividades para garantizar que los datos sean precisos, completos y actualizados.
  3. Colaboración interdepartamental: ambos roles a menudo trabajan en colaboración con otros departamentos para garantizar que los datos se utilicen efectivamente en toda la organización.

Diferencias:

  1. Enfoque principal: un administrador de datos se centra más en la gestión y gobernanza de los datos, asegurando su calidad, disponibilidad, seguridad y cumplimiento con las regulaciones. Un analista de investigación enfoca su interés más hacia el análisis de los datos, utilizando técnicas estadísticas y algoritmos para extraer ‘insights‘ (revelaciones o descubrimientos que proporcionan una nueva comprensión sobre un fenómeno o problema) que pueden ayudar en la toma de decisiones.
  2. Uso de datos: mientras un administrador de datos está más preocupado por cómo se almacenan, se protegen y se accede a los mismos, un analista de investigación está más preocupado por cómo se pueden utilizar para generar valor para la organización.
  3. Responsabilidades: el administrador de datos se involucrado más en profundidad con el establecimiento de políticas y estándares, con asegurar la seguridad de los datos y garantizar el cumplimiento con las regulaciones. Un investigador de datos se centra más en recoger, procesar y realizar un análisis detallado de los datos para apoyar los objetivos de la organización.

Es importante recordar que, aunque estos perfiles profesionales pueden tener responsabilidades diferentes, pueden llegar a trabajar en estrecha colaboración para garantizar que los datos se manejen de manera efectiva y se utilicen para impulsar el éxito de las organizaciones, especialmente aquellas que generen datos que puedan ser base de investigaciones que no todas tienen que ser fruto de trabajo en laboratorio (datos de tráfico, de logística empresarial, de precipitaciones de lluvia, etc.).

Necesidades formativas

La formación necesaria para convertirse en un administrador o en un analista investigador puede variar según las necesidades específicas de cada sector en general y de cada organización en particular. Sin embargo, en términos generales, podemos atrevernos a establecer algunos ámbitos de estudio y un conjunto de habilidades relevantes que estos profesionales van a necesitar:

Administrador de datos:

  1. Educación: está bien contar con un título en Informática, Estadística, Ingeniería de Datos, Ciencia de Datos o de Gestión de la Información. Estos títulos proporcionan una base sólida para este desempeño. En algunos casos puede ser interesante combinar un grado en una de esas disciplinas con un máster más especializado.
  2. Habilidades técnicas: una comprensión sólida del paradigma de las bases de datos relaciones. dominio del lenguaje SQL y de otras herramientas de gestión de datos es esencial. El conocimiento de la arquitectura de datos también puede ser interesante.
  3. Conocimiento de la gobernanza de datos: lo que representa entender las políticas, procedimientos, estándares y regulaciones que se aplican a la gestión de datos.
  4. Conocimiento de la seguridad de datos: esto incluye conocer las mejores prácticas para proteger los datos y mantener su privacidad, así como las leyes y regulaciones de protección de datos aplicables en cada caso.
  5. `Soft skills‘: las habilidades de comunicación son vitales para trabajar con otros departamentos y promover una cultura de gestión de datos efectiva. Las habilidades de gestión de proyectos también pueden ser útiles.

Data Research Analyst:

  1. Educación: un título en Estadística, Matemáticas, Economía, Ciencia de Datos, o un campo relacionado sería lo más apropiado. Combinar grados genéricos con máster especializados también es una opción.
  2. Habilidades técnicas: son esenciales la programación informática en Python o R (por ejemplo), el análisis de datos, y el dominio de técnicas estadísticas. También es útil tener experiencia con las herramientas de visualización de datos y software de análisis de datos (Tableau o SPSS por ejemplo).
  3. Habilidades de investigación: estas incluyen la capacidad de formular preguntas de investigación, diseñar estudios, recoger y analizar datos, y presentar los resultados de una manera clara y comprensible.
  4. Soft skills’: también son importantes las habilidades de comunicación para presentar hallazgos y trabajar con otros equipos. La capacidad de pensar críticamente y resolver problemas también es esencial.

Ambos roles podrían beneficiarse de la formación continua y la certificación en herramientas y técnicas específicas de gestión y análisis de datos.

CoARA: coalición para cambiar la evaluación de la investigación

Dedicamos esta entrada a una breve presentación de CoARACoalition for Advancing Research Assessment‘), alianza formada por instituciones académicas, organizaciones y expertos para promover y avanzar en la forma en que se evalúa la calidad, el impacto y la relevancia de la investigación. En España podemos citar a Fecyt, Aneca, CSIC y una amplia representación de las universidades (CRUE incluida).

logo e CoARA, alianza para cambiar la evaluación de la investigación

En el año 2020 la Comisión Europea acordó promover una reforma de la evaluación de la investigación. Casi terminado 2021, publica en diciembre el documento «Hacia una reforma del sistema de evaluación de la investigación» en el que se invitaba a las instituciones científicas europeas e internacionales a construir una coalición voluntaria para avanzar conjuntamente hacia un nuevo paradigma. El Consejo Europeo apoyó en junio de 2022 la necesidad de reformas en evaluación, en especial en relación con la ciencia abierta. De todas estas iniciativas surge CoARA.

La idea que subyace es abordar las limitaciones y desafíos actuales en los sistemas de evaluación de la investigación. Se pretende impulsar un cambio hacia enfoques más efectivos, justos y transparentes en la evaluación académica, centrados en prácticas y métricas de evaluación más sofisticadas que vayan más allá de los indicadores tradicionales, como el factor de impacto de las revistas científicas (el indicador «por excelencia» hasta ahora que juzga más el alcance de la revista que el contenido de la investigación publicada en ella).

Las iniciativas promovidas por CoARA tienen aplicaciones potenciales en el ámbito de la evaluación de la investigación:

  1. Evaluación basada en el mérito: se busca fomentar un sistema de evaluación basado en el mérito y la calidad de la investigación, en lugar de depender únicamente de indicadores cuantitativos. Esto puede permitir una evaluación más justa y equitativa de los investigadores y sus contribuciones.
  2. Diversificación de indicadores: se promueve la incorporación de una amplia variedad de indicadores para evaluar la investigación, más allá del factor de impacto de las revistas científicas. Esto incluye métricas alternativas, como el alcance y la relevancia de la investigación, su influencia en la sociedad o, por supuesto, la adopción de enfoques más cualitativos.
  3. Evaluación de impacto social: la alianza asigna importancia al impacto social de la investigación científica. Esto es considerar cómo los resultados de la investigación contribuyen al desarrollo de la sociedad, abordando y resolviendo desafíos (las vacunas contra la COVID-19, por ejemplo), mejorando políticas o beneficiando a comunidades específicas.
  4. Evaluación multidimensional: se debe avanzar hacia una evaluación multidimensional que tenga en cuenta aspectos como la reproducibilidad, la integridad científica, la colaboración, la comunicación y el liderazgo en el campo de estudio.
  5. Transparencia y apertura: se aboga por mayor transparencia y más apertura en los procesos de evaluación de la investigación. Esto implica promover la disponibilidad de datos y métodos utilizados en la evaluación, así como la comunicación clara de los criterios y estándares utilizados.

En resumen, CoARA aspira a avanzar en la evaluación de la investigación científica por medio de enfoques más efectivos, justos y transparentes, pretendiendo impulsar un cambio significativo en la forma en que se evalúa la investigación. Sus iniciativas abarcan desde la diversificación de indicadores hasta la evaluación del impacto social y el aumento de la transparencia y la apertura. Al fomentar prácticas de evaluación más sofisticadas y equitativas, tiene el potencial de mejorar la evaluación de la investigación y promover un entorno académico más justo y dinámico. Ojalá sea posible.

Falta algo de rigor y sobra bastante promiscuidad en la comunicación científica

En las últimas semanas se han detectado malas prácticas por parte de investigadores y universidades árabes que han puesto en duda el rigor de la comunicación científica.

portada antigua de una revista científica

Las primeras revistas científicas surgen en Francia e Inglaterra en la Ilustración: el Journal das Scavans y Philosophical Transactions y en ellas escribieron Pascal, Descartes, Leibniz, Newton, Locke, Halley y Bacon, entre muchos otros.

Esto representó el inicio del ecosistema de la comunicación científica, contexto donde, hoy en día, ya no solo participan los intelectuales de las sociedades aristocráticas que escribían los artículos y los eruditos que los leían. Poco a poco. Con el paso del tiempo, se incorporaron al mismo las editoriales y las distribuidoras científicas, las investigaciones abandonaron este entorno y se trasladaron a las universidades y, ya en la edad contemporánea, a institutos y centros de investigación especializados. Todo este proceso ha estado vehiculado de la mano del artículo científico, el tipo documental inédito y original que describe los resultados de una investigación y que se somete a una revisión por expertos antes de su publicación en una revista.

La teoría de la evolución por selección natural de Charles Darwin se puede aplicar a muchos ámbitos de la vida y de nuestra actividad cotidiana, no solo a los ecosistemas formados por los seres vivos. Dentro de la comunicación científica, la competencia por la publicación de artículos en las revistas de mayor prestigio es inmensa y en ella participan (antes se podía escribir «en buena lid«, ahora surgen dudas), investigadores de todos los países del mundo, buscando el mayor impacto de su investigación y el prestigio asociado. Estos factores vienen dados, hoy en día, más por el medio (la revista) que por el contenido del artículo (la investigación), lo cual es, en cierto modo, algo contradictorio y discutible, a pesar de ser lo habitual.

Las editoriales han de velar por el respeto a los principios de la comunicación científica: que no se plagie, que se cite la autoría de trabajos previos, que no se falseen o alteren los datos de investigación, etc., únicamente así podrán sobrevivir en este ecosistema. Los autores deben cumplir estas premisas y someter sus trabajos a un proceso de “revisión por pares(otros científicos expertos en la temática) que valorarán su nivel científico con vistas a su publicación. Los revisores pedirán cambios o, directamente, los rechazarán si estos textos no alcanzaran el nivel exigido por la publicación (o por si se detectan malas prácticas).

Una parte de estas revistas se publican sin ánimo de lucro, permitiendo sus editores la lectura gratuita de los artículos, compitiendo en desigualdad de condiciones con las revistas pertenecientes a las grandes editoriales científicas comerciales: Elsevier, Springer, Cambridge University Press, Nature, Royal Society of Chemistry, etc. Las suscripciones a estas revistas son muy costosas, quedando prácticamente vetado su acceso a los científicos y estudiantes de muchas partes del mundo, especialmente en aquellos países en (permanente) vía de desarrollo. Incluso cuando estas publicaciones se digitalizaron, sus editores no descendieron los costes de las suscripciones, a pesar de que ya no existen los gastos de impresión y envío.

A principios de este siglo, se aprobaron las declaraciones de Budapest, Betsheda y Berlín a favor del acceso abierto a la información: Su objetivo es hacer posible un acceso más universal a los resultados de las investigaciones a través de internet. Volviendo a la teoría darwiniana, dentro del ecosistema de la comunicación científica, los editores vieron que su negocio podía verse amenazado por estos principios tan loables como, por desgracia en muchos casos, ilusorios. Las empresas propietarias de las editoriales se adaptaron y evolucionaron, introduciendo medidas correctoras que han llegado incluso a subvertir la propia definición de acceso abierto, porque ahora ya no es libre y gratuito en todos los casos, sino que precisa de un pago previo de unas tasas para publicar un artículo (más conocidas por APCs).

caricatura sobre las revistas predadoras

Tras superar este primer intento de introducir cambios en el hábitat donde imponen el devenir de los acontecimientos, estas editoriales siguen desarrollando su actividad, en algunos casos incluso han conseguido recubrirse de una cierta pátina de responsabilidad social. Pero, en todo ecosistema, por muy seguro que parezca para la especie dominante, siempre aparecen nuevos depredadores más fuertes, viéndose los integrantes de la especie predominante obligados a luchar por defender su posición de privilegio y, en muchos casos, su vida.

No es casualidad que uno de los problemas actuales que más perjudican a la comunicación cient´fiica en particular (y a la Ciencia en general) venga de la mano de revistas conocidas como “predadoras, apelativo que se aplica a aquellas que se hacen pasar por una revista científica legítima, pero que en realidad no aplican procesos de revisión por pares rigurosos y aceptan publicar prácticamente cualquier artículo a cambio de una tasa o APC. Lo cierto es que estas revistas representan una verdadera amenaza para la integridad y la calidad de la literatura científica, sus escasos niveles de rigor y calidad no les alcanzan para ser considerados como medios de comunicación de la investigación legítimos.

publicidad de un megajournal donde queda claro que publican artículos de cualquier disciplina

De forma paralela, han surgido los ‘megajournals’, revistas que publican una amplia variedad de artículos en múltiples disciplinas a diferencia de las editoriales especializadas, que se centran en un tema o campo de investigación específico. Estas nuevas revistas no son exactamente·»depredadoras», si bien hay dudas razonables sobre sus procesos de revisión. La realidad se impone, y ahora, tanto las «predadoras» como los ‘megajurnals’ ocupan espacios en el ecosistema de la comunicación científica donde antes habitaban otros agentes que han tenido que reajustarse y trasladarse. Y esto no se ha quedado ahí porque, casi de la noche a la mañana, han aparecido nuevas editoriales que mezclan el modelo de negocio de las tradicionales revistas especializadas con el de los `megajournals’, cobrando altas cantidades dinero a modo de APC y que no parecen cumplir con unos criterios mínimos de calidad en sus revisiones, habiéndose disparado así el número de los artículos científicos retractados en revistas propiedad de algunas de estas editoriales (léase mdpi, Frontiers o Hindawi).

Por si faltaba algún elemento para distorsionar el ecosistema, comienzan a detectarse influencias nada recomendables de los distintos ránquines de universidades (en particular el ARWU o “ranking de Shangai” que en España se hizo famoso por medio del nefasto exministro de Universidades José Ignacio Wert). Uno de los criterios que se valoran en estas “listas de éxitos” (como bien escribía hace unos días la profesora Eva Méndez en El País) es contar entre tus científicos a aquellos clasificados como «altamente citados» (en el recientemente publicado informe de 2002, son 6938 los autores cuyos trabajos reciben el 1% de todas las citas a nivel mundial en su disciplina según la base de datos Web of Science).

Muchas universidades han ascendido posiciones en esos ránquines fichando falsamente a científicos de otras instituciones, pagándoles por cambiar la información sobre el lugar de trabajo que todos ponemos en nuestros artículos (la mayoría de nosotros con sincero orgullo de militancia). Personas que nunca han estado en la península arábiga, aparecen ahora como “trabajadores” de universidades de esa parte del mundo, cuando la institución que paga sus sueldos y financia las infraestructuras para que puedan llevar a cabo sus investigaciones son otras, generalmente públicas, que aportan ese dinero procedente de los presupuestos públicos. Como mínimo, esto es un inmenso desprecio a los ciudadanos y ciudadanas que pagan sus impuestos, aunque parece algo más grave.

Las noticias publicadas por Manuel Ansede en El País muestran una realidad desagradable y que no puede consentirse. La Universidad de Córdoba ha señalado el camino a seguir para corregir estas malas prácticas suspendiendo de empleo y sueldo a un investigador por 13 años, otras deberían seguir su ejemplo. En cambio, la mayoría de los 19 investigadores identificados en España por haber llevado a cabo estas malas prácticas, siguen trabajando en sus universidades o centros de investigación, aparentemente sin apertura de expedientes disciplinarios. Lo mismo ocurre con aquellas personas que han ejercido de mediadores para «captar» a estos investigadores. Incluso una investigadora de un instituto de investigación de Cataluña informa de que renuncia a ese contrato para seguir con las universidades árabes (no he podido verificar esto último, por eso no concreto mucho más).

Personalmente pienso que no es tolerable esta infidelidad, más bien promiscuidad en muchos casos.

Dejando aparte la cuestión administrativa, y para finalizar, es lógico que nos preguntemos si se puede luchar contra todos estos problemas. La respuesta es simple: se puede y se debe. Se tiene que actuar desde muchos ámbitos para corregir hábitos indeseables fuertemente asentados. La LOSU habla de valorar la ciencia con los principios FAIR (encontrabilidad, accesibilidad, interoperabilidad y reutilización) como medida correctora. Es bien sabido que estas ideas constituyen uno de los pilares de la ciencia abierta, un nuevo intento de suturar las heridas que todas estas malas prácticas han introducido y de tender puentes para aminorar las distintas brechas que impiden el libre acceso a los resultados de la investigación por parte de todas las personas.

La ciencia será abierta, o no lo será.

#CienciaAbierta ya!!