Durante el pasado año se publicaron 961 datasets en los repositorios de las universidades públicas españolas. Los datos, a excepción de la Universidade da Coruña y la Universidad de Las Palmas de Gran Canaria que remiten a su comunidad investigadora al repositorio comunitario ZENODO, los extraemos de los sitios web de cada universidad. También se han actualizado datos de alguna universidad de la que no pudimos extraer información hace un año y hemos levantado «el veto» que aplicábamos a una por usar software propietario en lugar de software libre para gestionar el repositorio. También se han actualizado los datos de los años anteriores porque, en algunos casos, se han detectado errores en los subtotales o pequeñas diferencias (como si se hubiera dado de baja algún ‘dataset’, algo que no debería de ocurrir habitualmente).
Los resultados son buenos, está claro que que se van notando los resultados del trabajo de REBIUN de y las directrices de la división de #CienciaAbierta de Fundación Española para la Ciencia y la Tecnología, FECYT en el aumento de la presencia de los conjuntos de datos de investigación en estos repositorios. Las bibliotecas universitarias públicas apoyan claramente el movimiento hacia la #CienciaAbierta: en un año en el que se han publicado más ‘datasets’ que el total de la suma de los dos inmediatamente anteriores, que ya marcaban máximos en la serie.
Casi el 75% de los nuevos ‘datasets’ han sido publicados por los consorcios autonómicos. Ese apoyo de la administración regional es muy adecuado y beneficioso y deberían tomar nota todas aquellas comunidades que tienen varias universidades públicas en sus territorios (Andalucía, Aragón, Valencia, etc.). Esta desproporción aún no se nota tanto en el total de ‘datasets’ publicados: 1693 por los consorcios frente a 1126 por las universidades que trabajan de forma indvidual.
Para tener una idea más global del nivel de publicación de #datasets de datos de investigación por parte de las universidades públicas españolas, habría que ampliar estos datos con el total de conjuntos publicados en Zenodo. En unos días tendremos más datos.
Cláudia Sofia Teixeira dos Santos presentó en enero de 2023 en la Universidade do Minho su tesis de máster ‘OGD Lens: avaliação automática da qualidade dos dados do European Data Portal’ sobre la evaluación de la calidad de los conjuntos de datos publicados en el portal de datos abiertos de la Unión Europea (sitio web aloja más de millón y medio de conjuntos de datos y 179 catálogos de datos puestos a disposición de la ciudadanía) para proporcionar una guía de mejora de su calidad. Para poder medir esa calidad desarrolló una metodología basada een los siguientes criterios:
Facilidad de uso con la que los usuarios pueden acceder a los datos y utilizarlos para fines de investigación.
La disponibilidad de los datos en un formato estándar y abierto y la accesibilidad de los conjuntos de datos a través de un repositorio en línea o una página web.
Calidad técnica: la precisión, integridad y consistencia de los datos.
Documentación: la información proporcionada junto con los datos, como la descripción de la fuente de los datos, las limitaciones de uso y la frecuencia de actualización.
Legalidad: la conformidad de los datos con las leyes de privacidad y derechos de autor.
Los metadatos empleados para describir los conjuntos de datos representan una valiosa fuente de información para satisfacer estos niveles de calidad. Por ello, la investigadora llevó a cabo un estudio empírico desarrollando un analizador semiautomático de evaluación de la información aportada por los metadatos en una serie de conjuntos de datos publicados. Los resultados obtenidos mostraron que la calidad de esos conjuntos varía significativamente. En líneas generales tienen una buena facilidad de uso, pero la calidad técnica, la documentación y la legalidad son aspectos que presentan deficiencias significativas.
En cuanto a la facilidad de uso, se dispone de buena información para el acceso a los datos y cómo reutilizarlos. En cambio, en cuanto a la calidad técnica, en muchos conjuntos de datos se carece de información sobre la fuente, las limitaciones de uso y la frecuencia de actualización. En lo relativo a la legalidad, muchos conjuntos no proporcionan información sobre los derechos de autor y la privacidad, lo que puede derivar en un uso inadecuado de los datos.
En este estudio se analizó la calidad de los catálogos y de los conjuntos de datos. Un catálogo de datos es un repositorio que contiene información detallada de los conjuntos de datos disponibles en una organización. Ofrece metadatos sobre los conjuntos de datos: descripción, origen, estructura, formatos, licencias, fechas de actualización. etc. También puede proporcionar información sobre cómo acceder y utilizarlos.
Y asoció a cada buena práctica la serie de beneficios que se derivaban de su uso. En la siguiente imagen podemos ver un fragmento de la tabla que construyó que afecta a las cinco primeras.
BP 4: Proporcionar información sobre la licencia de los datos
Reusabilidad Confiabilidad
BP 5: Proporcionar información sobre la procedencia de los datos
Reusabilidad Confiabilidad
Asociación de las DWBP (1 a 5) con sus beneficios de uso (Teixeira dos Santos, 2023, 26-27).
Nosotros hemos sintetizado esa vinculación en la siguiente tabla que nos permite concluir que la reusabilidad es el beneficio (y principio FAIR)l que agrupa a un número mayor de buenas prácticas seguido de la confianza.
Los principios FAIR datan del año 2106. Como todas las normas genéricas, dan lugar a distintas interpretaciones en su aplicación. Para remediar la proliferación de medidas del cumplimiento de estos principios (‘FAIRness’ en inglés), la ‘Research Data Alliance’ creó un grupo de trabajo para desarrollar un modelo de madurez en la implementación de los conjuntos de datos (2020).
Este modelo consiste en una serie criterios básicos de evaluación que establece indicadores y niveles de madurez asociados. En un principio, se elaboró un primer conjunto de directrices y una lista de verificación relacionada con la implementación de los indicadores, alineando así las directrices para evaluar el nivel de cumplimiento FAIR con las necesidades de la comunidad. Los indicadores se derivan, lógicamente de los principios FAIR y pretenden formular aspectos mensurables de cada principio que puedan ser utilizados por los enfoques de evaluación.
Los principios se toman tal cual; es decir, los indicadores no amplían o modifican los principios, sólo cubren aspectos que se mencionan en ellos o en aclaraciones adicionales. El planteamiento del modelo se basa en crear un indicador para cada aspecto distinguible en la descripción del principio. Así, cuando se habla de un identificador persistente y globalmente único, se definen dos indicadores: uno para evaluar la persistencia y otro para evaluar la unicidad.
Otra característica a destacar es que se definen indicadores distintos para los metadatos y para los datos, siempre que un principio se hable de «(meta)datos» y la evaluación del aspecto para los metadatos sea distinta de la evaluación para los datos. En la siguiente tabla se presenta un resumen del modelo basado en la lista de recomendaciones (fuente: https://zenodo.org/record/3909563).
Principio FAIR
Indicador
Propósito
Naturaleza
F1
RDA-F1-01M
Los metadatos se identifican mediante un identificador persistente
Esencial
RDA-F1-01D
Los datos se identifican mediante un identificador persistente
Esencial
RDA-F1-02M
Los metadatos se identifican mediante un identificador único global
Esencial
RDA-F1-02D
Los datos se identifican mediante un identificador único global
Esencial
F2
RDA-F2-01M
Se proporcionan metadatos enriquecidos para permitir la localización
Esencial
F3
RDA-F3-01M
Los metadatos incluyen el identificador de los datos
Esencial
F4
RDA-F4-01M
Los metadatos se presentan de forma que puedan ser recolectados e indexados.
Esencial
A1
RDA-A1-01M
Los metadatos contienen información que permite al usuario acceder a los datos.
Importante
RDA-A1-02M
Los metadatos pueden ser accedidos manualmente (por ejemplo, con intervención humana).
Esencial
RDA-A1-02D
Los datos pueden ser accedidos manualmente (por ejemplo, con intervención humana).
Esencial
RDA-A1-03M
El identificador de los metadatos resuelve un registro de metadatos.
Esencial
RDA-A1-03D
El identificador de los datos resuelve un objeto digital.
Esencial
RDA-A1-04M
Se accede a los metadatos a través de un protocolo estandarizado.
Esencial
RDA-A1-04D
Se accede a los datos a través de un protocolo estandarizado.
Esencial
RDA-A1-05D
Los datos pueden ser accedidos de forma automática (por ejemplo, por medio de un programa de ordenador).
Importante
A1.1
RDA-A1.1-01M
Los metadatos son accesibles a través de un protocolo de acceso libre.
Esencial
RDA-A1.1-01D
Los datos son accesibles a través de un protocolo de acceso libre.
Importante
A1.2
RDA-A1.2-01D
Los datos son accesibles por medio de un protocolo de acceso que soporta autenticación y autorización.
Útil
A2
RDA-A2-01M
Se garantiza que los metadatos seguirán disponibles después de que los datos dejen de estarlo.
Esencial
I1
RDA-I1-01M
Los metadatos usan representación del conocimiento expresada en formatos estandarizados.
Importante
RDA-I1-01D
Los datos usan representación del conocimiento expresada en formatos estandarizados.
Importante
RDA-I1-02M
Los metadatos utilizan una representación del conocimiento comprensible para las máquinas
Importante
RDA-I1-02D
Los datos utilizan una representación del conocimiento comprensible para las máquinas
Importante
I2
RDA-I2-01M
Los metadatos utilizan vocabularios conformes con los principios FAIR
Importante
RDA-I2-01D
Los datos utilizan vocabularios conformes con los principios FAIR
Útil
I3
RDA-I3-01M
Los metadatos incluyen referencias a otros metadatos
Importante
RDA-I3-01D
Los datos incluyen referencias a otros metadatos
Útil
RDA-I3-02M
Los metadatos incluyen referencias a otros datos
Útil
La evaluación de cada indicador se lleva a cabo estableciendo cinco niveles de cumplimiento de los principios:
0, no aplicable
1, aún no se está considerando
2, en estudio o en fase de planificación
3, en fase de implementación
4, totalmente implementado
Se ofrece la posibilidad de «descartar un indicador«, ya que este podría no ser relevante para una comunidad concreta. La razón de ser de este enfoque es dar crédito a la evolución y ayudar a mejorar la gestión de datos. Este enfoque puede ser muy útil para los proveedores y editores de datos que quieran hacer una prueba de autoevaluación y tener una idea más clara de dónde concentrar los esfuerzos para que sus conjuntos de datos satisfagan mejor los principios FAIR.
Como ejemplos de aplicación disponemos del caso de la Agencia Europea de Medio Ambiente (EEA) que ha utilizado el modelo para mejorar la calidad de sus datos alcanzando el nivel 2 de madurez (camino del siguiente nivel). La Universidad de California, Berkeley ha utilizado el modelo para mejorar la calidad de sus datos de investigación, alcanzando el mismo nivel de cumplimiento. Google ha utilizado el modelo para mejorar la calidad de sus datos de investigación llegando al nivel 3 de madurez.
El World Wide Consortium (W3C) publicó en 2017 el documento ‘Data on the Web Best Practices: W3C Recommendation‘ (DWBP), una detallada guía para el diseño, publicación y uso de datos enlazados en la web, con el objeto de promover su accesibilidad, interoperabilidad y reutilización.
Este documento proporciona orientación a los editores de datos en línea sobre cómo representarlos y compartirlos en un formato estándar y accesible. Las prácticas se han desarrollado para fomentar y permitir la expansión continua de la web como medio para el intercambio de datos. El documento menciona el crecimiento en la publicación de datos abiertos por parte de los gobiernos en todo el mundo, la publicación en línea de los datos de investigación, la recolección y análisis de datos de redes sociales, la presencia de importantes colecciones de patrimonio cultural y, en general, el crecimiento sostenido de los datos abiertos en la nube, destacando la necesidad de una comprensión común entre editores y consumidores de datos, junto con la necesidad de mejorar la consistencia en el manejo de los datos.
Estas buenas prácticas cubren diferentes aspectos relacionados con la publicación y el consumo de datos, como son los formatos, el acceso, los identificadores y la gestión de los metadatos. Con el fin de delimitar el alcance y obtener las características necesarias para implementarlas, se recopilaron casos de uso que representan escenarios de cómo se publican habitualmente estos datos y cómo se utilizan. El conjunto de requisitos derivados de esta recopilación se utilizó para guiar el desarrollo de las DWBP, independientes del dominio y la aplicación. Estas recomendaciones pueden ampliarse o complementarse con otros documentos de similar naturaleza. Si bien las DWBP recomiendan usar datos enlazados, también promueven el empleo de otros formatos abiertos como son CSV o json, maximizando más si cabe el potencial de este contexto para establecer vínculos.
CATEGORÍA
BUENA PRÁCTICA
Metadatos Requisito fundamental. Los datos no podrán ser descubiertos o reutilizados por nadie más que el editor si no se proporcionan metadatos suficientes.
BP 1: Proporcionar metadatos BP 2: Proporcionar metadatos descriptivos BP 3: Proporcionar metadatos estructurales
Licencias Según el tipo de licencia adoptada por el editor, puede haber más o menos restricciones a la hora de compartir y reutilizar los datos.
BP 4: Proporcionar información sobre la licencia de los datos
Procedencia El reto de publicar datos en la web es proporcionar un nivel adecuado de detalle sobre su origen.
BP 5: Proporcionar información sobre la procedencia de los datos
Calidad Puede tener un gran impacto en la calidad de las aplicaciones que utilizan un conjunto de datos.
BP 6: Proporcionar información sobre la calidad de los datos
Versiones Los conjuntos de datos pueden cambiar con el tiempo. Algunos tienen previsto ese cambio y otros se modifican a medida que las mejoras en la recogida de datos hacen que merezca la pena actualizarlos.
BP 7: Proporcionar un indicador de versión BP 8: Proporcionar el historial de versiones
Identificadores El descubrimiento, uso y citación de datos en la web depende fundamentalmente del uso de URI HTTP (o HTTPS): identificadores únicos globales.
BP 9: Utilizar URIs persistentes como identificadores de conjuntos de datos BP 10: Utilizar URIs persistentes como identificadores dentro de conjuntos de datos BP 11: Asignar URIs a versiones y series de conjuntos de datos
Formatos El mejor y más flexible mecanismo de acceso del mundo carece de sentido si no se sirven los datos en formatos que permitan su uso y reutilización.
BP 12: Utilizar formatos de datos estandarizados legibles por máquina BP 13: Utilizar representaciones de datos neutras respecto a la localización BP 14: Proporcionar datos en múltiples formatos
Vocabularios Se utiliza para clasificar los términos que pueden utilizarse en una aplicación concreta, caracterizar las posibles relaciones y definir las posibles restricciones en su uso.
BP 15: Reutilizar vocabularios, preferentemente estandarizados BP 16: Elegir el nivel adecuado de formalización
Acceso a los datos Facilitar el acceso a los datos permite tanto a las personas como a las máquinas aprovechar las ventajas de compartir datos utilizando la infraestructura de la red.
BP 17: Proporcionar descarga masiva BP 18: Proporcionar subconjuntos para conjuntos de datos grandes BP 19: Utilizar negociación de contenidos para servir datos disponibles en múltiples formatos BP 20: Proporcionar acceso en tiempo real BP 21: Proporcionar datos actualizados BP 22: Proporcionar una explicación para datos que no están disponibles BP 23: Hacer datos disponibles a través de una API BP 24: Utilizar estándares web como base de las APIs BP 25: Proporcionar documentación completa para su API BP 26: Evitar cambios que rompan su API
Preservación Las medidas deben tomar los editores para indicar que los datos se han eliminado o archivado.
BP 27: Preservar identificadores BP 28: Evaluar la cobertura del conjunto de datos
Retroalimentación (‘feedback’) Ayuda a los editores en la mejora de la integridad de los datos, además de fomentar la publicación de nuevos datos. Permite a los consumidores de datos tener voz describiendo experiencias de uso.
BP 29: Recopilar comentarios de los consumidores de datos BP 30: Hacer comentarios disponibles
Enriquecimiento Procesos que pueden utilizarse para mejorar, perfeccionar los datos brutos o previamente procesados. Esta idea y otros conceptos similares contribuyen a hacer de los datos un activo valioso para casi cualquier negocio o empresa moderna.
BP 31: Enriquecer datos generando nuevos datos BP 32: Proporcionar presentaciones complementarias
Republicación Combinar datos existentes con otros conjuntos de datos, crear aplicaciones web o visualizaciones, o reempaquetar los datos en una nueva forma.
BP 33: Proporcionar comentarios al editor original BP 34: Seguir los términos de la licencia BP 35: Citar la publicación original
Resumen de las Data Web Best Practices del W3C
Beneficios e incovenientes de las DWBP
Como podemos ver, se trata de unas pautas que precisan de cierto volumen de trabajo y muchas han de ser aplicadas por personas con mucha experiencia. A continuación, resumimos los beneficios y los (posibles) inconvientes de las mismas.
Beneficios:
Interoperabilidad: Las prácticas están diseñadas para asegurar que los datos publicados sean comprensibles y accesibles para una amplia variedad de aplicaciones y sistemas. Esto facilita la integración y el intercambio de datos entre organizaciones y plataformas.
Reutilización: Si se siguen las buenas prácticas, los datos se estructuran coherentemente y se proporcionan metadatos claros. Esto facilita la reutilización de los datos por parte de otros usuarios y organizaciones para crear nuevas aplicaciones, servicios o análisis. Esto fomenta la innovación y la creación de valor.
Calidad de los datos: Las buenas prácticas promueven la calidad de los datos al definir estándares para la representación y la semántica de los datos. Esto reduce los errores y las ambigüedades en los datos publicados, mejorando la confiabilidad y la precisión de la información.
Accesibilidad: Un seguimiento de las buenas prácticas asegura que los datos estén disponibles y sean accesibles para un público amplio, incluyendo personas con discapacidades. Esto promueve la inclusión y garantiza que los datos estén disponibles para todos los usuarios, independientemente de sus necesidades.
Indexación y búsqueda: Los motores de búsqueda comprenden mejor e indexan más eficazmente los datos que siguen las DWBP. Esto mejora su encontrabilidad, aumentando la visibilidad de los datos en los resultados, lo que aumenta su alcance y utilidad.
Transparencia: Publicar datos según estándares abiertos y transparentes, se promueve la transparencia y la rendición de cuentas. Esto es especialmente importante en los datos de las administraciones públicas y también en datos científicos, donde la accesibilidad a los conjuntos de datos es esencial para la toma de decisiones informadas y la supervisión.
Facilita la colaboración: Estas buenas prácticas fomentan la colaboración entre organizaciones y comunidades al proporcionar un marco común para compartir datos. Esto es especialmente útil en proyectos de colaboración donde múltiples partes necesitan compartir y trabajar con datos de manera eficiente.
Posibles inconvenientes
Coste: Implementar las DWBP puede requerir inversiones significativas en recursos humanos y tecnológicos, lo que es un problema para organizaciones con presupuestos limitados.
Complejidad: Algunas de las mejores prácticas del W3C resultan técnicamente complejas de implementar, especialmente para personas u organizaciones sin experiencia previa en estándares web y tecnologías relacionadas.
Cumplimiento: Asegurarse de cumplir con todas las directrices y recomendaciones puede ser un desafío, y el incumplimiento podría afectar la efectividad de la publicación de datos.
Adopción: No todas las organizaciones y comunidades pueden estar dispuestas o capacitadas para adoptar estas prácticas de inmediato. Esto puede limitar la interoperabilidad y la reutilización de datos.
Seguridad y privacidad: La publicación de datos ha de hacerse con precaución para evitar la divulgación de información sensible o privada. El cumplimiento de las normativas de protección de datos es esencial y requiere un esfuerzo adicional.
Actualización continua: Mantener los datos actualizados y en conformidad con las buenas prácticas puede ser un verdadero desafío a largo plazo. Esto va a precisar de dedicación y recursos continuos.
En resumen, publicar datos siguiendo las Data Web Best Practices del W3C ofrece numerosos beneficios en términos de interoperabilidad, reutilización de datos, calidad de datos, accesibilidad y transparencia. Sin embargo, también conlleva inconvenientes relacionados con el costo, la complejidad, el cumplimiento, la adopción, la seguridad y la privacidad, así como la necesidad de mantener los datos actualizados. Seguir estas mejores prácticas va a depender de los objetivos y recursos de la organización y de su compromiso con la calidad y la accesibilidad de los datos a publicar.
En otras entradas seguiremos hablando de buenas prácticas y conjuntos de datos, algo preciso para llegar a la Ciencia Abierta.
La nueva ley orgánica de universidades española (LOSU), dentro del artículo 12 dedicado al fomento de la Ciencia Abierta y Ciencia Ciudadana menciona los principios FAIR (acrónimo de ‘Findability, Accessibility, Interoperability, and Reusability‘)
Estos principios resultan esenciales en un mundo en el que la cantidad de datos científicos se duplica cada pocos años. Con tanto conjunto de datos disponibles, es cada vez más necesario encontrar maneras de hacer que sean útiles y accesibles para los investigadores de todo el mundo. Los principios FAIR proporcionan una guía para hacer precisamente eso. La idea la presentaron Wilkinson et al. en el artículo ‘The FAIR Guiding Principles for scientific data management and stewardship‘ publicado en la revista Scientific Data del grupo Nature
El primer principio, «encontrable«, significa que los datos científicos han de publicarse de manera que sean fácilmente identificables y localizables por cualquier persona que esté buscando información. Esto se logra mediante la asignación de identificadores únicos y permanentes a los datos, la utilización de metadatos descriptivos y la inclusión de información sobre el contexto en el que se recopilaron los datos.
El segundo principio, «accesible«, se refiere a la necesidad de hacer que el acceso a esos conjuntos de datos sea fácil para cualquier persona, en cualquier momento y lugar. Para ello, es muy importante eliminar todo tipo de barreras técnicas, legales y financieras que puedan impedir el acceso a los datos. Todo ello sin olvidar que estos conjuntos de datos deben ser accesibles en un formato legible para las personas y las máquinas.
El tercer principio, «interoperable«, se refiere a la necesidad de que los datos sean compatibles con los sistemas y herramientas utilizados por los investigadores. Esto será posible mediante el uso de de estándares y formatos comunes, que permiten que los datos sean intercambiados y combinados fácilmente.
El cuarto principio, y no por ello menos importante, «reutilizable» significa que los datos deben ser capaces de ser reutilizados por cualquier persona con cualquier propósito, siempre y cuando se respeten los derechos de autor y otros aspectos legales. Para ello, los datos deben ser claros y comprensibles, y deben estar disponibles en un formato que sea fácil de utilizar y manipular.
En definitiva, los principios FAIR permiten que los datos científicos sean más útiles y eficaces, lo que a su vez puede acelerar el avance de la investigación y ayudar a abordar problemas globales urgentes. Su uso masivo va a ayudar, sin duda alguna, a mejorar la calidad y la eficiencia de la investigación, y a fomentar la colaboración y el intercambio de conocimientos en todo el mundo. Esto último es trascendental, depositar para compartir conjuntos de datos es uno de los pilares de la Ciencia Abierta