principios FAIR

Relación entre las buenas prácticas DWBP y los principios FAIR

Cláudia Sofia Teixeira dos Santos presentó en enero de 2023 en la Universidade do Minho su tesis de máster ‘OGD Lens: avaliação  automática da qualidade dos dados do European Data Portal’  sobre la evaluación de la calidad de los conjuntos de datos publicados en el portal de datos abiertos de la Unión Europea (sitio web aloja más de millón y medio de conjuntos de datos y 179 catálogos de datos puestos a disposición de la ciudadanía) para proporcionar una guía de mejora de su calidad. Para poder medir esa calidad desarrolló una metodología basada een los siguientes criterios:

criterios de calidad del portal de datos abiertos de la UE
  1. Facilidad de uso con la que los usuarios pueden acceder a los datos y utilizarlos para fines de investigación.
  2. La disponibilidad de los datos en un formato estándar y abierto y la accesibilidad de los conjuntos de datos a través de un repositorio en línea o una página web.
  3. Calidad técnica: la precisión, integridad y consistencia de los datos.
  4. Documentación: la información proporcionada junto con los datos, como la descripción de la fuente de los datos, las limitaciones de uso y la frecuencia de actualización.
  5. Legalidad: la conformidad de los datos con las leyes de privacidad y derechos de autor.

Los metadatos empleados para describir los conjuntos de datos representan una valiosa fuente de información para satisfacer estos niveles de calidad. Por ello, la investigadora llevó a cabo un estudio empírico desarrollando un analizador semiautomático de evaluación de la información aportada por los metadatos en una serie de conjuntos de datos publicados. Los resultados obtenidos mostraron que la calidad de esos conjuntos varía significativamente. En líneas generales tienen una buena facilidad de uso, pero la calidad técnica, la documentación y la legalidad son aspectos que presentan deficiencias significativas.

En cuanto a la facilidad de uso, se dispone de buena información para el acceso a los datos y cómo reutilizarlos. En cambio, en cuanto a la calidad técnica, en muchos conjuntos de datos se carece de información sobre la fuente, las limitaciones de uso y la frecuencia de actualización. En lo relativo a la legalidad, muchos conjuntos no proporcionan información sobre los derechos de autor y la privacidad, lo que puede derivar en un uso inadecuado de los datos.

En este estudio se analizó la calidad de los catálogos y de los conjuntos de datos. Un catálogo de datos es un repositorio que contiene información detallada de los conjuntos de datos disponibles en una organización. Ofrece metadatos sobre los conjuntos de datos: descripción, origen, estructura, formatos, licencias, fechas de actualización. etc. También puede proporcionar información sobre cómo acceder y utilizarlos.

La autora consideró los beneficios derivados del uso de las buenas prácticas DWBP en la gestión de datos en la web que sintetiza Juan Antonio Pastor Sánchez en esta diapositiva.

beneficios de usar las Data Web Best Practices del W3C para gestionar datos en la wev

Y asoció a cada buena práctica la serie de beneficios que se derivaban de su uso. En la siguiente imagen podemos ver un fragmento de la tabla que construyó que afecta a las cinco primeras.

Buena prácticaBeneficios
BP 1: Proporcionar metadatos  Reusabilidad Comprensibilidad Descubribilidad Procesabilidad
BP 2: Proporcionar metadatos descriptivos  Reusabilidad Comprensibilidad Descubribilidad  
BP 3: Proporcionar metadatos estructurales  Reusabilidad Comprensibilidad Procesabilidad
BP 4: Proporcionar información sobre la licencia de los datos  Reusabilidad Confiabilidad
BP 5: Proporcionar información sobre la procedencia de los datosReusabilidad Confiabilidad
Asociación de las DWBP (1 a 5) con sus beneficios de uso (Teixeira dos Santos, 2023, 26-27).

Nosotros hemos sintetizado esa vinculación en la siguiente tabla que nos permite concluir que la reusabilidad es el beneficio (y principio FAIR)l que agrupa a un número mayor de buenas prácticas seguido de la confianza.

BeneficioBuenas prácticas
AccesibilidadBP17, BP18, BP19, BP20, BP21, BP23, BP24, BP32
ComprensiónBP1, BP2, BP3. BP13 , BP15, BP16, BP29, BP31, BP32, BP33
ConectividadBP9, BP10, BP18, BP24
ConfianzaBP4, BP5, BP6, BP7, BP8, BP11, BP15, BP22, BP25, BP26, BP27, BP28, BP29, BP30, BP31, BP32, BP34, BP35
DescubribilidadBP1, BP2, BP9, BP10, BP11, BP24, BP35
InteroperabilidadBP9, BP10, BP15, BP16, BP23, BP24, BP26, BP33
ProcesabilidadBP1, BP3, BP12, BP14, BP15, BP18, BP23, BP24, BP31
ReusabilidadBP1, BP2, BP3, BP4, BP5, BV6, BP7, BP8, BP9, BP10, BP11, BP12, BP13, BP14, BP15, BP16, BP17, BP18, BP19, BP20, BP21, BP22, BP23, BP24, BP25, BP26, BP27, BP28, BP29, BP30, BP31, BP32, BP33, BP34, BP35
Clasificación de las DWBP según beneficio asociado a su uso.

Principios FAIR: qué son y por qué son importantes

La nueva ley orgánica de universidades española (LOSU), dentro del artículo 12 dedicado al fomento de la Ciencia Abierta y Ciencia Ciudadana menciona los principios FAIR (acrónimo de ‘Findability, Accessibility, Interoperability, and Reusability‘)

qué son los principios FAIR de la Ciencia Abierta

Estos principios resultan esenciales en un mundo en el que la cantidad de datos científicos se duplica cada pocos años. Con tanto conjunto de datos disponibles, es cada vez más necesario encontrar maneras de hacer que sean útiles y accesibles para los investigadores de todo el mundo. Los principios FAIR proporcionan una guía para hacer precisamente eso. La idea la presentaron Wilkinson et al. en el artículo ‘The FAIR Guiding Principles for scientific data management and stewardship‘ publicado en la revista Scientific Data del grupo Nature

  • El primer principio, «encontrable«, significa que los datos científicos han de publicarse de manera que sean fácilmente identificables y localizables por cualquier persona que esté buscando información. Esto se logra mediante la asignación de identificadores únicos y permanentes a los datos, la utilización de metadatos descriptivos y la inclusión de información sobre el contexto en el que se recopilaron los datos.
  • El segundo principio, «accesible«, se refiere a la necesidad de hacer que el acceso a esos conjuntos de datos sea fácil para cualquier persona, en cualquier momento y lugar. Para ello, es muy importante eliminar todo tipo de barreras técnicas, legales y financieras que puedan impedir el acceso a los datos. Todo ello sin olvidar que estos conjuntos de datos deben ser accesibles en un formato legible para las personas y las máquinas.
  • El tercer principio, «interoperable«, se refiere a la necesidad de que los datos sean compatibles con los sistemas y herramientas utilizados por los investigadores. Esto será posible mediante el uso de de estándares y formatos comunes, que permiten que los datos sean intercambiados y combinados fácilmente.
  • El cuarto principio, y no por ello menos importante, «reutilizable» significa que los datos deben ser capaces de ser reutilizados por cualquier persona con cualquier propósito, siempre y cuando se respeten los derechos de autor y otros aspectos legales. Para ello, los datos deben ser claros y comprensibles, y deben estar disponibles en un formato que sea fácil de utilizar y manipular.

En definitiva, los principios FAIR permiten que los datos científicos sean más útiles y eficaces, lo que a su vez puede acelerar el avance de la investigación y ayudar a abordar problemas globales urgentes. Su uso masivo va a ayudar, sin duda alguna, a mejorar la calidad y la eficiencia de la investigación, y a fomentar la colaboración y el intercambio de conocimientos en todo el mundo. Esto último es trascendental, depositar para compartir conjuntos de datos es uno de los pilares de la Ciencia Abierta