noviembre 2023

Data web best practices (DWBP by W3C)

El World Wide Consortium (W3C) publicó en 2017 el documento ‘Data on the Web Best Practices: W3C Recommendation(DWBP), una detallada guía para el diseño, publicación y uso de datos enlazados en la web, con el objeto de promover su accesibilidad, interoperabilidad y reutilización.

logo del W3C

Este documento proporciona orientación a los editores de datos en línea sobre cómo representarlos y compartirlos en un formato estándar y accesible. Las prácticas se han desarrollado para fomentar y permitir la expansión continua de la web como medio para el intercambio de datos. El documento menciona el crecimiento en la publicación de datos abiertos por parte de los gobiernos en todo el mundo, la publicación en línea de los datos de investigación, la recolección y análisis de datos de redes sociales, la presencia de importantes colecciones de patrimonio cultural y, en general, el crecimiento sostenido de los datos abiertos en la nube, destacando la necesidad de una comprensión común entre editores y consumidores de datos, junto con la necesidad de mejorar la consistencia en el manejo de los datos.

Estas buenas prácticas cubren diferentes aspectos relacionados con la publicación y el consumo de datos, como son los formatos, el acceso, los identificadores y la gestión de los metadatos. Con el fin de delimitar el alcance y obtener las características necesarias para implementarlas, se recopilaron casos de uso que representan escenarios de cómo se publican habitualmente estos datos y cómo se utilizan. El conjunto de requisitos derivados de esta recopilación se utilizó para guiar el desarrollo de las DWBP, independientes del dominio y la aplicación. Estas recomendaciones pueden ampliarse o complementarse con otros documentos de similar naturaleza. Si bien las DWBP recomiendan usar datos enlazados, también promueven el empleo de otros formatos abiertos como son CSV o json, maximizando más si cabe el potencial de este contexto para establecer vínculos.

CATEGORÍABUENA PRÁCTICA
Metadatos Requisito fundamental. Los datos no podrán ser descubiertos o reutilizados por nadie más que el editor si no se proporcionan metadatos suficientes.BP 1: Proporcionar metadatos
BP 2: Proporcionar metadatos descriptivos
BP 3: Proporcionar metadatos estructurales
Licencias
Según el tipo de licencia adoptada por el editor, puede haber más o menos restricciones a la hora de compartir y reutilizar los datos.
BP 4: Proporcionar información sobre la licencia de los datos
Procedencia
El reto de publicar datos en la web es proporcionar un nivel adecuado de detalle sobre su origen.
BP 5: Proporcionar información sobre la procedencia de los datos
Calidad
Puede tener un gran impacto en la calidad de las aplicaciones que utilizan un conjunto de datos.
BP 6: Proporcionar información sobre la calidad de los datos
Versiones
Los conjuntos de datos pueden cambiar con el tiempo. Algunos tienen previsto ese cambio y otros se modifican a medida que las mejoras en la recogida de datos hacen que merezca la pena actualizarlos.
BP 7: Proporcionar un indicador de versión BP 8: Proporcionar el historial de versiones
Identificadores
El descubrimiento, uso y citación de datos en la web depende fundamentalmente del uso de URI HTTP (o HTTPS): identificadores únicos globales.
BP 9: Utilizar URIs persistentes como identificadores de conjuntos de datos
BP 10: Utilizar URIs persistentes como identificadores dentro de conjuntos de datos
BP 11: Asignar URIs a versiones y series de conjuntos de datos
Formatos
El mejor y más flexible mecanismo de acceso del mundo carece de sentido si no se sirven los datos en formatos que permitan su uso y reutilización.
BP 12: Utilizar formatos de datos estandarizados legibles por máquina
BP 13: Utilizar representaciones de datos neutras respecto a la localización
BP 14: Proporcionar datos en múltiples formatos  
Vocabularios
Se utiliza para clasificar los términos que pueden utilizarse en una aplicación concreta, caracterizar las posibles relaciones y definir las posibles restricciones en su uso.
BP 15: Reutilizar vocabularios, preferentemente estandarizados BP 16: Elegir el nivel adecuado de formalización
Acceso a los datos
Facilitar el acceso a los datos permite tanto a las personas como a las máquinas aprovechar las ventajas de compartir datos utilizando la infraestructura de la red.
BP 17: Proporcionar descarga masiva
BP 18: Proporcionar subconjuntos para conjuntos de datos grandes
BP 19: Utilizar negociación de contenidos para servir datos disponibles en múltiples formatos
BP 20: Proporcionar acceso en tiempo real
BP 21: Proporcionar datos actualizados
BP 22: Proporcionar una explicación para datos que no están disponibles
BP 23: Hacer datos disponibles a través de una API
BP 24: Utilizar estándares web como base de las APIs
BP 25: Proporcionar documentación completa para su API
BP 26: Evitar cambios que rompan su API
Preservación
Las medidas deben tomar los editores para indicar que los datos se han eliminado o archivado.
BP 27: Preservar identificadores
BP 28: Evaluar la cobertura del conjunto de datos
Retroalimentación (‘feedback’)
Ayuda a los editores en la  mejora de la integridad de los datos, además de fomentar la publicación de nuevos datos. Permite a los consumidores de datos tener voz describiendo experiencias de uso.
BP 29: Recopilar comentarios de los consumidores de datos
BP 30: Hacer comentarios disponibles
Enriquecimiento
Procesos que pueden utilizarse para mejorar, perfeccionar los datos brutos o previamente procesados. Esta idea y otros conceptos similares contribuyen a hacer de los datos un activo valioso para casi cualquier negocio o empresa moderna.
BP 31: Enriquecer datos generando nuevos datos
BP 32: Proporcionar presentaciones complementarias
Republicación
Combinar datos existentes con otros conjuntos de datos, crear aplicaciones web o visualizaciones, o reempaquetar los datos en una nueva forma.
BP 33: Proporcionar comentarios al editor original
BP 34: Seguir los términos de la licencia
BP 35: Citar la publicación original
Resumen de las Data Web Best Practices del W3C

Beneficios e incovenientes de las DWBP

Como podemos ver, se trata de unas pautas que precisan de cierto volumen de trabajo y muchas han de ser aplicadas por personas con mucha experiencia. A continuación, resumimos los beneficios y los (posibles) inconvientes de las mismas.

Beneficios:

  1. Interoperabilidad: Las prácticas están diseñadas para asegurar que los datos publicados sean comprensibles y accesibles para una amplia variedad de aplicaciones y sistemas. Esto facilita la integración y el intercambio de datos entre organizaciones y plataformas.
  2. Reutilización: Si se siguen las buenas prácticas, los datos se estructuran coherentemente y se proporcionan metadatos claros. Esto facilita la reutilización de los datos por parte de otros usuarios y organizaciones para crear nuevas aplicaciones, servicios o análisis. Esto fomenta la innovación y la creación de valor.
  3. Calidad de los datos: Las buenas prácticas promueven la calidad de los datos al definir estándares para la representación y la semántica de los datos. Esto reduce los errores y las ambigüedades en los datos publicados, mejorando la confiabilidad y la precisión de la información.
  4. Accesibilidad: Un seguimiento de las buenas prácticas asegura que los datos estén disponibles y sean accesibles para un público amplio, incluyendo personas con discapacidades. Esto promueve la inclusión y garantiza que los datos estén disponibles para todos los usuarios, independientemente de sus necesidades.
  5. Indexación y búsqueda: Los motores de búsqueda comprenden mejor e indexan más eficazmente los datos que siguen las DWBP. Esto mejora su encontrabilidad, aumentando la visibilidad de los datos en los resultados, lo que aumenta su alcance y utilidad.
  6. Transparencia: Publicar datos según estándares abiertos y transparentes, se promueve la transparencia y la rendición de cuentas. Esto es especialmente importante en los datos de las administraciones públicas y también en datos científicos, donde la accesibilidad a los conjuntos de datos es esencial para la toma de decisiones informadas y la supervisión.
  7. Facilita la colaboración: Estas buenas prácticas fomentan la colaboración entre organizaciones y comunidades al proporcionar un marco común para compartir datos. Esto es especialmente útil en proyectos de colaboración donde múltiples partes necesitan compartir y trabajar con datos de manera eficiente.

Posibles inconvenientes

  1. Coste: Implementar las DWBP puede requerir inversiones significativas en recursos humanos y tecnológicos, lo que es un problema para organizaciones con presupuestos limitados.
  2. Complejidad: Algunas de las mejores prácticas del W3C resultan técnicamente complejas de implementar, especialmente para personas u organizaciones sin experiencia previa en estándares web y tecnologías relacionadas.
  3. Cumplimiento: Asegurarse de cumplir con todas las directrices y recomendaciones puede ser un desafío, y el incumplimiento podría afectar la efectividad de la publicación de datos.
  4. Adopción: No todas las organizaciones y comunidades pueden estar dispuestas o capacitadas para adoptar estas prácticas de inmediato. Esto puede limitar la interoperabilidad y la reutilización de datos.
  5. Seguridad y privacidad: La publicación de datos ha de hacerse con precaución para evitar la divulgación de información sensible o privada. El cumplimiento de las normativas de protección de datos es esencial y requiere un esfuerzo adicional.
  6. Actualización continua: Mantener los datos actualizados y en conformidad con las buenas prácticas puede ser un verdadero desafío a largo plazo. Esto va a precisar de dedicación y recursos continuos.
trabajando con buenas prácticas de datos en la web

En resumen, publicar datos siguiendo las Data Web Best Practices del W3C ofrece numerosos beneficios en términos de interoperabilidad, reutilización de datos, calidad de datos, accesibilidad y transparencia. Sin embargo, también conlleva inconvenientes relacionados con el costo, la complejidad, el cumplimiento, la adopción, la seguridad y la privacidad, así como la necesidad de mantener los datos actualizados. Seguir estas mejores prácticas va a depender de los objetivos y recursos de la organización y de su compromiso con la calidad y la accesibilidad de los datos a publicar.

En otras entradas seguiremos hablando de buenas prácticas y conjuntos de datos, algo preciso para llegar a la Ciencia Abierta.

No lo digo yo, lo dice CNEAI (es decir, ANECA)

convocatorio de sexenio de ANECA CNEAI

Los méritos que los investigadores queramos ver reconocidos en la Convocatorio de Sexenios de CNEAI y que hayan sido publicados desde 2011, deben ser depositados en repositorios institucionales o temáticos (si no lo están ya).

Comienzan a notarse algunos cambios impuestos por la LOSU. De confirmarse lo indicado en el borrador de criterios que han sido expuestos a consulta pública, de acuerdo con su artículo, 12 en todos los campos se requerirá el depósito en repositorios institucionales o temáticos de acceso abierto de las publicaciones científicas, conjuntos de datos, códigos y metodologías que se sometan a evaluación, incluyendo un identificador persistente (DOI, Handle, o similar), a fin de alcanzar los objetivos de investigación e innovación responsables y de libre circulación de los conocimientos científicos y las tecnologías que promulgan las políticas europeas de ciencia abierta.

Así, en el caso de las publicaciones seriadas o periódicas, se recuerda a las personas solicitantes que, desde la entrada en vigor de la LCTI, el 2 de diciembre de 2011, el personal de investigación cuya actividad investigadora esté financiada mayoritariamente con fondos públicos hará pública la versión final aceptada para publicación en repositorios institucionales o temáticos de acceso abierto (artículo 37 de la LCTI, en su versión previa a la Ley 17/2022). Este precepto, reforzado ahora en los artículos 12.2 y 12.3 de la LOSU, será por tanto de aplicación para las publicaciones presentadas con fecha 2011 o posterior, excepto en el caso de otros formatos de publicación como las monografías.

Principios FAIR
Principios FAIR

Además, el vigente artículo 37 de la LCTI, tras su modificación por la Ley 17/2022), añade que se deberá depositar una copia de la versión final aceptada para publicación y los datos asociados a las mismas en repositorios institucionales o temáticos de acceso abierto, de forma simultánea a la fecha de publicación, siendo este precepto de aplicación para las publicaciones presentadas con fecha 2022 o posterior. Asimismo, de acuerdo con el citado artículo 37 de la LCTI y el artículo 12.5 de la LOSU, los conjuntos de datos que se sometan a evaluación, con fecha 2022 o posterior, deberán cumplir con los principios FAIR (fáciles de encontrar, accesibles, interoperables y reutilizables) y, siempre que sea posible, se difundirán en acceso abierto en repositorios o infraestructuras de datos de confianza.

programa informático, su código

En el caso de las aplicaciones informáticas, se valorará que sean desarrolladas según los principios de colaboración abierta del software libre y publicadas bajo la Licencia Pública de la Unión Europea o licencias compatibles

La sociedad de la información

Si internet posee actualmente el nivel de desarrollo y popularización tan alto es debido, sin duda alguna, al interés que despertó entre algunos políticos de primer nivel a principios de los años 90. Se ha hablado mucho (y con razón) de la trascendencia de la información y de la necesidad de disponer de una adecuada gestión de la misma como recurso vital para el desenvolvimiento de las organizaciones en el contexto actual: la Sociedad de la Información (entorno que ya aventuraba el sociólogo japonés Yoneji Masuda como: ‘sociedad que crece y se desarrolla alrededor de la información y aporta un florecimiento general de la creatividad intelectual humana, en lugar de un aumento del consumo material» (‘The information society as post-industrial society‘, 1981).

Yoneji Mausda, el inventor de la sociedad de la información como concepto.
Yoneji Masuda

Yoneji Masuda fue un eminente sociólogo japonés, fallecido en 1995, cuya actividad profesional y académica tuvo una importancia decisiva en la definición estratégica de un modelo de sociedad tecnológica para Japón impulsado desde las políticas públicas. Al tiempo, fue uno de los pioneros en la conceptualizar la idea de Sociedad de la Información. Trabajó en diversos programas de los ministerios de Trabajo y Educación japoneses destinados a mejorar y racionalizar las prácticas de producción y formación de la población. Fue director del Instituto para el Desarrollo de los Usos de los Computadores en Japón y fundador y presidente del Instituto para la Informatización de la Sociedad, profesor de la Universidad de Aomuri y director de la Sociedad Japonesa de Creatividad. A partir de un informe del Ministerio de Industria y Comercio (MITI) elabora para el Instituto JACUDI un plan para la Sociedad de la Información como «objetivo nacional para el año 2000«.

Imagen que ilustra cómo la información y la tecnología están integradas en la vida cotidiana de personas de diversas edades y orígenes étnicos. Espero que estas representaciones te ayuden a visualizar el impacto de la tecnología en nuestra sociedad.
Alegoría de la Sociedad de la Información (dibujada por Dalle 3 – chat GPT).

Cuando DARPA deja de ser el principal soporte financiero, el proyecto de internet se desarrolló en esta década al amparo de otras organizaciones financiadoras, destacando entre todas enormemente la NSF (‘National Science Foundation’, agencia del gobierno de EEUU independiente del Departamento de Defensa que impulsa investigación y educación fundamental en todos los campos no médicos). En esa época llegó a establecerse un altísimo vínculo entre los ordenadores de su propia red y los que procedían de la originaria Arpanet. De esta forma surge la declaración RFC 985 (‘Request for comments» o «Requisitos para pasarelas de Internet», serie de notas sobre la red y sobre sistemas que se conectan a internet, que comenzaron a publicarse en 1969) que formalmente aseguraba la interoperabilidad entre las partes de la red y establecía los mecanismos necesarios para asegurar y facilitar la incorporación de nuevas redes.Tanto NSF como otras agencias financiaban los costes de la infraestructura común, incluidos los circuitos transoceánicos destinados a dar acceso a la red a comunidades científicas de otras partes del mundo. Al mismo tiempo surgió el interés de organizaciones privadas de hacer uso de la red, infraestructura que hasta entonces había estado dedicada de forma exclusiva a usos educativos y de investigación. Hacia el año 1988 se comienza a hablar de la necesidad de disponer de una infraestructura nacional de redes que permitierse ese uso conjunto y justo en todo momento.Esta iniciativa llama la atención de Al Gore (senador entonces y después vicepresidente de los EEUU, ahora Premio Nobel de la Paz por su labor en defensa del Medio Ambiente) quien propició la elaboración de la iniciativa NII (siglas en inglés de ‘National Information Infrastructure’)

Foto de Al Gore cuando era vicepresidente USA
Al Gore cuando era vicepresidente USA

NII era una propuesta de red avanzada y perfecta de las redes de comunicaciones públicas y privadas, servicios interactivos, de hardware y software interoperable, computadoras, bases de datos y electrónica de consumo a poner una gran cantidad de información al alcance de los usuarios). En este documento y (casi seguramente) por primera vez hallamos un texto político que habla del valor estratégico de la información en el contexto actual, basando su éxito en el desarrollo de una infraestructura de telecomunicaciones de alcance mundial que promoviera el uso de internet en todos los ámbitos.

Más o menos en la misma época, la Unión Europea redactaba un documento similar en la línea de desarrollar un acceso global a la red y a desarrollar un mercado de servicios y productos alrededor de la misma. Este documento es conocido como el «Informe Bangemann» (1994) donde el excomisario europeo Martin Bangemann afirmaba:

«cuya principal meta ha sido acelerar la instauración de un mercado mundial abierto y «autoregulado». Política que ha contado con la estrecha colaboración de organismos multilaterales como la Organización Mundial del Comercio (OMC), el Fondo Monetario Internacional (FMI) y el Banco Mundial, para que los países débiles abandonen las regulaciones nacionales o medidas proteccionistas que «desalentarían» la inversión; todo ello con el conocido resultado de la escandalosa profundización de las brechas entre ricos y pobres en el mundo».

Informe Bangemann

A pesar de esta visión tan economicista y neoconservadora, el propio autor reconocía que las TIC eran un factor clave en la aceleración de la globalización económica porque su imagen está más asociada a aspectos más «amigables» de este proceso, como internet, telefonía celular e internacional, TV por satélite, etc. Así, la Sociedad de la Información ha asumido la función de «embajadora de buena voluntad» de la globalización, cuyos beneficios» podrían estar al alcance de todos/as, si solamente si pudiera estrechar la brecha digital«.

Para ampliar información sobre este concepto, la Fundación Telefónica edita regularmente textos e informes sobre la Sociedad de la Informaciónse recomienda su lectura.

TCP/IP: la base de la interconexión global

El siguiente paso en la evolución de internet fue la introducción en la red de un protocolo de comunicaciones (conjunto de reglas y procedimientos que regulan las comunicaciones telemáticas) global, robusto y eficaz para hacer posible la sencilla conexión de nuevos hosts y de nuevas redes independientes. En su primera implementación, Arpanet disponía de un protocolo “host a host” de manera que había que modificarlo según las características de los diferentes equipos informáticos que pretendieran incorporarse a ella.

Entonces, los ordenadores eran bastante incompatibles unos con otros e incluso a nivel interno manejaban distintos códigos para la representación de la información (ASCIIEBCDIC, etc.). Por tanto, no se trataba únicamente de conectar equipos, sino de conseguir que pudieran dialogar entre ellos y compartir información de manera comprensible. Este inmenso trabajo, unido al rápido crecimiento de la red, hizo inviable continuar con la conexión «punto a punto» y propició el desarrollo de una nueva familia de protocolos de comunicaciones.

Surge así un nuevo paradigma: la interconexión de sistemas abiertos (‘internetworking‘), de manera que equipos informáticos de distinta naturaleza pudieran compartir datos y aplicaciones dentro de un entorno abierto de comunicaciones.

  • ASCII (‘American Standard Code for Information Interchange’ – Código Estándar Estadounidense para el Intercambio de Información). Código de caracteres basado en el alfabeto latino creado en 1963 por el Comité Estadounidense de Estándares (conocido desde 1969 como Instituto Estadounidense de Estándares Nacionales, o ANSI) como refundición o evolución de los conjuntos de códigos usados entonces en telegrafía. En 1967, se incluyeron las minúsculas, y se redefinieron códigos de control para formar el código US-ASCII.
  • EBCDIC (acrónimo de ‘Extended Binary Coded Decimal Interchange Code’) es un código estándar de 8 bits usado por computadoras mainframe IBM, la empresa que adaptó el EBCDIC del código de tarjetas perforada en los años 1960 y lo promulgó como una táctica customer-control cambiando el código estándar ASCII.
Mapas que muestran el crecimiento de arpanet camino de ser interet
Crecimiento de Arpanet en su primera década

Esta idea nace en contraposición a los sistemas propietarios (o cerrados), típicos de la época cuyo paradigma lo representaba perfectamente la familia de ordenadores IBM S/360, sistemas donde tanto el hardware como el software eran específicos y propiedad del fabricante y existían muchísimos problemas, tanto técnicos como económicos, para hacerlos compatibles con otros equipos (además, como la empresa IBM era el “gigante informático” de la época, con un nivel de dominio superior incluso al que ha llegado a tener Microsoft, el mercado se veía muy condicionado por sus sistemas y tecnologías). 

Vista frontal de un ordenador IBM 360.
Frontal de un ordenador IBM 360.

El IBM 360 fue el primer ordenador en usar microprogramación. Con su introducción en el mercado se creó el concepto de arquitectura de familia que consistió en 6 ordenadores que podían hacer uso del mismo software y los mismos periféricos. El sistema también hizo popular la computación remota, con terminales conectados a un servidor, por medio de una línea telefónica. El IBM 360 es uno de los primeros ordenadores comerciales que usó circuitos integrados, y podía realizar tanto análisis numéricos como administración o procesamiento de archivos. Se considera que la tercera generación de computadoras comenzó con su introducción. Estos modelos comenzaron a ser retirados a partir del año 1977 (aunque no era raro verlos operativos en la década de los 80, y más fuera de Estados Unidos, donde igual acababan de «llegar»).

Robert E. Khan y Vinton Cerf, padres del TCP/IP, hoy en día.
Khan y Cerf hoy en día

La solución a la incompatibilidad entre  equipos conectados a una misma red pasaba por definir una arquitectura de comunicaciones en la que, en forma de niveles o capas, se planteara la resolución de los problemas por medio de unas funciones que desarrollan distintos protocolos de comunicaciones. Bajo esta perspectiva se define un nivel de “interconexión” superior al nivel de “intrared”. Así, los equipos trabajan a nivel local según las características de su sistema operativo y luego operan a nivel de red bajo nuevas reglas, formatos y procedimientos especificados por un protocolo de red con vocación de sistema abierto. En el caso de internet ese protocolo de comunicaciones es el TCP/IP  (‘Transmission Control Protocol/Internet Protocol’), propuesto y desarrollado por dos de los ingenieros más importantes en la historia de la redVinton Cerf y Robert Khan (1974).

TCP/IP es en realidad una familia de protocolos donde TCP es el encargado del control del flujo de datos y de la transmisión segura por la red de los paquetes de datos e IP de la identificación de origen y destino de la transmisión y del adecuado direccionamiento de los paquetes de datos (se corresponden con los niveles 3 y 4 del Modelo OSI de interconexión de sistemas abiertos).DARPA (la siguiente denominación de ARPA, en la que ya se incluçó la palabra «Defense») financió la implementación de este protocolo y, en poco tiempo, existieron versiones independientes que podían interoperar.

Esquema general del protocolo TCP/IP
Esquema general del protocolo TCP/IP

Al principio, todos estos desarrollos se realizaban conectando grandes equipos informáticos (aún no se había popularizado el ordenador personal). Por ello, se desarrollaron versiones más sencillas y compactas que dieron fruto a dos implementaciones: la del PARC de Xerox y otra, la que resultó más trascendente (al menos para el gran público), para el PC de IBM, consiguiéndose que los ordenadores personales también pudieran convertirse en hosts de ARPANET sin necesidad de formar parte de otras redes más grandes: con esto se había dado un paso definitivo hacia la interconexión global.

Ordenador personal de IBM con monitor en color.
Ordenador personal de IBM con monitor en color.

El IBM Personal Computer, fue el ordenador que lo cambió todo. Introducido en agosto de 1981 y creado por el equipo del IBM Entry Systems Division. Junto al «microcomputador» y al «computador casero», el término «computador personal» ya estaba en uso antes. Se empleó en 1972 para caracterizar al Alto de Xerox PARC, pero el éxito de IBM hizo que PC equivaliese al microcomputador compatible con sus productos. El grupo de trabajo reunido para desarrollarlo decidió que el sistema operativo viniera de vendedores externos. Esta ruptura con la tradición de la compañía (siempre habían apostado por desarrollos internos), se llevó a cabo para ahorrar tiempo. Microsoft fue la empresa seleccionada como fabricante del sistema operativo: el PC-DOS (MS-DOS si la máquina no era de IBM como ocurrió al poco tiempo). En pocos años, esta decisión se vio claro que esta decisión fue el mayor error estratégico de la empresa, básicamente porque propició el lanzamiento de otro gigante informático: la empresa de Bill Gates, Steve Pallmer y Paul AllenMicrosoft Curiosamente, en la misma época, incluso un poco antes, Steve Wozniak y Steve Jobs lanzaban el Apple II, la primera serie de microcomputadores de producción masiva a través de otro gigante actual de la informática: Apple Computer, pero este avance quedó un poco «escondido» por la trascendencia del IBM PC. 

'Floppys' (disquetes) con una de las primeras versiones de windows.
‘Floppys’ (disquetes) con una de las versiones de windows para IBM.

Y también pasó algo desapercibido un nuevo término que comenzó a usarse con cierta profusión en aquella época: la palabra ‘internetting‘ («interconexión») que al poco tiempo quedó en «internet» y fue como comenzó a conocerse a la red de redes (en detrimento de Arpanet).

Mapa lógico de Arpanet hacia 1977.
Mapa lógico de Arpanet hacia 1977. Fuente Wikipedia https://es.wikipedia.org/wiki/ARPANET 

Y también pasó algo desapercibido un nuevo término que comenzó a usarse con cierta profusión en aquella época: la palabra ‘internetting‘ («interconexión») que al poco tiempo quedó en «internet» y fue como comenzó a conocerse a la red de redes (en detrimento de Arpanet).

Arpanet: el origen primigenio

Sello italiano con una ilustración de la perrita Laika, elprimer ser vivo de la Tierra que la circunvaló fuera de nuestra atmósfera.
La perrita Laika

Internet es fruto de varios proyectos desarrollados en Estados Unidos de forma paralela, en un principio sin llegar a entrar verdaderamente en contacto entre ellos y, de forma algo más coordinada al final, por la intervención de la agencia ARPA (siglas de Advanced Research Projects Agency , institución directamente vinculada al Departamento de Defensa de los EE.UU. creada en 1958 en respuesta al lanzamiento soviético del satélite Sputnik 2 tripulado por la perrita Laika). 

Por ello, muchos autores la consideran fruto de un proyecto de investigación militar destinado a buscar soluciones de comunicación informática en plena “guerra fría”, contexto donde se vivía permanentemente bajo la amenaza de una guerra nuclear que afortunadamente no llegó a producirse. Lo cierto es que la participación de la administración norteamericana en este desarrollo fue vital, independientemente de los objetivos que la auspiciasen. Contribuyó durante bastante tiempo al desarrollo de la verdadera infraestructura de red, algo que tuvo lugar unos cuantos años más tarde.

Operadores trabajando en un ordenador "mainframe", años 60.
Operadores trabajando en un ordenador «mainframe», años 60.

Dos eran los objetivos que seguían estos grupos de trabajo. Hasta ese momento, los sistemas informáticos funcionaban generalmente en entornos mainframes, en los cuales se centralizaban todos los procesos en el ordenador principal, al mismo tiempo que la gestión y el almacenamiento de los datos. Los terminales que se usaban para interaccionar con ellos no eran ordenadores como los que usamos hoy en día, sino simples consolas de comunicaciones con reducidas capacidades de proceso de datos. Transformar esa idea de sistema centralizado en una metáfora de sistema descentralizado donde todas las estaciones de trabajo pudieran acceder a datos y programas y tuvieran cierta capacidad de proceso (que no fueran unos simples terminales de comunicaciones, sino ordenadores), representaba una nueva idea que vino a plasmarse años después: la de red de ordenadores, independientemente de su alcance.

Este cambio, por sí mismo, es trascendental y constituye la base de los sistemas de comunicaciones actuales. En este nuevo paradigma es donde se encuentran los vínculos con proyectos de investigación militares: el sistema centralizado es más vulnerable que un sistema descentralizado y la defensa estratégica estadounidense necesitaba de otros modos de comunicación.

En realidad, el sistema descentralizado también podía llegar a ser vulnerable (hay que recordar que el mundo vivía entonces en plena psicosis de posible guerra nuclear) por lo que Paul Baran (1964) llegó a proponer una red de conmutación de paquetes para comunicación vocal segura en el ámbito militar en un entorno distribuido. Sobre esa idea, y unos cuantos años más tarde, se concibió Arpanet si bien el proyecto de Baran ya había sido cerrado para entonces por RAND Corporationel laboratorio de ideas de las fuerzas armadas norteamericanas.

Baran, en el año 2010, explicando en RAND su proyecto de red "galáctica".
Baran explicando en RAND su proyecto de red «galáctica».

El segundo objetivo que concentró una gran cantidad de esfuerzos de los investigadores fue cambiar el modo en el que podrían dialogar los ordenadores entre sí (una vez conectados), abandonando la tradicional conmutación de circuitos (que precisaba del establecimiento de la llamada y de la ocupación de todo un circuito de datos para la transmisión) e implementando la conmutación de paquetes de datos (donde no se tiene que esperar al establecimiento de la llamada y cada paquete transmitido procura aprovechar al máximo la capacidad del enlace). Esto permitió a los equipos informáticos compartir datos y aplicaciones en tiempo real. Ambas ideas estaban predestinadas a confluir en la creación de algo importante, como así fue.

Son dos también las fases en las que se podría dividir esta época. De 1961 a 1965 podemos hablar de planteamientos teóricos, siendo el más destacado el de la “Red Galáctica” de Licklider quien presentó su idea de red interconectada globalmente por medio de la cual cada uno pudiera acceder desde cualquier lugar a datos y programas (el concepto era muy parecido a la internet actual, aunque entonces era un sueño). Desde 1965 entramos en la primigenia conexión de dos equipos informáticos que llevó a cabo Roberts para verificar que la conmutación de circuitos no servía para sus propósitos. La segunda etapa coincide con su incorporación a ARPA en 1966 para desarrollar el concepto de red de ordenadores, idea que plasma en un proyecto denominado Arpanet presentado en una conferencia científica donde se percatan de que otros grupos de trabajo habían conseguido avances importantes en este campo.

A partir de ahí se suceden los avances y en septiembre de 1969 se elige al ordenador del equipo de Kleinrock como el primer IMP (“procesador de mensajes de interfaz”) y desde ese equipo, un mes más tarde, se envía el primer mensaje a otro ordenador del SRI (algunos participantes en el proyecto han comentado recientemente que la segunda letra de la palabra “Hi” no llegó nunca a California). Después se añadieron dos nodos en la Universidad de California, Santa Bárbara, y en la Universidad de Utah. De esta manera, acabando 1969, cuatro ordenadores (“hosts” en la jerga de la red; estos ordenadores pueden ser al mismo tiempo clientes y servidores) estaban conectados a la Arpanet inicial.

Esquema técnico de la  primera Arpanet dibujado a mano.
(Fuente: Stanford Research Institute:
Esquema técnico de la primera Arpanet dibujado a mano.
(Fuente: Stanford Research Institute: http://www.sri.com/about/timeline/arpanet.html)

Y así comenzó todo …

Evolución de internet

Hoy en día usamos la expresión “nativos digitales” para referirnos a las personas que han crecido con internet y la usan permanentemente con una habilidad consumada. Estas personas sienten atracción por todo lo relacionado con las TIC por medio de las cuales cubren una buena parte de sus necesidades de entretenimiento, diversión, comunicación, información y, tal vez, de formación.

Trabajo en un centro de compiutación en los años 70.
Ordenadores de los años 70

Para estas personas, conocer que el primer mensaje de correo electrónico constaba de una palabra de dos letras: «Hi» y que fue enviado en octubre del año 1969 por Kleinrock desde el MIT (Instituto Tecnológico de Massachussets) al Network Information Center de la Universidad de Stanford, puede resultar increíble a la par que paradójico, pudiendo llegar a ser para ellos bastante complicado aceptar que internet ya existía cuando sus padres iban al instituto, cuando The Beatles era aún un grupo de música en activo que acababa de editar el disco “Yellow Submarine”, la famosa Guerra de Vietnam estaba en su apogeo, el Muro de Berlín seguía en su sitio (sin graffiti alguno y con muchos guardias), en los Juegos Olímpicos, de forma repetitiva (a veces apabullante) atletas «amateurs» de un país llamado CCCP (siglas en cirílico de Союз Советских Социалистических Республик, la antigua Unión Soviética) ganaban montones de medallas cada cuatro años.

Cubierta del disco Yellow Submarine de The Beatles
Cubierta y parte trasera del LP «Yellows Submarine» de The Beatles

Y sin embargo, parafreseando a Galileo: «todo eso es cierto«.


siguiente

Cumbre Global de Acceso Abierto Diamante 2023

Del 23 al 27 de octubre de 2023, se ha celebrado en la ciudad de Toluca, México, la Cumbre Global de Acceso Abierto Diamante para reflexionar y avanzar en las iniciativas y prácticas de promoción del Acceso Abierto Diamante (AAD). Tras casi una semana de extensas y profundas discusiones, entre otros acuerdos, se ha propuesto  fortalecer la colaboración dentro del sector del AAD a nivel global, destacando el apoyo al Manifiesto sobre la Ciencia como Bien Público Global: Acceso Abierto No Comercial de la IV Conferencia Redalyc de Editores de Revistas.

Cumbre global sobre el Acceso Diamante. Toluca, 2023. Cartel.

El conocimiento es nuestro activo más valioso y un bien público que debe compartirse ampliamente para garantizar la sostenibilidad de nuestro planeta y nuestro futuro. La revolución digital proporciona medios sin precedentes para difundir resultados e ideas científicas por todo el mundo en un instante, en beneficio de todos. El Acceso Abierto Diamante es un modelo de comunicación académica en el que los resultados de la investigación están disponibles abiertamente, sin cobrar tasas ni a los autores ni a los lectores. En este modelo, todos los elementos relacionados con el contenido están dirigidos y son propiedad de las comunidades académicas. 

Modalidades del acceso abierto libre y gratuito.

El apoyo a las revistas, repositorios y plataformas ya existentes y nuevas a nivel mundial puede reducir significativamente las barreras de acceso y difusión de la investigación financiada con fondos públicos. Este movimiento adopta intrínsecamente el concepto de bibliodiversidad. El AAD es, en última instancia, un medio para alcanzar un fin: el acceso equitativo a la publicación y la lectura académicas, centrándose en la calidad del contenido más que en el lugar de publicación. Reconoce y recompensa todas las contribuciones al proceso de publicación. Además, las revistas, repositorios y plataformas representan iniciativas editoriales impulsadas por la comunidad, dirigidas por académicos y propiedad de éstos (como es el caso de los portales de revistas y libros abiertos y del repositorio digital de nuestra Universidad, la de Murcia), que permiten que los resultados de investigación sean, a su vez, propiedad de la comunidad académica y científica.

Frente a otros modelos de negocio editorial que se presentan como «abiertos», el AAD representa un modelo de publicación al servicio de una sociedad diversa y más justa en la que el conocimiento académico de calidad es un bien público.

Uno de los pilares de la Ciencia Abierta ha sido, es y seguirá siendo, la publicación en abierto sin restricciones de los resultados de investigación. Fomentar este derecho, y consolidarlo, es responsabilidad de las administraciones públicas y de todas las personas que formamos parte de la comunidad científica. 

‘Data steward’, ‘Data research analyst’: perfiles profesionales para la gestión de información

Photo of a data steward in an office, a South Asian female in her late 20s, intently reviewing data on a secure computer terminal that displays complex encryption algorithms. The room has high-security features like a secure card access point and surveillance cameras, with posters on the wall emphasizing data privacy and cybersecurity best practices. She is also seen advising a colleague on data protection measures, illustrating the use of secure databases.

Un ‘data steward‘ es un perfil profesional de una organización cuya tarea principal es garantizar la calidad, disponibilidad, seguridad y usabilidad de los conjuntos de datos producidos o gestionados.

Esta función es esencial en el marco de la gestión de datos empresariales (Enterprise Data Management, EDM), especialmente en una era tan digitalizada como la nuestra, en la que los datos se consideran un activo vital para muchas organizaciones. Entre las tareas y responsabilidades específicas de estos profesionales destacan:

  1. Garantizar la calidad de los datos: asegurar que sean precisos, consistentes, completos y estén actualizados. Esto puede implicar la validación de la entrada de datos, la resolución de discrepancias y la implementación de protocolos para eliminar datos duplicados o irrelevantes.
  2. Gobernanza de datos: consiste en implementar y supervisar políticas y procedimientos que garanticen la correcta gestión de los datos. Esto puede incluir estándares de nomenclatura, estructuras de clasificación y reglas de retención de datos.
  3. Seguridad: trabajar junto con el equipo de seguridad para proteger los datos de accesos no autorizados o violaciones de datos. Esto puede incluir la garantía de cumplimiento de las leyes y de las regulaciones de privacidad y protección de datos.
  4. Facilitar el acceso a los datos: el administrador de datos puede trabajar para garantizar que estos sean fácilmente accesibles para los usuarios autorizados dentro de la organización, y que se utilicen de manera efectiva para tomar decisiones empresariales.
  5. Educación y soporte: los administradores de datos pueden ser responsables de formar a otros miembros de la organización en la importancia de la gestión de datos, cómo acceder y usar los datos correctamente, y la importancia de mantener la calidad y seguridad de los datos.
'stewards' es un partido de fúrbol
‘stewards’ en un partido de fútbol

Las personas encargadas de estas tareas suelen tener fuertes habilidades en análisis y gestión de datos, así como un profundo conocimiento de las leyes y regulaciones que se aplican a los datos en su industria. También deben tener habilidades de comunicación sólidas para trabajar con otros departamentos y ayudar a fomentar una cultura de gestión de datos eficaz en toda la organización. Algo más cercanos a las organizaciones de investigación aparece el perfil profesional ‘data research analyst‘ (analista de investigación de datos), función que si bien es diferente de la anterior. también es crucial en el manejo y análisis de información en una organización.

Similitudes y diferencias

Como perfiles diferentes que son, comparten algunas similitudes y presentan diferencias importantes en cuanto a sus responsabilidades y enfoques.

Similitudes:

  1. Uso y manejo de datos: en ambos perfiles profesionales se trabaja intensivamente con datos. Los profesionales deben ser competentes en la interpretación de datos, la identificación de patrones y tendencias y tener una comprensión sólida de las herramientas y sistemas de manejo de datos.
  2. Importancia de la calidad de los datos: los dos roles comprenden la importancia de la calidad de los datos para obtener resultados precisos. Por lo tanto, pueden involucrarse en actividades para garantizar que los datos sean precisos, completos y actualizados.
  3. Colaboración interdepartamental: ambos roles a menudo trabajan en colaboración con otros departamentos para garantizar que los datos se utilicen efectivamente en toda la organización.

Diferencias:

  1. Enfoque principal: un administrador de datos se centra más en la gestión y gobernanza de los datos, asegurando su calidad, disponibilidad, seguridad y cumplimiento con las regulaciones. Un analista de investigación enfoca su interés más hacia el análisis de los datos, utilizando técnicas estadísticas y algoritmos para extraer ‘insights‘ (revelaciones o descubrimientos que proporcionan una nueva comprensión sobre un fenómeno o problema) que pueden ayudar en la toma de decisiones.
  2. Uso de datos: mientras un administrador de datos está más preocupado por cómo se almacenan, se protegen y se accede a los mismos, un analista de investigación está más preocupado por cómo se pueden utilizar para generar valor para la organización.
  3. Responsabilidades: el administrador de datos se involucrado más en profundidad con el establecimiento de políticas y estándares, con asegurar la seguridad de los datos y garantizar el cumplimiento con las regulaciones. Un investigador de datos se centra más en recoger, procesar y realizar un análisis detallado de los datos para apoyar los objetivos de la organización.

Es importante recordar que, aunque estos perfiles profesionales pueden tener responsabilidades diferentes, pueden llegar a trabajar en estrecha colaboración para garantizar que los datos se manejen de manera efectiva y se utilicen para impulsar el éxito de las organizaciones, especialmente aquellas que generen datos que puedan ser base de investigaciones que no todas tienen que ser fruto de trabajo en laboratorio (datos de tráfico, de logística empresarial, de precipitaciones de lluvia, etc.).

Necesidades formativas

La formación necesaria para convertirse en un administrador o en un analista investigador puede variar según las necesidades específicas de cada sector en general y de cada organización en particular. Sin embargo, en términos generales, podemos atrevernos a establecer algunos ámbitos de estudio y un conjunto de habilidades relevantes que estos profesionales van a necesitar:

Administrador de datos:

  1. Educación: está bien contar con un título en Informática, Estadística, Ingeniería de Datos, Ciencia de Datos o de Gestión de la Información. Estos títulos proporcionan una base sólida para este desempeño. En algunos casos puede ser interesante combinar un grado en una de esas disciplinas con un máster más especializado.
  2. Habilidades técnicas: una comprensión sólida del paradigma de las bases de datos relaciones. dominio del lenguaje SQL y de otras herramientas de gestión de datos es esencial. El conocimiento de la arquitectura de datos también puede ser interesante.
  3. Conocimiento de la gobernanza de datos: lo que representa entender las políticas, procedimientos, estándares y regulaciones que se aplican a la gestión de datos.
  4. Conocimiento de la seguridad de datos: esto incluye conocer las mejores prácticas para proteger los datos y mantener su privacidad, así como las leyes y regulaciones de protección de datos aplicables en cada caso.
  5. `Soft skills‘: las habilidades de comunicación son vitales para trabajar con otros departamentos y promover una cultura de gestión de datos efectiva. Las habilidades de gestión de proyectos también pueden ser útiles.

Data Research Analyst:

  1. Educación: un título en Estadística, Matemáticas, Economía, Ciencia de Datos, o un campo relacionado sería lo más apropiado. Combinar grados genéricos con máster especializados también es una opción.
  2. Habilidades técnicas: son esenciales la programación informática en Python o R (por ejemplo), el análisis de datos, y el dominio de técnicas estadísticas. También es útil tener experiencia con las herramientas de visualización de datos y software de análisis de datos (Tableau o SPSS por ejemplo).
  3. Habilidades de investigación: estas incluyen la capacidad de formular preguntas de investigación, diseñar estudios, recoger y analizar datos, y presentar los resultados de una manera clara y comprensible.
  4. Soft skills’: también son importantes las habilidades de comunicación para presentar hallazgos y trabajar con otros equipos. La capacidad de pensar críticamente y resolver problemas también es esencial.

Ambos roles podrían beneficiarse de la formación continua y la certificación en herramientas y técnicas específicas de gestión y análisis de datos.