De Arpanet a Internet

de arpanet a intermet. el gran salto

Si bien conceptualmente se habían producido grandes avances en muy pocos años, el alcance de la red Arpanet seguía estando restringida a un número muy pequeño de usuarios. Esto hizo que durante bastante tiempo se continuara utilizando el protocolo “host a host” para conectar los nodos principales de la red mientras que se continuaban desarrollando implementaciones del protocolo TCP/IP más cercanas a los usuarios finales. En el seno de la comunidad científica (los principales usuarios de la red en ese momento), tuvo especial repercusión la inserción de este protocolo como un elemento más del núcleo del sistema operativo UNIX BSD, utilizado en la mayoría de los equipos informáticos de esas instituciones en ese momento, lo que aumentó el número de usuarios y de equipos conectados.

Este crecimiento, unido al acceso desde ordenadores personales a la red (algo infrecuente entonces pero que también sumaba), hizo necesaria la creación del sistema de nombres de dominio o DNS (‘Domain Name System‘), para la asignación de una dirección de red a los equipos conectados al mismo tiempo que les asignaba una dirección nemotécnica más fácil de recordar que la dirección de red de cada ordenador (la «dirección IP» o “IP-Address”). 

UNIX es un sistema operativo portable, multitarea y multiusuario; desarrollado en el año 969 en los laboratorios Bell de AT&T por Ken ThompsonDennis Ritchie y Douglas McIlroy. La especificación BSD corresponde a la conocida como «distribución de Berkeley«.

Hacia el año 1991, un estudiante finlandés de Informática, Linus Torvaldsdesarrolló un núcleo para ordenadores de arquitectura x86 Intel que emulaba en gran parte a UNIX y lo lanzó en código abierto en 1991 bajo el nombre de  (millones de servidores web emplean ese sistema operativo hoy en día). En 1992, el Proyecto GNU comenzó a utilizar el núcleo de Linux junto a sus programas.

Así, de esta forma, a un equipo con dirección de red 155.54.120.1 se le asignaba un nombre de dominio como, por ejemplo, javima.edu.um.es en el cual se informa de que ese ordenador tiene de nombre “javima”, pertenece a un subdominio educativo “edu” de la organización Universidad de Murcia “um”, registrada en el dominio nacional de España “es”. Este sistema de identificación permite una gestión más directa por parte de los usuarios finales para quienes es más simple recordar los nombres nemotécnicos que un complicado sistema de dígitos numéricos que además, precisan ser revisados de vez en cuando.

Este sistema, que hasta entonces se gestionaba de forma centralizada, pasó a gestión descentralizada de manera que ahora cada entidad responsable de una las redes conectadas debía mantener su propia tabla DNS dentro de una base de datos distribuida y jerárquica.

Estructura general del sistema de nombres de dominio de internet DNS.
Estructura general del sistema de nombres de dominio de internet DNS.

De esta forma, si se solicita acceder a un ordenador cuyo DNS no está en la tabla de nuestro servidor local, el sistema busca en un servidor raíz por si éste tuviera esa dirección en su tabla y así, sucesivamente hasta dar con él (por ejemplo, un usuario de la red de la Universidad de Murcia solicita visualizar la página de la Universidad Politécnica de Valencia como esa dirección de máquina no está en el servidor DNS de la primera universidad habrá de buscarla en el servidor DNS raíz, en este caso el de Red Iris (entidad responsable de la infraestructura de la red del Plan Nacional de I+D+i de España).

El 1 de enero de 1983, sin muchos problemas, se llevó a cabo (a pesar de mensajes algo caóticos que rodeaban a este proceso y que con el tiempo se han repetido varias veces en el mundo de la Informática), la transición hacia el protocolo TCP/IP de los principales servidores de Arpanet. De esta manera, todos los equipos de esta red estaban interconectados. Es entonces cuando entre los especialistas se comienza a hacer uso del vocablo ‘internetworking‘ para hablar de este hecho, palabra que – abreviada a los 8 primeros caracteres – quedará en poco espacio de tiempo en la forma ‘internet‘, que muy pronto comienza a ser usada para denominar a la red.

Es precisamente ese año cuando el Departamento de Defensa de los Estados Unidos decide dividirla, creando MILNET como red propia asociada a DARPA y dejando a Arpanet (ya rebautizada como internet) para su uso por parte de la comunidad científica.

ARPANET: el origen primigenio

Sello conmemorativo del paseo espacial de la perrita "Laika".
Sello conmemorativo del paseo espacial de «Laika».

Internet es fruto de varios proyectos desarrollados en Estados Unidos de forma paralela sin mucho contacto entre llos (al principio), de forma algo más coordinada al final, por la intervención de la agencia ARPA (siglas de Advanced Research Projects Agency), institución directamente vinculada al Departamento de Defensa de los EE.UU, creada en 1958 en respuesta al lanzamiento soviético del satélite Sputnik 2 tripulado por la perrita Laika (aunque la gran divulgadora Nieves Conconstrina contaba el otro día que «laika», en realidad, es el nombre de una raza de perros, no el de la perrita que dio unas cuantas vueltas a nuestro planeta antes que el cosmonauta Yuri Gagarin)

Por ello, muchos autores la consideran fruto de un proyecto de investigación militar destinado a buscar soluciones de comunicación informática en plena “guerra fría”, contexto donde se vivía permanentemente bajo la amenaza de una guerra nuclear que afortunadamente no llegó a producirse. Lo cierto es que la participación de la administración norteamericana en este desarrollo fue vital, independientemente de los objetivos que la auspiciasen. Contribuyó durante bastante tiempo al desarrollo de la verdadera infraestructura de red, algo que tuvo lugar unos cuantos años más tarde.

Dos eran los objetivos perseguidos por estos grupos de trabajo. Hasta entonces, los sistemas informáticos funcionaban generalmente en entornos mainframes, donde se centralizaban los procesos en el ordenador principal, al mismo tiempo que la gestión y el almacenamiento de los datos. Los terminales que se usaban para interaccionar con ellos no eran ordenadores como los que usamos hoy en día, sino simples consolas de comunicaciones con reducidas capacidades de proceso de datos. Transformar esa idea «centralista» en una metáfora de sistema descentralizado donde todas las estaciones de trabajo pudieran acceder a datos y programas y tuvieran cierta capacidad de proceso (que no fueran unos simples terminales de comunicaciones, sino ordenadores), representaba una nueva idea que vino a plasmarse años después: la de red de ordenadores, independientemente de su alcance.

Este cambio, por sí mismo, es trascendental y constituye la base de los sistemas de comunicaciones actuales. En este nuevo paradigma es donde se encuentran los vínculos con proyectos de investigación militares: el sistema centralizado es más vulnerable que un sistema descentralizado y la defensa estratégica estadounidense necesitaba de otros modos de comunicación. En realidad, el sistema descentralizado también podía llegar a ser vulnerable (hay que recordar que el mundo vivía entonces en plena psicosis de posible guerra nuclear) por lo que Paul Baran (1964) llegó a proponer una red de conmutación de paquetes para comunicación vocal segura en el ámbito militar en un entorno distribuido. Sobre esa idea, y unos cuantos años más tarde, se concibió Arpanet si bien el proyecto de Baran ya había sido cerrado para entonces por RAND Corporationel laboratorio de ideas de las fuerzas armadas norteamericanas.

Baran, en 2010, explicando en RAND su proyecto de red.
Baran, en 2010, explicando en RAND
su idea de red.

El segundo objetivo que concentró una gran cantidad de esfuerzos fue cambiar el modo en el que podrían dialogar los ordenadores entre sí (una vez conectados), abandonando la tradicional conmutación de circuitos (que precisaba del establecimiento de la llamada y de la ocupación de todo un circuito de datos para la transmisión) e implementando la conmutación de paquetes de datos (donde no se tiene que esperar al establecimiento de la llamada y cada paquete transmitido procura aprovechar al máximo la capacidad del enlace). Esto permitió a los equipos informáticos compartir datos y aplicaciones en tiempo real. Ambas ideas estaban predestinadas a confluir en la creación de algo importante, como así fue.

También fueron dos las fases en las que se podría dividir esta época. De 1961 a 1965 se puede hablar de planteamientos teóricos, siendo el más destacado el de la “Red Galáctica” de Licklider quien presentó su idea de red interconectada globalmente por medio de la cual cada uno pudiera acceder desde cualquier lugar a datos y programas (el concepto era muy parecido a la internet actual, aunque entonces era un sueño). En 1965 entramos en la primigenia conexión de dos equipos informáticos que llevó a cabo Roberts para verificar que la conmutación de circuitos no servía para sus propósitos. La segunda etapa coincide con su incorporación a ARPA en 1966 para desarrollar el concepto de red de ordenadores, idea que plasma en un proyecto denominado Arpanet presentado en una conferencia científica donde se percatan de que otros grupos de trabajo habían conseguido avances importantes en este campo.

A partir de ahí se suceden los avances y en septiembre de 1969 se elige al ordenador del equipo de Kleinrock como el primer IMP (“procesador de mensajes de interfaz”) y desde ese equipo, un mes más tarde, se envía el primer mensaje a otro ordenador del SRI (algunos participantes en el proyecto han comentado recientemente que la segunda letra de la palabra “Hi” no llegó nunca a California). Después se añadieron dos nodos en la Universidad de California, Santa Bárbara, y en la Universidad de Utah. Así, a finales de 1969, cuatro ordenadores (“hosts” en la jerga de la red) estaban conectados a la Arpanet inicial, la primigenia internet.

Esquema técnico de la primera Arpanet dibujado a mano. http://www.sri.com/about/timeline/arpanet.html)

«Internet está en plena pubertad. Es un adolescente loco, misterioso, rebelde, impredecible. La pregunta es: ¿se convertirá en un adulto responsable? Ojalá. Pero no todos los adolescentes lo hacen».

Kleinrock, hace unos pocos años.

Fuente: «Una breve historia de internet» escrita por quienes allí estuvieron: Barry M. Leiner, Vinton G. Cerf, David D. Clark, Robert E. Kahn, Leonard Kleinrock, Daniel C. Lynch, Jon Postel, Larry G. Roberts, Stephen Wolff.

El contenido de calidad para el algoritmo de Google

El contenido de calidad es esencial para Google

Contenido de calidad para Google es el que cumple con los principios de utilidad, relevancia y confiabilidad, mientras se optimiza para las necesidades de los usuarios. Este concepto ha evolucionado con el tiempo e incluye ahora una atención especial al alineamiento con los principios E-E-A-T.

El contenido de calidad es el principal factor que considera Google para su ranking.

(a) Los principios E-E-A-T: Experiencia, Conocimientos, Autoridad y Confiabilidad

  1. Experiencia (‘experience’): es bueno que el creador del contenido posea experiencia práctica y directa en el tema tratado. Esto incluye anécdotas, casos de uso y resultados obtenidos de primera mano, relevantes sobre todo en industrias como portales de viajes o productos especializados.
  2. Conocimientos (‘expertise’): relacionado con el anterior principio, es conveniente que el contenido sea escrito por alguien con un conocimiento técnico o especializado en el tema (en medicina un médico o un investigador biosanitario, en derecho un magistrado o un fiscal, etc.). También se puede traducir como «pericia».
  3. Autoridad (‘authoritativeness’): principio vinculado con la reputación del creador y de la fuente. Incluye menciones por otros expertos y enlaces entrantes de sitios confiables. Google valora el contenido que sea verdadera referencia dentro de un sector. Google evalúa la autoridad analizando factores como la calidad de las fuentes que enlazan al contenido y las menciones del autor o sitio web en medios confiables. Un sitio web o creador de contenido que es considerado la fuente definitiva en un tema tiene una autoridad muy alta.
  4. Confiabilidad (‘trustworthiness’): principio relacionado con la precisión y seguridad del contenido. Aquello sitios web con errores, datos imprecisos o que no usen el protocolo seguro https, afectan negativamente a la percepción del contenido.  La confianza se evalúa con base en la precisión, honestidad, seguridad y fiabilidad del contenido del sitio web en general. Factores como la transparencia en la información de contacto, la explicación de políticas claras, la seguridad del sitio web y la concreción y precisión en la información proporcionada (‘clickbaits‘ fuera por favor), contribuyen a la confiabilidad.
Explicación de los principios E-E-A-T. Fuente: SEMrush

Factores y Criterios de Evaluación del Contenido de Calidad

En la siguiente tabla recogemos los factores clave que Google considera para valorar la calidad del contenido de un sitio web en la primera columna. En la segunda presentamos el enfoque distintivo del análisis de cada autor como factor particular o estrategia central resaltada como clave para mejorar la calidad del contenido.

AutorPrincipales Factores de CalidadEnfoque Distintivo
Iqra JamalNarrativa atractiva, datos originales y actualización constante.Uso de ‘storytelling‘ para conectar emocionalmente con el usuario.
Search Engine JournalIntención de búsqueda, estructura organizada y contenido optimizado técnicamente.Adaptación a diferentes etapas del viaje del usuario.
SlickplanUso de multimedia, organización lógica y profundización temática.Diseño visual como una herramienta de engagement clave.
Stellar ContentE-E-A-T, claridad de lenguaje y relevancia cultural.Localización cultural del contenido para mayor resonancia.
ContentGoAutoridad, confiabilidad y optimización semántica.Enfoque en el uso de datos verificados por expertos reconocidos.
Ethan LazukEnfoque «people-first», interactividad y utilidad directa.Diseño enfocado en resolver necesidades reales de los usuarios.
Chevron EditingConcisión, estructura lógica y palabras clave estratégicas.Simplificación de mensajes sin perder el impacto técnico.
Kopp Online MarketingMétricas de experiencia del usuario (tiempo en página, interacción).Uso de datos analíticos para afinar contenido a las necesidades del público.
Marketing InsiderCalidad editorial, investigaciones únicas y formato amigable para compartir.Creación de contenido alineado a las demandas del marketing digital actual.
Akhtar & ResearchGateOptimizaciones en metadatos, ‘backlinks‘ y experiencia de usuario.Conexión entre calidad del contenido y SEO técnico estratégico.
Cameron-KitchenTono conversacional, ‘engagement‘ y adaptabilidad técnica.Optimización de contenido mediante pruebas continuas de audiencia.

Fuentes empleadas para el resumen.

Iqra Jamal. How I Create Top-Quality Content and Rank High on Google: A Step-by-Step Guidehttps://www.linkedin.com/pulse/how-i-create-top-quality-content-rank-high-google-guide-iqra-jamal-ffzuf/
Search Engine Journal. How To Create High-Quality Content. https://www.searchenginejournal.com/how-to-create-high-quality-content/254511/
Slickplan. Create quality content for SEO success: how-to guide. https://slickplan.com/blog/quality-content-for-seo
Stellar. How to Create a SEO Content Strategy for 2024. https://www.stellarcontent.com/blog/content-marketing/how-to-create-a-seo-content-strategy/
ContentGo. The Role of Content in Google’s E-E-A-T snd How to Create High-Quality Content. https://blog.contentgo.com/the-role-of-content-in-googles-e-e-a-t-and-how-to-create-high-quality-content/
Ethan Lazuk. People Tell Me What to Say: Creating Helpful, Reliable, People-First Content for Google Search in 2024 & Beyond (An SEO Deep Dive). https://ethanlazuk.com/blog/people-first-content/
Module 4 – Content Optimisation The Cornerstone of SEO – https://cromsalvatera.com.au/content-optimisation-seo/

Chevron Editing. High-Quality Content: What is it? https://chevronediting.com.au/high-quality-content/
Helpful content: What Google really evaluates? – https://www.kopp-online-marketing.com/google-helpful-content
Stellar. Boost SERP rankings with user-first content for SEO. https://www.stellarcontent.com/blog/seo/boost-serp-rankings-with-user-first-content-for-seo/
Thrive. Google’s Helpful Content Now Included in Core Ranking. https://thriveagency.com/news/quality-ranking-googles-helpful-content-now-included-in-core-ranking-system/
Akstar Bristi. Mastering SEO — A Step by Step Guide to Increasing Google Rankings and Get More Website Visitors, https://www.linkedin.com/pulse/mastering-seo-step-guide-increasing-google-rankings-get-aktar-bristy-bb6wc/
Moss 51. How I should write web pages. https://moss51.com/how-to-write-website-content/
Marketing Insider Group. Google Makes It Official: Content Marketing Is Now the #1 Ranking Factor – https://marketinginsidergroup.com/content-marketing/google-makes-it-official-content-marketing-is-now-the-1-ranking-factor/
Saud Akhtar & Jamia Milia Islamia. SEO Secrets Revealed: Techniques for Higher Rankings. https://www.researchgate.net/profile/Saud-Akhtar/publication/377981890_SEO_Secrets_Revealed_Techniques_for_Higher_Rankings/links/65c1d1ec34bbff5ba7ef9a66/SEO-Secrets-Revealed-Techniques-for-Higher-Rankings.pdf
Tim Cameron-Kitchen. How To Get To The Top of Google. https://exposureninja.com/wp-content/uploads/2016/10/How-To-Get-To-The-Top-of-Google-2022.pdf

Factores «clave» para el ranking de Google

La web Backlinko dedica una página informativa sobre los factores de alineamiento de Google ofreciendo una guía exhaustiva de más de 200 elementos que influyen en el algoritmo. Su propósito es «educar» a las personas que administran sitios web y a profesionales del SEO sobre cómo mejorar la posición de sus páginas en los resultados de búsqueda. En este análisis dividen los factores en categorías clave, como la calidad del contenido, ‘backlinks‘ y la experiencia del usuario (UX) y aspectos técnicos tales como la velocidad de carga y la optimización para el escosistema móvil. También se analizan señales de comportamiento del usuario y actualizaciones constantes del algoritmo.

Imagen inspirada en el ranking de Google creada con Delle - 3, la IA para gráficos de chatgpt
El ranking de Google dibunado por Delle – 3

En la siguiente tabla recogemos una síntesis de los once (como si fuera una alineación de un equipo de fútbol) factores que más se destacan en este artículo.

FactorDescripciónEjemplo
Calidad del ContenidoGoogle prioriza contenido de alta calidad, informativo y relevante.Un artículo detallado y bien investigado sobre un tema específico que responde completamente a las preguntas de los usuarios.
Backlinks‘ (enlaces entrantes)Los enlaces de otros sitios web actúan como votos de confianza. Cuantos más enlaces de entrada de alta calidad tenga tu sitio, mejor se posicionará.Un sitio web que recibe enlaces de universidades y sitios de noticias reconocidos.
SEO TécnicoAspectos técnicos del sitio web, como la velocidad de carga, la compatibilidad con dispositivos móviles y la capacidad de rastreo.Un sitio web optimizado para cargar rápidamente en dispositivos móviles y que utiliza un archivo robots.txt adecuado para permitir el rastreo de los motores de búsqueda.
Optimización de palabras claveUso de palabras clave relevantes en el contenido del sitio web para ayudar a los motores de búsqueda a entender de qué trata el sitio.Un blog de recetas que utiliza palabras clave como “recetas saludables” y “comida vegana” en sus artículos.
Experiencia del usuario (UX)Medida de lo fácil y agradable que es para los usuarios utilizar el sitio web. Google prefiere sitios que proporcionan una buena experiencia de usuario.Un sitio web con una navegación intuitiva, tiempos de carga rápidos y diseño responsive.
Marcado de esquema (Schema Markup)Datos estructurados que se pueden añadir al sitio web para ayudar a los motores de búsqueda a entender mejor el contenido.Un sitio de comercio electrónico que utiliza marcado de esquema para mostrar reseñas de productos y precios directamente en los resultados de búsqueda.
Señales socialesInteracciones sociales como “me gusta”, “compartir” y otros. Aunque no son un factor directo, pueden influir en la visibilidad del contenido.Un artículo que recibe muchas comparticiones en redes sociales como Facebook y Twitter.
Señales de marcaLa percepción general de la marca en línea. Google favorece marcas bien conocidas y respetadas.Un sitio web de una marca reconocida que recibe menciones en medios de comunicación y tiene una fuerte presencia en redes sociales.
Edad del dominioLos dominios más antiguos pueden tener una ligera ventaja, ya que se consideran más confiables.Un sitio web que ha estado activo durante más de 10 años y ha mantenido un historial constante de contenido de calidad.
Velocidad de carga del sitioLa rapidez con la que se carga un sitio web es un factor importante, especialmente en dispositivos móviles.Un sitio web que utiliza técnicas de optimización como la compresión de imágenes y el almacenamiento en caché para mejorar los tiempos de carga.
Intención de búsquedaLa capacidad del contenido para satisfacer la intención del usuario en el momento de la búsqueda.Un artículo que proporciona una guía completa y detallada sobre “cómo plantar un jardín de hierbas” cuando los usuarios buscan información sobre jardinería.
RTabla resumen de los 11 factores más importantes en el ranking de Google. Fuente: Backlinko

Como pasa con las selecciones de fútbol donde cualquier aficionado o aficionada tiene su propio «once«, si buscamos en otras páginas web es más que seguro que algunas de estas características no sean consideradas por sus autores e incluyan otras que hemos dejado fuera. Es ley de vida.

Evan Bailyn, CEO de la empresa de SEOFirst Page Sage‘, escribió en diciembre de 2021 un artículo en Linkedln una nota informatica titulada ‘The 2022 Google Algorithm Ranking Factors‘ donde presentaba los factores ordenados a partir de su «peso» en la fórmula final del algoritmo de ranking, que podemos visualizar en el siguiente diagrama circular.

peso de los distintos factores del algoritmo de ranking de Google en 2022

Como se observa, un 26% de la fórmula final se debe al contenido de calidad (de alto nivel se menciona), un 17% se le asigna a las metaetiquetas del título de la página, los enlaces de entrada (‘backlinks‘) tienen un peso del 15% (con Pagerank era el factor clave, desde 2018 ha descencido mucho en importancia). También tiene importancia la presencia de esa página entre lo que se considera «nichos de expertos» (13%) y la involucración de los usuarios (fidelidad) que alcanza el 11%. Entre estos cinco factores suman un poco más del 75% del peso de la fóruma final según Evan Bailyn. Aquí va la tabla completa.

factores principales del algoritmo de Google según firstpagesage.com

¿Qué es «contenido de calidad» para Google?

Son varios aspectos a considerar:

Se trata de contenido original, único y valioso. Google da preferencia al contenido nuevo y único. Es conveniente crear entradas que respondan a las preguntas de sus lectores, que aporten valor y que sean originales. Como regla general, Google premia el contenido de liderazgo intelectual producido al menos dos veces por semana. Si tu contenido es similar al de otras páginas web, causará un impacto negativo en tu SEO. Para empezar, el motor podría no indexar y clasificar la página y ralentizará la tasa de rastreo de su sitio web (la web se hará “obsoleta”). Por lo tanto, cuando creemos contenido, ha de ser diferente y mejor que el de otros sitios web clasificados para el término de búsqueda. Ya lo avisaba Bill Gates en 1996 en su frase «Content is king» (que viene a ser I Ley Universal de la Gestión de Contenidos en la Web para mis alumnos).

Hay que mantener el contenido fresco y actualizado. Si las publicaciones se actualizan y se añade habitualmente información  nueva, se envía una señal positiva al motor de búsqueda. La frescura del contenido juega un papel importante si en nuestras entradas se tratan noticias o tendencias. En estos casos, Google prefiere las páginas que proporcionan la información más reciente. Por ejemplo, si escribimos sobre la crisis sanitaria mundial, nuestro contenido debe contener noticias e investigaciones recientes. Una forma sencilla de encontrar la información más reciente para mantener tu contenido fresco es utilizar Google Trends.

La longitud del contenido es otro factor clave. Una de las preguntas recurrentes en SEO ha sido siempre si la extensión del contenido forma parte de los factores de clasificación de Google. La respuesta es “”. Según diferentes estudios, los posts con 1.890 palabras de media se sitúan en la primera página de resultados. Dicho esto, no hay una regla rígida por la que debamos ceñirnos a un límite de palabras. Lo mejor es crear contenido con profundidad y que cubra un tema con gran detalle. Google prefiere las páginas que responden completamente a la pregunta del usuario y proporcionan soluciones detalladas.

longitud de entradas en la web y posición en google
Relación entre la longitud de una entrada web y la posición en la respuesta de Google.

La estructura del contenido y su organización también influye en la valoración de su calidad. Las entradas deben estar bien organizadas y estructuradas. Esto facilita a los visitantes la lectura y la búsqueda de soluciones a sus problemas. Para mejorar la estructura y la organización de estos artículos, se pueden utilizar distintos niveles de encabezado (H2, H3, H4, etc.) para agrupar el contenido. Mantener debidamente actualizado el fichero sitemap.xml ayuda también. También podemos utilizar etiquetas HTML para viñetas  y listas numéricas para organizar aún más el contenido. Esto es beneficioso ya que Google recoge estas listas y las muestra como fragmentos destacados para diferentes palabras clave.

Declaración de Barcelona sobre información de investigación en abierto

Siguiendo la estela de la Universidad de la Sorbona, cincuenta instituciones de investigación y de educación superior han suscrito declaración contra el uso de las bases de datos científicas comerciales (Clarivate y Elsevier).

Estas plataformas (es el nombre que reciben estos productos comerciales que integran información de múltiples bases de datos, especialmente Clarivate), suelen recibir cantidades desmesuradas de dinero público que podría derivarse a otros usos y actividades de investigación. La prestigiosa universidad francesa anunció la interrupción de su suscripción a la base de datos Web of Science y a las herramientas bibliométricas vinculadas en 2024, además de reorientar sus esfuerzos hacia la exploración de herramientas abiertas, libres y participativas, en consonancia con la política global de apertura de esta universidad que trabaja para consolidar una alternativa sostenible e internacional, en particular mediante el uso de OpenAlex. Esta declaración, presentada en abril de 2024 en Barcelona es otro paso más en esa línea.

Collage de carátulas de revistas científicas.
Carátulas de revistas científicas

El preámbulo de la declaración recuerda que la gestión de la investigación precisa de grandes cantidades de información sobre los diferentes actores y sus actividades, los insumos, los resultados obtenidos y los datos sobre uso, valoración e impacto social de la actividad investigadora. En el momento presente, esa información resulta fundamental y decisiva en la distribución de recursos y en la evaluación de investigadores e instituciones. Las organizaciones financiadoras (las administraciones públicas en su mayor parte) utilizan esta información para establecer prioridades estratégicas y se produce la paradoja, desagradable y desconcertante, de que gran parte de esta información «está encerrada» en infraestructuras privadas porque la gestionan empresas, como las citadas anteriormente, líderes del mercado y que rinden cuentas a sus accionistas, no a la comunidad investigadora y mucho menos a las administraciones públicas representantes de la sociedad que sustenta la actividad investigadora con sus impuestos.

Existe el problema añadido de que tanto la comunidad investigadora como las instituciones financiadores se han vuelto muy dependientes de estas empresas. Hasta hace poco se ha venido evaluando la carrera investigadora (y también de la carrera docente) a partir de evidencias no transparentes. De hecho, se ha llegado al sinsentido (ahora en corrección afortunadamente desde la promulgación de la ENCA) de supervisar e incentivar la Ciencia Abierta utilizando datos cerrados. Igualmente, se han tomado durante mucho tiempo decisiones de forma rutinaria basadas en información sesgada en contra de idiomas y/o regiones geográficas menos privilegiadas (como es el caso del español y de todos los países del mundo donde se habla y se escribe en una de las lenguas más expandidas).

Para avanzar en la evaluación responsable de la investigación y la Ciencia Abierta, y promover la toma de decisiones imparcial y de calidad, es urgente que la información sobre investigación esté disponible de manera abierta a través de infraestructuras académicas también abiertas. La apertura de la información sobre investigación debe ser la nueva norma.

En la Declaración de Barcelona (cuyo texto completo puede leerse haciendo clic sobre el enlace anterior), las instituciones firmantes manifiestan que el panorama de la información sobre investigación requiere un cambio fundamental y se proponen a liderar su reforma y transformar las prácticas y procedimientos. Con este fin, se comprometen a:

  1. Hacer que la apertura de la información de investigación sea la norma.
  2. Trabajar con servicios y sistemas que apoyen y permitan la apertura de la información de investigación.
  3. Apoyar la sostenibilidad de las infraestructuras para la apertura de la información de investigación.
  4. Trabajar juntos para llevar a cabo la transición de una información de investigación cerrada a una información de investigación abierta.

infraestructuras abiertas de acceso a la información Hacer que la apertura de la información sea la norma para la información sobre investigación que utilizamos y producimpos.

Este principio debe regir tanto para la la evaluación de los investigadores e instituciones como para la información de investigación que produzcamos, por ejemplo la información sobre nuestras actividades, los resultados (por supuesto), con excepción de la información cuya apertura sería inapropiada: «tan abierta como sea posible y tan cerrada como sea necesario«.

infraestructuras abiertas de acceso a la información Se trabajará con servicios y sistemas que apoyen y hagan posible la información abierta sobre investigación.

En cuanto a los servicios y plataformas de publicación, se requiere que la información
de investigación generada en el proceso de publicación (metadatos de
artículos de investigación y otros resultados, además de los datos manejados en la información) esté disponible de forma abierta a través de infraestructuras académicas abiertas.

infraestructuras abiertas de acceso a la información Hay que apoyar la sostenibilidad de las infraestructuras para la información abierta sobre investigación.

Las entidades firmantes asumen la responsabilidad de apoyar infraestructuras para la información abierta sobre investigación, participando en la creación de comunidades y en la gobernanza de las mismas y aportando contribuciones justas y equitativas a la estabilidad financiera y al desarrollo de estas infraestructuras. Es preciso que estas infraestructuras apliquen buenas prácticas de gobernanza comunitaria y sostenibilidad. (por ejemplo, los Principios de la Infraestructura Académica Abierta).

infraestructuras abiertas de acceso a la información Se apoyarán actuaciones colectivas para acelerar la transición hacia la apertura de la información sobre investigación

Las entidades firmantes reconocen la importancia de compartir experiencias y coordinar acciones para
promover en todo el sistema la transición de cerrada a abierta de la información de investigación. Para poder facilitarlo, se apoya la creación de una coalición para la información abierta» sobre investigación y el refuerzo de la colaboración con otras iniciativas y organizaciones afines.

.

Ciencia Abierta: una oportunidad para las bibliotecas universitarias

bibliotecas de ciencia abierta

La Ciencia Abierta es una oportunidad excepcional para que las bibliotecas universitarias recuperen una posición de prestigio dentro de las comunidades académicas.

Solo el tremendo apoyo que han dado la mayoría de estas instituciones a su comunidad investigadora en la pasada convocatoria de sexenios de investigación en la que ANECA ha comenzado a introducir el cumplimiento de principios de la Ciencia Abierta entre los requisitos y los méritos, sería suficiente justificación de esta afirmación, pero vamos a justificarla un poco. Veamos algunas de las razones que sustentan esta afirmación:

1. Relevancia renovada: La Ciencia Abierta, con su énfasis en el acceso abierto a la información y la transparencia en los procesos de investigación, coloca a las bibliotecas en el centro del ecosistema científico. Las bibliotecas pasan a ser actores clave para la gestión, difusión y preservación de datos, publicaciones y otros recursos científicos: Esto les ha de permtir recuperar un rol protagónico en la producción y el intercambio de conocimiento.

2. Nuevos servicios y habilidades: La Ciencia Abierta demanda innovar parte de los servicios que ofrecen estas bibliotecas. Estas deben estar situadas a la vanguardia en la gestión de datos de investigación, la creación de repositorios digitales, la formación en ciencia abierta y el asesoramiento a investigadores en temas como la publicación en acceso abierto y la gestión de las licencias y los derechos de autor. Al ofrecer estos servicios especializados, las bibliotecas se volverán a convertir en socios indispensables para la comunidad científica.

3. Mayor visibilidad e impacto: La participación activa en la Ciencia Abierta permite a las bibliotecas aumentar su visibilidad e impacto dentro de la universidad y la sociedad en general. Al facilitar el acceso al conocimiento científico y promover la transparencia en la investigación, las bibliotecas contribuyen a democratizar la ciencia y a mejorar la calidad de la investigación. Pero para esto se debe permanecer activo todo el año, no solo cuando llega la convocatoria de sexenios.

4. Colaboración y liderazgo: La Ciencia Abierta abre nuevas oportunidades para la colaboración entre las bibliotecas, los investigadores y otras instituciones. Las bibliotecas pueden liderar iniciativas en este campo a nivel institucional, regional e internacional, fortaleciendo su posición como agentes de cambio y promoviendo la innovación en el ámbito cientifico. Las bibliotecas pueden liderar la implementación de políticas de acceso abierto en todas sus instituciones, por ejemplo. Dentro de este punto podemos incluir el desarrollo del sistema de indentificación ORCID, liderado por las universidades de Oxford y Cambridge (obviamente hacen mucho más que competir en una regata) y que asigna identificadores únicos a los investigadores, facilitando la atribución y la interoperabilidad de la investigación a nivel mundial.

En resumen, la Ciencia Abierta es una oportunidad única para que las bibliotecas universitarias recuperen un rol protagónico en el ecosistema científico. Al adaptarse a las nuevas necesidades de la investigación y ofrecer servicios especializados, las bibliotecas pueden aumentar su visibilidad, impacto y relevancia dentro de las comunidades académicas. Este nuevo paradigma es una aliada estratégica para que las bibliotecas universitarias consoliden su papel como centros de conocimiento y motores de innovación en el ámbito científico. Y para que sean más valoradas por sus comunidades investigadoras.

Aumentan los datasets de investigación publicados por las universidades públicas

Recientemente apareció en la revista Scire el artículo «Implementación de los repositorios de datos de investigación en las universidades públicas españolas: estado de la cuestión» que escribimos en febrero de 2023 Ana Alice Baptista, Rosana Lopez y Ángel M. Delgado-Vázquez. En este trabajo revisamos el total de conjuntos de datos (‘datasets’) de investigación publicados en los repositorios de las universidades públicas españolas hasta 2022. Ha pasado casi un año, estamos a mitad de enero de 2024, buen momento para actualizar los resultados obtenidos y certificar tendencias.

Durante el pasado año se publicaron 961 datasets en los repositorios de las universidades públicas españolas. Los datos, a excepción de la Universidade da Coruña y la Universidad de Las Palmas de Gran Canaria que remiten a su comunidad investigadora al repositorio comunitario ZENODO, los extraemos de los sitios web de cada universidad. También se han actualizado datos de alguna universidad de la que no pudimos extraer información hace un año y hemos levantado «el veto» que aplicábamos a una por usar software propietario en lugar de software libre para gestionar el repositorio. También se han actualizado los datos de los años anteriores porque, en algunos casos, se han detectado errores en los subtotales o pequeñas diferencias (como si se hubiera dado de baja algún ‘dataset’, algo que no debería de ocurrir habitualmente).

total de datasets de investigaciones publicados en los repositorios de las universidades españolas actualizado a 2023

Los resultados son buenos, está claro que que se van notando los resultados del trabajo de REBIUN de y las directrices de la división de #CienciaAbierta de Fundación Española para la Ciencia y la Tecnología, FECYT en el aumento de la presencia de los conjuntos de datos de investigación en estos repositorios. Las bibliotecas universitarias públicas apoyan claramente el movimiento hacia la #CienciaAbierta: en un año en el que se han publicado más ‘datasets’ que el total de la suma de los dos inmediatamente anteriores, que ya marcaban máximos en la serie.

Casi el 75% de los nuevos ‘datasets’ han sido publicados por los consorcios autonómicos. Ese apoyo de la administración regional es muy adecuado y beneficioso y deberían tomar nota todas aquellas comunidades que tienen varias universidades públicas en sus territorios (Andalucía, Aragón, Valencia, etc.). Esta desproporción aún no se nota tanto en el total de ‘datasets’ publicados: 1693 por los consorcios frente a 1126 por las universidades que trabajan de forma indvidual.

Para tener una idea más global del nivel de publicación de #datasets de datos de investigación por parte de las universidades públicas españolas, habría que ampliar estos datos con el total de conjuntos publicados en Zenodo. En unos días tendremos más datos.

Relación entre las buenas prácticas DWBP y los principios FAIR

Cláudia Sofia Teixeira dos Santos presentó en enero de 2023 en la Universidade do Minho su tesis de máster ‘OGD Lens: avaliação  automática da qualidade dos dados do European Data Portal’  sobre la evaluación de la calidad de los conjuntos de datos publicados en el portal de datos abiertos de la Unión Europea (sitio web aloja más de millón y medio de conjuntos de datos y 179 catálogos de datos puestos a disposición de la ciudadanía) para proporcionar una guía de mejora de su calidad. Para poder medir esa calidad desarrolló una metodología basada een los siguientes criterios:

criterios de calidad del portal de datos abiertos de la UE
  1. Facilidad de uso con la que los usuarios pueden acceder a los datos y utilizarlos para fines de investigación.
  2. La disponibilidad de los datos en un formato estándar y abierto y la accesibilidad de los conjuntos de datos a través de un repositorio en línea o una página web.
  3. Calidad técnica: la precisión, integridad y consistencia de los datos.
  4. Documentación: la información proporcionada junto con los datos, como la descripción de la fuente de los datos, las limitaciones de uso y la frecuencia de actualización.
  5. Legalidad: la conformidad de los datos con las leyes de privacidad y derechos de autor.

Los metadatos empleados para describir los conjuntos de datos representan una valiosa fuente de información para satisfacer estos niveles de calidad. Por ello, la investigadora llevó a cabo un estudio empírico desarrollando un analizador semiautomático de evaluación de la información aportada por los metadatos en una serie de conjuntos de datos publicados. Los resultados obtenidos mostraron que la calidad de esos conjuntos varía significativamente. En líneas generales tienen una buena facilidad de uso, pero la calidad técnica, la documentación y la legalidad son aspectos que presentan deficiencias significativas.

En cuanto a la facilidad de uso, se dispone de buena información para el acceso a los datos y cómo reutilizarlos. En cambio, en cuanto a la calidad técnica, en muchos conjuntos de datos se carece de información sobre la fuente, las limitaciones de uso y la frecuencia de actualización. En lo relativo a la legalidad, muchos conjuntos no proporcionan información sobre los derechos de autor y la privacidad, lo que puede derivar en un uso inadecuado de los datos.

En este estudio se analizó la calidad de los catálogos y de los conjuntos de datos. Un catálogo de datos es un repositorio que contiene información detallada de los conjuntos de datos disponibles en una organización. Ofrece metadatos sobre los conjuntos de datos: descripción, origen, estructura, formatos, licencias, fechas de actualización. etc. También puede proporcionar información sobre cómo acceder y utilizarlos.

La autora consideró los beneficios derivados del uso de las buenas prácticas DWBP en la gestión de datos en la web que sintetiza Juan Antonio Pastor Sánchez en esta diapositiva.

beneficios de usar las Data Web Best Practices del W3C para gestionar datos en la wev

Y asoció a cada buena práctica la serie de beneficios que se derivaban de su uso. En la siguiente imagen podemos ver un fragmento de la tabla que construyó que afecta a las cinco primeras.

Buena prácticaBeneficios
BP 1: Proporcionar metadatos  Reusabilidad Comprensibilidad Descubribilidad Procesabilidad
BP 2: Proporcionar metadatos descriptivos  Reusabilidad Comprensibilidad Descubribilidad  
BP 3: Proporcionar metadatos estructurales  Reusabilidad Comprensibilidad Procesabilidad
BP 4: Proporcionar información sobre la licencia de los datos  Reusabilidad Confiabilidad
BP 5: Proporcionar información sobre la procedencia de los datosReusabilidad Confiabilidad
Asociación de las DWBP (1 a 5) con sus beneficios de uso (Teixeira dos Santos, 2023, 26-27).

Nosotros hemos sintetizado esa vinculación en la siguiente tabla que nos permite concluir que la reusabilidad es el beneficio (y principio FAIR)l que agrupa a un número mayor de buenas prácticas seguido de la confianza.

BeneficioBuenas prácticas
AccesibilidadBP17, BP18, BP19, BP20, BP21, BP23, BP24, BP32
ComprensiónBP1, BP2, BP3. BP13 , BP15, BP16, BP29, BP31, BP32, BP33
ConectividadBP9, BP10, BP18, BP24
ConfianzaBP4, BP5, BP6, BP7, BP8, BP11, BP15, BP22, BP25, BP26, BP27, BP28, BP29, BP30, BP31, BP32, BP34, BP35
DescubribilidadBP1, BP2, BP9, BP10, BP11, BP24, BP35
InteroperabilidadBP9, BP10, BP15, BP16, BP23, BP24, BP26, BP33
ProcesabilidadBP1, BP3, BP12, BP14, BP15, BP18, BP23, BP24, BP31
ReusabilidadBP1, BP2, BP3, BP4, BP5, BV6, BP7, BP8, BP9, BP10, BP11, BP12, BP13, BP14, BP15, BP16, BP17, BP18, BP19, BP20, BP21, BP22, BP23, BP24, BP25, BP26, BP27, BP28, BP29, BP30, BP31, BP32, BP33, BP34, BP35
Clasificación de las DWBP según beneficio asociado a su uso.

RDA FAIR data maturity model

Los principios FAIR datan del año 2106. Como todas las normas genéricas, dan lugar a distintas interpretaciones en su aplicación. Para remediar la proliferación de medidas del cumplimiento de estos principios (‘FAIRness’ en inglés), la ‘Research Data Alliance’ creó un grupo de trabajo para desarrollar un modelo de madurez en la implementación de los conjuntos de datos (2020).

Este modelo consiste en una serie criterios básicos de evaluación que establece indicadores y niveles de madurez asociados. En un principio, se elaboró un primer conjunto de directrices y una lista de verificación relacionada con la implementación de los indicadores, alineando así las directrices para evaluar el nivel de cumplimiento FAIR con las necesidades de la comunidad. Los indicadores se derivan, lógicamente de los principios FAIR y pretenden formular aspectos mensurables de cada principio que puedan ser utilizados por los enfoques de evaluación.

Enlace al texto del modelo Fair Maturity Model

Los principios se toman tal cual; es decir, los indicadores no amplían o modifican los principios, sólo cubren aspectos que se mencionan en ellos o en aclaraciones adicionales. El planteamiento del modelo se basa en crear un indicador para cada aspecto distinguible en la descripción del principio. Así, cuando se habla de un identificador persistente y globalmente único, se definen dos indicadores: uno para evaluar la persistencia y otro para evaluar la unicidad.

Otra característica a destacar es que se definen indicadores distintos para los metadatos y para los datos, siempre que un principio se hable de «(meta)datos» y la evaluación del aspecto para los metadatos sea distinta de la evaluación para los datos. En la siguiente tabla se presenta un resumen del modelo basado en la lista de recomendaciones (fuente: https://zenodo.org/record/3909563).

Principio
FAIR
IndicadorPropósitoNaturaleza
F1RDA-F1-01MLos metadatos se identifican mediante un identificador persistenteEsencial
RDA-F1-01DLos datos se identifican mediante un identificador persistenteEsencial
RDA-F1-02MLos metadatos se identifican mediante un identificador único globalEsencial
RDA-F1-02DLos datos se identifican mediante un identificador único globalEsencial
F2RDA-F2-01MSe proporcionan metadatos enriquecidos para permitir la localizaciónEsencial
F3RDA-F3-01MLos metadatos incluyen el identificador de los datosEsencial
F4RDA-F4-01MLos metadatos se presentan de forma que puedan ser recolectados e indexados.Esencial
A1RDA-A1-01MLos metadatos contienen información que permite al usuario acceder a los datos.Importante
RDA-A1-02MLos metadatos pueden ser accedidos manualmente (por ejemplo, con intervención humana).Esencial
RDA-A1-02DLos datos pueden ser accedidos manualmente (por ejemplo, con intervención humana).Esencial
RDA-A1-03MEl identificador de los metadatos resuelve un registro de metadatos.Esencial
RDA-A1-03DEl identificador de los datos resuelve un objeto digital.Esencial
RDA-A1-04MSe accede a los metadatos a través de un protocolo estandarizado.Esencial
RDA-A1-04DSe accede a los datos a través de un protocolo estandarizado.Esencial
RDA-A1-05DLos datos pueden ser accedidos de forma automática (por ejemplo, por medio de un programa de ordenador).  Importante
A1.1RDA-A1.1-01MLos metadatos son accesibles a través de un protocolo de acceso libre.Esencial
RDA-A1.1-01DLos datos son accesibles a través de un protocolo de acceso libre.Importante
A1.2RDA-A1.2-01DLos datos son accesibles por medio de un protocolo de acceso que soporta autenticación y autorización.Útil
A2RDA-A2-01MSe garantiza que los metadatos seguirán disponibles después de que los datos dejen de estarlo.Esencial
I1RDA-I1-01MLos metadatos usan representación del conocimiento expresada en formatos estandarizados.Importante
RDA-I1-01DLos datos usan representación del conocimiento expresada en formatos estandarizados.Importante
RDA-I1-02MLos metadatos utilizan una representación del conocimiento comprensible para las máquinasImportante
RDA-I1-02DLos datos utilizan una representación del conocimiento comprensible para las máquinasImportante
I2RDA-I2-01MLos metadatos utilizan vocabularios conformes con los principios FAIRImportante
RDA-I2-01DLos datos utilizan vocabularios conformes con los principios FAIRÚtil
I3RDA-I3-01MLos metadatos incluyen referencias a otros metadatosImportante
RDA-I3-01DLos datos incluyen referencias a otros metadatosÚtil
RDA-I3-02MLos metadatos incluyen referencias a otros datosÚtil

La evaluación de cada indicador se lleva a cabo estableciendo cinco niveles de cumplimiento de los principios:

  • 0, no aplicable
  • 1, aún no se está considerando
  • 2, en estudio o en fase de planificación
  • 3, en fase de implementación
  • 4, totalmente implementado

Se ofrece la posibilidad de «descartar un indicador«, ya que este podría no ser relevante para una comunidad concreta. La razón de ser de este enfoque es dar crédito a la evolución y ayudar a mejorar la gestión de datos. Este enfoque puede ser muy útil para los proveedores y editores de datos que quieran hacer una prueba de autoevaluación y tener una idea más clara de dónde concentrar los esfuerzos para que sus conjuntos de datos satisfagan mejor los principios FAIR.

Como ejemplos de aplicación disponemos del caso de la Agencia Europea de Medio Ambiente (EEA) que ha utilizado el modelo para mejorar la calidad de sus datos alcanzando el nivel 2 de madurez (camino del siguiente nivel). La Universidad de California, Berkeley ha utilizado el modelo para mejorar la calidad de sus datos de investigación, alcanzando el mismo nivel de cumplimiento. Google ha utilizado el modelo para mejorar la calidad de sus datos de investigación llegando al nivel 3 de madurez.

Data web best practices (DWBP by W3C)

El World Wide Consortium (W3C) publicó en 2017 el documento ‘Data on the Web Best Practices: W3C Recommendation(DWBP), una detallada guía para el diseño, publicación y uso de datos enlazados en la web, con el objeto de promover su accesibilidad, interoperabilidad y reutilización.

logo del W3C

Este documento proporciona orientación a los editores de datos en línea sobre cómo representarlos y compartirlos en un formato estándar y accesible. Las prácticas se han desarrollado para fomentar y permitir la expansión continua de la web como medio para el intercambio de datos. El documento menciona el crecimiento en la publicación de datos abiertos por parte de los gobiernos en todo el mundo, la publicación en línea de los datos de investigación, la recolección y análisis de datos de redes sociales, la presencia de importantes colecciones de patrimonio cultural y, en general, el crecimiento sostenido de los datos abiertos en la nube, destacando la necesidad de una comprensión común entre editores y consumidores de datos, junto con la necesidad de mejorar la consistencia en el manejo de los datos.

Estas buenas prácticas cubren diferentes aspectos relacionados con la publicación y el consumo de datos, como son los formatos, el acceso, los identificadores y la gestión de los metadatos. Con el fin de delimitar el alcance y obtener las características necesarias para implementarlas, se recopilaron casos de uso que representan escenarios de cómo se publican habitualmente estos datos y cómo se utilizan. El conjunto de requisitos derivados de esta recopilación se utilizó para guiar el desarrollo de las DWBP, independientes del dominio y la aplicación. Estas recomendaciones pueden ampliarse o complementarse con otros documentos de similar naturaleza. Si bien las DWBP recomiendan usar datos enlazados, también promueven el empleo de otros formatos abiertos como son CSV o json, maximizando más si cabe el potencial de este contexto para establecer vínculos.

CATEGORÍABUENA PRÁCTICA
Metadatos Requisito fundamental. Los datos no podrán ser descubiertos o reutilizados por nadie más que el editor si no se proporcionan metadatos suficientes.BP 1: Proporcionar metadatos
BP 2: Proporcionar metadatos descriptivos
BP 3: Proporcionar metadatos estructurales
Licencias
Según el tipo de licencia adoptada por el editor, puede haber más o menos restricciones a la hora de compartir y reutilizar los datos.
BP 4: Proporcionar información sobre la licencia de los datos
Procedencia
El reto de publicar datos en la web es proporcionar un nivel adecuado de detalle sobre su origen.
BP 5: Proporcionar información sobre la procedencia de los datos
Calidad
Puede tener un gran impacto en la calidad de las aplicaciones que utilizan un conjunto de datos.
BP 6: Proporcionar información sobre la calidad de los datos
Versiones
Los conjuntos de datos pueden cambiar con el tiempo. Algunos tienen previsto ese cambio y otros se modifican a medida que las mejoras en la recogida de datos hacen que merezca la pena actualizarlos.
BP 7: Proporcionar un indicador de versión BP 8: Proporcionar el historial de versiones
Identificadores
El descubrimiento, uso y citación de datos en la web depende fundamentalmente del uso de URI HTTP (o HTTPS): identificadores únicos globales.
BP 9: Utilizar URIs persistentes como identificadores de conjuntos de datos
BP 10: Utilizar URIs persistentes como identificadores dentro de conjuntos de datos
BP 11: Asignar URIs a versiones y series de conjuntos de datos
Formatos
El mejor y más flexible mecanismo de acceso del mundo carece de sentido si no se sirven los datos en formatos que permitan su uso y reutilización.
BP 12: Utilizar formatos de datos estandarizados legibles por máquina
BP 13: Utilizar representaciones de datos neutras respecto a la localización
BP 14: Proporcionar datos en múltiples formatos  
Vocabularios
Se utiliza para clasificar los términos que pueden utilizarse en una aplicación concreta, caracterizar las posibles relaciones y definir las posibles restricciones en su uso.
BP 15: Reutilizar vocabularios, preferentemente estandarizados BP 16: Elegir el nivel adecuado de formalización
Acceso a los datos
Facilitar el acceso a los datos permite tanto a las personas como a las máquinas aprovechar las ventajas de compartir datos utilizando la infraestructura de la red.
BP 17: Proporcionar descarga masiva
BP 18: Proporcionar subconjuntos para conjuntos de datos grandes
BP 19: Utilizar negociación de contenidos para servir datos disponibles en múltiples formatos
BP 20: Proporcionar acceso en tiempo real
BP 21: Proporcionar datos actualizados
BP 22: Proporcionar una explicación para datos que no están disponibles
BP 23: Hacer datos disponibles a través de una API
BP 24: Utilizar estándares web como base de las APIs
BP 25: Proporcionar documentación completa para su API
BP 26: Evitar cambios que rompan su API
Preservación
Las medidas deben tomar los editores para indicar que los datos se han eliminado o archivado.
BP 27: Preservar identificadores
BP 28: Evaluar la cobertura del conjunto de datos
Retroalimentación (‘feedback’)
Ayuda a los editores en la  mejora de la integridad de los datos, además de fomentar la publicación de nuevos datos. Permite a los consumidores de datos tener voz describiendo experiencias de uso.
BP 29: Recopilar comentarios de los consumidores de datos
BP 30: Hacer comentarios disponibles
Enriquecimiento
Procesos que pueden utilizarse para mejorar, perfeccionar los datos brutos o previamente procesados. Esta idea y otros conceptos similares contribuyen a hacer de los datos un activo valioso para casi cualquier negocio o empresa moderna.
BP 31: Enriquecer datos generando nuevos datos
BP 32: Proporcionar presentaciones complementarias
Republicación
Combinar datos existentes con otros conjuntos de datos, crear aplicaciones web o visualizaciones, o reempaquetar los datos en una nueva forma.
BP 33: Proporcionar comentarios al editor original
BP 34: Seguir los términos de la licencia
BP 35: Citar la publicación original
Resumen de las Data Web Best Practices del W3C

Beneficios e incovenientes de las DWBP

Como podemos ver, se trata de unas pautas que precisan de cierto volumen de trabajo y muchas han de ser aplicadas por personas con mucha experiencia. A continuación, resumimos los beneficios y los (posibles) inconvientes de las mismas.

Beneficios:

  1. Interoperabilidad: Las prácticas están diseñadas para asegurar que los datos publicados sean comprensibles y accesibles para una amplia variedad de aplicaciones y sistemas. Esto facilita la integración y el intercambio de datos entre organizaciones y plataformas.
  2. Reutilización: Si se siguen las buenas prácticas, los datos se estructuran coherentemente y se proporcionan metadatos claros. Esto facilita la reutilización de los datos por parte de otros usuarios y organizaciones para crear nuevas aplicaciones, servicios o análisis. Esto fomenta la innovación y la creación de valor.
  3. Calidad de los datos: Las buenas prácticas promueven la calidad de los datos al definir estándares para la representación y la semántica de los datos. Esto reduce los errores y las ambigüedades en los datos publicados, mejorando la confiabilidad y la precisión de la información.
  4. Accesibilidad: Un seguimiento de las buenas prácticas asegura que los datos estén disponibles y sean accesibles para un público amplio, incluyendo personas con discapacidades. Esto promueve la inclusión y garantiza que los datos estén disponibles para todos los usuarios, independientemente de sus necesidades.
  5. Indexación y búsqueda: Los motores de búsqueda comprenden mejor e indexan más eficazmente los datos que siguen las DWBP. Esto mejora su encontrabilidad, aumentando la visibilidad de los datos en los resultados, lo que aumenta su alcance y utilidad.
  6. Transparencia: Publicar datos según estándares abiertos y transparentes, se promueve la transparencia y la rendición de cuentas. Esto es especialmente importante en los datos de las administraciones públicas y también en datos científicos, donde la accesibilidad a los conjuntos de datos es esencial para la toma de decisiones informadas y la supervisión.
  7. Facilita la colaboración: Estas buenas prácticas fomentan la colaboración entre organizaciones y comunidades al proporcionar un marco común para compartir datos. Esto es especialmente útil en proyectos de colaboración donde múltiples partes necesitan compartir y trabajar con datos de manera eficiente.

Posibles inconvenientes

  1. Coste: Implementar las DWBP puede requerir inversiones significativas en recursos humanos y tecnológicos, lo que es un problema para organizaciones con presupuestos limitados.
  2. Complejidad: Algunas de las mejores prácticas del W3C resultan técnicamente complejas de implementar, especialmente para personas u organizaciones sin experiencia previa en estándares web y tecnologías relacionadas.
  3. Cumplimiento: Asegurarse de cumplir con todas las directrices y recomendaciones puede ser un desafío, y el incumplimiento podría afectar la efectividad de la publicación de datos.
  4. Adopción: No todas las organizaciones y comunidades pueden estar dispuestas o capacitadas para adoptar estas prácticas de inmediato. Esto puede limitar la interoperabilidad y la reutilización de datos.
  5. Seguridad y privacidad: La publicación de datos ha de hacerse con precaución para evitar la divulgación de información sensible o privada. El cumplimiento de las normativas de protección de datos es esencial y requiere un esfuerzo adicional.
  6. Actualización continua: Mantener los datos actualizados y en conformidad con las buenas prácticas puede ser un verdadero desafío a largo plazo. Esto va a precisar de dedicación y recursos continuos.
trabajando con buenas prácticas de datos en la web

En resumen, publicar datos siguiendo las Data Web Best Practices del W3C ofrece numerosos beneficios en términos de interoperabilidad, reutilización de datos, calidad de datos, accesibilidad y transparencia. Sin embargo, también conlleva inconvenientes relacionados con el costo, la complejidad, el cumplimiento, la adopción, la seguridad y la privacidad, así como la necesidad de mantener los datos actualizados. Seguir estas mejores prácticas va a depender de los objetivos y recursos de la organización y de su compromiso con la calidad y la accesibilidad de los datos a publicar.

En otras entradas seguiremos hablando de buenas prácticas y conjuntos de datos, algo preciso para llegar a la Ciencia Abierta.