Gestión de Información

Cuando el diseño web por delante del modelado de contenido

Aprovecho que estoy preparando las clases de esta semana en la asignatura «Sistemas de Gestión de Contenidos» del 2º curso del grado en Gestión de Información y Contenidos Digitales para reflexionar brevemente sobre una cuestión: ¿qué pasa cuando se dedica muchas horas a un diseño «muy visual» del sitio web con nuestro CMS y «pasamos» un poco (o un bastante) del modelado del contenido?.

Vemos qué pasa cuando se dedica muchas horas a un diseño "muy visual" del sitio web con nuestro CMS y "pasamos" un poco (o un bastante) del modelado del contenido.

No es raro encontrarnos sitios web donde se ha puesto todo el interés en un diseño visual muy atractivo que atrae, sin duda alguna, a nuevos usuarios pero que, a nivel de modelado de contenidos, presenta graves problemas. Cuando el diseño va por delante, nos centramos en el desarrollo de unas plantillas visuales espectaculares, animaciones, banners y carruseles de diapositivas de gran calidad visual, maquetación de la interfaz web atractiva, todo ello dentro de una gran coherencia visual (el «tema» del CMS).

cosas que pasan cuando se dedica poco esfuerzo al modelado de contenidos en el desarrollo de un sitio web

Si el sitio web no va más allá de un blog, un pequeño catálogo de productos o una pequeña web institucional, no se plantearían muchos problemas. En estos casos, puede resultar suficiente con los tipos de contenido base «página» y «entrada» (‘post’), con introducir las fechas en formato de texto libre («12/06/2025» o «12-jun-26», a elección del usuario incluso), no tener normalización alguna de cómo introducir el nombre de un autor de un libro («Juan Antonio Pérez López» o «Juan A. Pérez López» o «Pérez López, Juan Antonio»), que la taxonomía del sitio web no esté muy trabajada (o sin trabajar directamente, dejando a los usuarios construirla sin consistencia alguna) y, finalmente, no existe relación entre tipos de contenido específicos (básicamente por su escasez o ausencia). En definitiva, mucho diseño y poca gestión de información, algo parecido a lo que le está ocurriendo ahora al equipo Aston Martin de F1, que ha contratado un «mago» del diseño como Adrian Newey y unos motores Honda que no son capaces de llevar a cabo quince vueltas seguidas a un circuito.

En estos sitios web, poco más se puede hacer que navegar por las distintas secciones, usar el buscador o esperar que la nube de etiquetas esté construida con algún criterio. Si quisiéramos consultar un histórico de «actividades culturales»desarrolladas en el último año, tendríamos el problema de que no existe ese tipo de contenido específico y que, además, la búsqueda por fechas puede resultar complicada al no esta normalizado el formato de entrada.

El CMS termina convirtiéndose casi en un editor de texto "glorificado".

La solución suele terminar siendo manual, se copia contenido de entradas que recuperamos (manualmente casi siempre) de la web para pegarlo en listas elaboradas a mano (como si trabajáramos con el editor de texto normal, de ahí el apelativo de «glorificado» de la imagen). El resultado final es escasa y frágil agregación de contenidos (poco se puede extraer por medio de consultas automáticas), mucho trabajo repetitivo, algo que debería obviar el uso de un CMS, produciéndose una situación de «deuda técnica», algo parecida a la que Honda tiene ahora con la escudería Aston Martin y con todos los aficiones a la Fórmula 1 que ven que Fernando Alonso difícilmente podrá aspirar a un podio en esta su última temporada (o no) en los circuitos.

Esperemos que el CMS no nos lleve a acompetircon un coche normal en las carreras. Para ello hace falta modelado, metadatos, relaciones, agregación y diseño reutilizable.

Siguiendo con esta metáfora, hay que intentar que el diseño del CMS no nos obligue con un coche normal en las carreras. Para ello hace falta modelado de contenido adeucado, metadatos bien definidos, relaciones entre tipos de contenidos, vistas del contenido a partir de agregación, todo ello en un marco de diseño web útil y reutilizable.

Los CRIS y su papel en la Ciencia Abierta

CRIS son las siglas de ‘Current Research Information System‘ (sistemas de información de investigación), plataformas que representan un pilar esencial para que las instituciones de investigación adopten plenamente la estrategia de la Ciencia Abierta. Su importancia va más allá del registro de la producción científica —como artículos, capíutlos de libros o proyectos— ya que operan como una infraestructura de metadatos que lleva a cabo la conexión entre personas, publicaciones, datos, financiación e impacto de la investigación, facilitando la trazabilidad, visibilidad, interoperabilidad y reutilización del conocimiento. En un contexto en que las agencias financiadoras, las universidades y los repositorios convergen hacia la apertura, la transparencia y la responsabilidad en la investigación como pilares del tránsito a la Ciencia Abierta, los CRIS permiten que esa transformación se realice de forma sistemática y estructurada.

El CRIS como elemento conector en el contexto de la Ciencia (imagen elaborada con chatGPT).
El CRIS como elemento conector en el contexto de la Ciencia (imagen elaborada con chatGPT).

Un aspecto central del valor de un CRIS es su capacidad para articular el ciclo completo de la investigación: desde la financiación y la planificación de proyectos hasta la publicación, el depósito de datos, la transferencia y la evaluación. Esta visión sistémica favorece que las instituciones puedan cumplir con mandatos de acceso abierto y datos abiertos (por ejemplo, enlazando las publicaciones con sus versiones en repositorio o monitoreando embargos), que gestionen resultados más allá del artículo tradicional (conjuntos de datos de investigación, código de software libre, materiales docentes, etc.) y que generen métricas e informes para evaluación responsable. En este sentido, el CRIS actúa como una “capa de información contextual”: quién, qué, cuándo, con qué financiación, bajo qué proyecto, qué impacto, etc., mientras que los repositorios suelen limitarse de la preservación y difusión del objeto digital.

A nivel internacional encontramos ejemplos de CRIS que ilustran tanto el modelo como su relación con la Ciencia Abierta. Por ejemplo, el sistema nacional noruego CRIStin (Current Research Information System in Norway) permite documentar toda la producción académica de los investigadores noruegos y complementa su uso para evaluación del sistema de investigación público.

Cabecera del sitio web Cristin
Cabecera del sitio web Cristin

En Finlandia, Alemania y los Países Bajos también se han desarrollado modelos nacionales de gestión de la información de investigación, como documenta el informe de OCLC Research. También en Europa, la asociación euroCRIS promueve el estándar CERIF (Common European Research Information Format) con el fin de asegurar la interoperabilidad entre los CRIS.

Esquema general del estándar CERIF
Esquema general del estándar CERIF

Estos ejemplos muestran cómo los CRIS institucionales y nacionales se integran en un ecosistema mayor de datos e infraestructuras de Ciencia Abierta. En el caso de un país que adopte un CRIS nacional o regional, la ventaja es que se construye una infraestructura homogénea para la agregación de datos de múltiples instituciones, lo cual permite realizar análisis nacionales, comparativos y soportar políticas de Ciencia Abierta a gran escala.

En España, los CRIS institucionales de las universidades funcionan en estrecha relación con los llamados “portales de investigación” públicos, es decir, las interfaces visibles donde se exponen perfiles de personal investigador, grupos, publicaciones, proyectos y métricas. Dichos portales, alimentados por la base de datos de Dialnet y por el CRIS de cada institución académica, permiten la visibilidad institucional y cumplen una función de transparencia hacia la sociedad. La integración entre CRIS y portal es clave: el primero organiza, vincula y valida los metadatos, el segundo los presenta al público de forma navegable.

Este marco es fruto del Proyecto Hércules, impulsado por Crue Universidades Españolas, que proponía una arquitectura semántica común para los CRIS universitarios españoles, basada en estándares compartidos, ontologías alineadas y una solución de gestión de la investigación común. El resultado final facilita que los datos de diferentes universidades se puedan comparar, agregar y explotar de forma interoperable. Sin duda alguna, la clave de bóveda de este proyecto ha sido el papel de Dialnet, si el trabajo previo de esta fundación, todo el desarrollo de este proyecto hubiera resultado valdío. Una vez más se demuestra la frase de Bill Gates: ‘content is king‘. Poco a poco, se van implementando los portales de investigación de las universidades españolas y se está configurando un sistema de información científica agregado que puede asumir funciones similares a las de un CRIS colectivo para aquellas instituciones que no cuentan con soluciones propias completas. Estas plataformas son elementos articuladores de un ecosistema de investigación abierta, interoperable y de alcance cada vez mayor. A nivel internacional, los sistemas que adopten el estándar CERIF muestran cómo la gestión de la información investigadora se ha transformado en una infraestructura de infraestructuras (“infraestructura de segundo orden”) para la Ciencia Abierta. En España, esta convergencia entre CRIS, portales de investigación y plataformas cooperativas como Dialnet, señala una evolución hacia un modelo más integrado, transparente y orientado al bien público del sistema de investigación.

Tom Wilson e Information Research: pioneros del acceso abierto diamante

En la revista científica ‘Information Research: an electronic international journal‘ hemos dedicado un número especial a los 30 años de la puesta en marcha de la misma por parte de nuestro querido maestro Tom Wilson de la Universidad de Sheffield (y de la de Borâs en los últimos años). Para nosotros ha sido un honor haber participado en este número y casi en los treinta años de vida de esta revista gracias a la generosidad de su fundador.

Fragmento del sitio web de la revista (versión histórica
Fragmento del sitio web de la revista (versión histórica en https://informationr.net/ir/).
Fotografía de Tom Wilson (2010). Fuente: wikipedia
Fotografía de Tom Wilson (2010). Fuente: wikipedia

En nuestra aportación, que reproducimos en versión HTML a continuación, destacamos los vínculos que se han establecido entre nuestra Universidad, la revista y Tom, además de resaltar que esta revista es acceso abierto antes incluso de que se acuñara ese término y se difudiera tras el acuerdo de la Iniciativa por el Acceso Abierto firmada en Budapest en el año 2002. Sin duda alguna, Tom es un maestro, un genio y mejor persona.


Texto del artículo:

Son muchos los méritos contraídos por Tom Wilson a lo largo de toda su carrera docente e investigadora, en la que ha venido introduciéndonos en el estudio de la gestión de información y del comportamiento informacional en contexto prácticamente desde el inicio de estas disciplinas. En ambos casos, se produce el mismo fenómeno: con el paso del tiempo, ambas forman un binomio de muy difícil separación, por no decir indivisible, tal como dijo José Vicente Rodríguez Muñoz la mañana en la que le investimos Doctor Honoris Causa por nuestra Universidad (septiembre de 201). Es posible que, con anterioridad a Tom Wilson, otros autores pudieran haber realizado aproximaciones parciales alrededor de estos conceptos, pero quien, con su esfuerzo, dedicación y sabiduría, muchas veces acompañado de un grandísimo equipo de colaboradores, ha permitido su desarrollo e implantación dentro de la comunidad científica como temas de interés.

Acto de investidura de Tom Wilson como Doctor Honoris Causa por la Universidad de Murcia en el año 2010.
Acto de investidura de Tom Wilson como Doctor Honoris Causa por la Universidad de Murcia (2010).

De gran parte de todo ese trabajo ha sido testigo y depositaria la revista ‘Information Research: an electronic international journal‘, cuyo trigésimo aniversario celebramos con este número especial. Tal como informa la sección ‘About the Journal’ de su sitio web, fue fundada en 1995 por Tom Wilson en la Universidad de Sheffield y la ha dirigido casi todo este tiempo. En la presentación de la revista se comenta que ‘the Internet and the World ide Web were in their infancy, and the idea was to create a journal that covered the information disciplines in general’, recordando los significativos cambios acaecidos en nuestro campo durante todo este período, de proporciones exponenciales (casi hipergeométricas) en comparación con otros períodos anteriores donde la evolución seguía ritmos mucho más pausados.

Portada de un número de la revista Information Research en su diseño actual.
Portada de un número de la revista Information Research en su diseño actual (https://publicera.kb.se/ir).

La vocación internacional de la revista se observa claramente en el título de esta y constituye uno de sus puntos fuertes. No cabe duda alguna que esto es fiel reflejo de otro aspecto destacado de la personalidad de Tom Wilson: su afán por visitar la mayor parte de países del mundo posible para entrar en contacto con colegas y estudiantes. Gracias a esa actitud abierta y colaborativa tuvimos ocasión de conocerle personalmente y, desde entonces, ha sido para nosotros ese faro que guía a los barcos en la noche hacia puerto seguro donde descansar y avituallarse. Su primera visita a Murcia fue por motivo de un seminario sobre ‘Information Management’ justo el mismo curso que iniciábamos los estudios de Biblioteconomía y Documentación (1989-1999). Desde entonces, el contacto ha sido permanente y el vínculo se fue fortaleciendo hasta el punto de que es la única persona a quien se le ha concedido el Doctorado Honoris Causa a propuesta de nuestra facultad. Hicimos coincidir la ceremonia de investidura con esta distinción académica con la celebración de la conferencia ISIC-2010 para que una parte importante de sus amigos pudiera percibir en primera persona el alto nivel de reconocimiento y devoción que sentimos en esta humilde universidad del sureste de España por nuestro amigo, casi familia, Tom Wilson.

Durante este período de tiempo, el profesor Wilson participó como ponente invitado en el seminario de puesta en marcha de la Cátedra UNESCO en Gestión de Información en las Organizaciones, proyecto que coordinamos en colaboración con la Universidad de La Habana y que tuvo lugar en la Facultad de Economía de la Universidad Nacional Autónoma de México en el año 1995, unos meses antes de la puesta en marcha de la Maestría Internacional en Gestión de Información de la que llevamos realizadas más de 25 ediciones en distintos países de Latinoamérica y que ha permitido a muchos docentes e investigadores acceder al doctorado y progresar en su carrera académica.

En relación con ese progreso de la carrera académica y volviendo a la revista, no recordamos con precisión exacta la fecha, seguro que prácticamente en sus comienzos, el profesor Wilson abrió la posibilidad de publicar artículos en los idiomas portugués y español para colaborar en la difusión de los estudios e investigaciones realizadas en el ámbito iberoamericano, encargando en ese momento la responsabilidad de editar esa sección al profesor José Vicente Rodríguez Muñoz, nuestro maestro y compañero. Este hecho resultó fundamental para la comunicación de nuestras investigaciones en un ámbito internacional al que nos introdujo Tom Wilson, no sólo a los miembros de nuestra universidad, sino a muchos colegas de España, Portugal e Iberoamérica que aprovecharon ese espacio que gentilmente nos abrió el profesor Wilson. En el caso particular de nuestro departamento, Information Research ha sido depositaria de la buena parte de los artículos derivados de las tesis doctorales que hemos realizado a lo largo de estos 30 años, algunos de ellos con una considerable atención e interés por parte de la comunidad investigadora.

Fragmento del artículo 'Advantages of thesaurus representation using the Simple Knowledge Organization System (SKOS) compared with proposed alternatives' publicado en Information Research.
Fragmento del artículo ‘Advantages of thesaurus representation using the Simple Knowledge Organization System (SKOS) compared with proposed alternatives’ publicado en Information Research. Fuente: https://informationr.net/ir/14-4/paper422.html

Hoy en día esa sección sigue recibiendo de forma periódica abundantes peticiones de publicación de artículos, si bien la tendencia actual es presentarlos en inglés (la lingua franca de la Ciencia). Podemos asegurar, sin temor a equivocarnos, que tanto la revista como su director, tienen una pequeña parte de culpa en esa internacionalización de la comunicación de la ciencia en nuestro entorno.

Information Research ha sido siempre una revista digital con el mismo nivel de gestión editorial que otras revistas de más longevas en el tiempo y con mayor presupuesto (algo imaginario en nuestro caso particular). Todo ha sido posible por la disposición de una multitud de compañeros y colegas que nunca han dudado a responder afirmativamente a la “llamada” de Tom Wilson para colaborar con la revista. En todos estos años hemos aprendido muchas cosas y queremos resaltar algunas de ellas. La primera fue la inmensa sorpresa que percibimos ante el nivel de dedicación y atención que investigadores y autores de referencia mundial prestaban a las tareas de revisión y edición de los artículos dentro de un contexto colaborativo impregnado de armonía, equidad y respeto por las decisiones adoptadas por todos los compañeros participantes. Esto nos ha servido a muchos de nosotros para replicarlo en otros proyectos editoriales en los que participamos, aprendiendo todos de todos. Otro aspecto que destacar es la formalidad del proceso editorial, al que muchos autores no estábamos acostumbrados en nuestros entornos locales en aquella época. El uso de una plantilla XHTML para la maquetación rigurosa de los artículos ha permitido además una mayor interoperabilidad y difusión de los textos dentro del ecosistema de la Web Semántica, también embrionario e incipiente cuando se implantó su uso. Continuando con los aspectos formales, la revisión de estilo, que se mantiene en la actualidad, es otra de las fortalezas de nuestra revista, a pesar de que se ha ido trivializando en otras revistas con el paso del tiempo.

Quizá los lectores más antiguos de esta revista recuerden que, al poco de haber sido indexada por la base de datos Social Science Citation Index (hoy parte de la WOS), hubo que introducir algunos cambios en la denominación de los artículos y guardar una copia de este y de las referencias empleadas en un sistema de archivo digital (webcitation.org) para intentar obviar la futilidad propia del ecosistema de la web de aquella época. Tom Wilson condujo inteligentemente este proceso y llevó a cabo la asignación de identificaciones permanentes de artículos para favorecer una preservación de los documentos cuando prácticamente esos conceptos eran embrionarios. Hace un par de años realizamos un sondeo para verificar la existencia de “citas perdidas” de los artículos de nuestra revista en la Web of Science (WOS), un problema presente en muchas publicaciones de acceso abierto y que añade otra tarea más sus comités editoriales. Cuál fue nuestra sorpresa, en realidad no tanto, cuando verificamos que Information Research tenía debidamente computadas todas. La rigurosidad editorial por bandera forma parte de nuestro genoma vital.

En los relativo a la indexación en bases de datos y la posición de la revista en los índices de impacto (estos últimos no han preocupado en exceso a Tom Wilson), la revista siempre ha estado recopilada por los principales productores y distribuidores, además de tener factor de impacto tanto en JCR/JCI como en el índice SJR donde nuestra publicación recibe más citas debido al mayor alcance geográfico del mismo, volviendo a poner de manifiesto que la internacionalización de la revista es una de nuestras fortalezas.

Lo que no ha cambiado nunca es el acceso abierto a los contenidos publicados en nuestra revista sin aplicar coste alguno a los autores de los artículos (las tan controvertidas como perniciosas APCs). Nuestra revista es, desde sus inicios, una revista de acceso abierto “diamante”. Y he aquí la paradoja, Information Research es acceso abierto cuando aún no se había redactado la Declaración de Budapest (2002); incluso Information Research es “diamante” cuando aún no se había tenido que establecer esta categoría de publicaciones para distinguir el verdadero acceso abierto del que pretenden instaurar las editoriales comerciales intenta hacer frente al acoso de las editoriales comerciales, financiadas con dinero público por culpa de una deficiente aplicación del Plan “S” que ha dado pábulo a la proliferación de revistas predadoras y/o de escaso nivel científico que dañan mucho a la comunicación de la ciencia. IR es un claro ejemplo de lo contrario, de cómo el sueño de Tom Wilson se ha consolidado en una publicación de referencia internacional, abierta a todo tipo de autores, consolidados y noveles, y a todas las disciplinas relacionadas con la investigación en información. Por todo ello, creemos de justicia afirmar que, tanto la revista como su impulsor y director hasta el año pasado, son “pioneros del acceso abierto” junto a todos quienes hemos dedicado una parte de nuestro tiempo a la misma.

Autores

Jose-Vicente Rodriguez-Munoz, Francisco-Javier Martinez-Mendez, Pedro-Manuel Diaz-Ortuno, Gregorio Moya-Martinez y Rosana Lopez-Carreno, miembros del Grupo de Investigación en Tecnologías de la Información de la Universidad de Murcia y colaboradores habituales con la revista en los últimos 30 años.

References

Budapest Open Access Initiative. (2002). https://doi.org/10.4403/jlis.it-8629

Fuchs, C., & Sandoval, M. (2013). The diamond model of open access publishing: Why policy makers, scholars, universities, libraries, labour unions and the publishing world need to take non-commercial, non-profit open access serious. TripleC: Communication, capitalism & critique, 11(2), 428-443.  https://doi.org/10.31269/vol11iss2pp428-443  

Rodríguez Muñoz, J.V. et al. (2010) Discursos pronunciados en el acto de investidura del profesor Thomas Daniel Wilson como Doctor Honoris Causa por la Universidad de Murcia. http://hdl.handle.net/10201/40450

cOAlition S. (2019). Accelerating the transition to full and immediate Open Access to scientific publications. Science Europe. https://archive.org/details/plan-s-rationale-310519

1990: nace la web en el CERN, el más famoso laboratorio de física

Bernes Lee delante de la primera página web, la del CERN

Durante la década de los años 80, además del tecno-pop, va cogiendo fuerza la idea de que el hipertexto puede ser la mejor solución para la gestión de la información porque la tecnología ya comenzaba a ofrecer soluciones para ello y porque cada vez se veía más claro que las bases de datos relacionales no se ajustaban bien del todo a las exigencias de unos sistemas de información cada vez más grandes y más multimedia. En aquella época es cuando surgen los primeros sistemas de hipertexto de uso más o menos corriente:

IBM BookMaster (1980s). Herramienta de autoría de documentos con capacidades de hipertexto y estructuración. Estaba concebida para crear manuales técnicos y documentación corporativa pero que introdujo ideas que posteriormente aparecieron en otras herramientas de hipertexto.

Pantalla de inicio de Guide Hypertext de OWL

Guide (1982). Sistema desarrollado por Peter J. Brown en la Universidad de Kent y comercializado por Owl International, fue pionero en la navegación hipertextual estructurada. Se usaba para crear documentos extensos y complejos, como manuales técnicos y enciclopedias, en los que los usuarios exploraban la información por medio de enlaces integrados en el texto. Recuerdo de este sistema (llegué a usarlo a principio de los años 90) que introdujo el concepto de «expansión y contracción» del texto, en el que las secciones vinculadas se desplegaban o contraían dentro del mismo documento, ofreciendo una experiencia fluida sin necesidad de cambiar de pantalla (algo que no hace la web). Esta característica era especialmente útil para gestionar grandes cantidades de información de manera organizada y estos enlaces de expansión eran tremendamente útiles y sólo los vemos ahora en las barras de menús.

NoteCards (1984). Creado en el mítico Xerox PARC, fue otro sistema pionero que permitía gestionar ideas interconectadas con informaciones mediante «notas» que podían representar texto, imágenes o gráficos y estaban organizadas en «tarjetas» vinculadas por enlaces. Estaba programado en LISP (uno de los lenguajes de programación más emblemáticos en el campo de la IA creado por John McCarthy, uno de los padres de estas «inteligencias») y permitía a los autores usar comandos de este lenguaje para personalizar o crear tipos de nodos completamente nuevos (recuerda en algo las IA de gramática generativa, ¿verdad?).

Una pantalla típica de trabajo con la aplicación Notecards

HyperCard (1987). Fue la aplicación más conocida aunque solo funcionaba en los ordenadores Macintosh. Desarrollado por Bill Atkinson para Apple era una aplicación que combinaba características de bases de datos, programación y diseño multimedia. Así, permitía crear «pilas» de tarjetas interconectadas. En estas tarjetas podía haber texto, imágenes y botones interactivos que conducían a otras tarjetas, creando así una experiencia de navegación hipertextual. Si bien no pudimos usarlo en nuestra entonces pequeña escuela universitaria (no había presupuesto para adquirir un ordenador de la empresa de la «manzanita»), sí tuve ocasión de leer un manual del sistema. El mismo destacaba enormemente por su facilidad de uso y, además, incluía el lenguaje de programación HyperTalk que permitía a usuarios sin experiencia técnica crear aplicaciones personalizadas. Esta flexibilidad lo convirtió en una herramienta popular para la enseñanza, el desarrollo de juegos y la creación de aplicaciones interactivas. Influyó en el diseño de interfaces gráficas y en la concepción de la web al popularizar los enlaces que conectan diferentes piezas de información.

Pantalla principal de trabajo de Hypercard de Apple

La disponibilidad de una tecnología capaz de gestionar la información de forma gráfica y, especialmente, que propiciase una lectura de forma no estrictamente secuencial, «cierra el ciclo» y termina «conectando» en el tiempo de Vannevar Bush y Ted H. Nelson con Tim Berners-Lee, joven (entonces) investigador británico que trabajaba en el CERN a principios de los 90 y quien asistía incrédulo a principios de esta década a la paradoja de comprobar día a día cómo en este laboratorio (un lugar donde todos los días se llevan a cabo pequeños milagros”, escucha el imaginario historiador Robert Langdon de boca de un también imaginario director del CERN en la novela “Ángeles y demonios” de Dan Brown), perdía información o tenía problemas para localizar proyectos desarrollados por científicos de muy alto nivel tras costosísimas horas de trabajo.

Collage con fotos de Tim Berners-Lee hace unos pocos años, de Ted Nelson en la actualidad y de Vannevar Bush a mediados de los años 40

A Berners-Lee le desesperaba que esa “maravillosa organización” adoleciera de este problema, especialmente cuando en ella trabajaban miles de personas de alta cualificación intelectual, muy creativas la mayoría. Si bien estaban organizados en una estructura jerárquica, esto no limitaba la manera en la que se comunicaba y compartía información, equipo y software en todos los grupos. En realidad, más que de una jerarquía, la estructura de trabajo real del CERN era una red conectada que, además, aumentaba su tamaño con el paso del tiempo.

En este entorno, una persona que se incorporase a este laboratorio, como mucho recibía alguna pista sobre quiénes serían contactos útiles para recabar información verbal de lo disponible acerca de su proyecto y poco más: el resto consistía en un proceso de autoaprendizaje. Por entonces, no se tomaba esto como un problema porque las investigaciones del CERN alcanzaban un éxito notable (y alcanzan hoy en día), a pesar de los malentendidos ocasionales y de la duplicación de esfuerzos en la transmisión interna del conocimiento, sin olvidar las pérdidas de información (los detalles técnicos de proyectos anteriores a veces se perdían para siempre o sólo se recuperaban tras llevar a cabo una investigación típica de detective en una emergencia). El problema se agrandaba por la alta rotación de este personal investigador (muchos investigadores solo llegan a dos años de estancias en este centro).

Tim Berners Lee delante del ordenador consultando la primera web: la del CERN.

También detectó otro problema que había pasado desapercibido: el modo de registrar la documentación de un proyecto. Si un experimento analizaba un fenómeno estático y particular, toda la información se podía registrar en un libro para posteriores consultas, pero esto no era lo frecuente. Cuando había que introducir un cambio en un proyecto que afectaba a una pequeña parte de la organización (cambiar una parte del experimento o comprar un nuevo detector de señales), el investigador debía averiguar qué otras partes de la organización y otros proyectos se iban a ver afectados. Con el tipo de libro de registro utilizado era prácticamente imposible de mantener actualizado y no ofrecía respuestas a cuestiones

Con el paso del tiempo esto se hubiera hecho insostenible. Era un problema a resolver en ese momento que no podía ser visto como un hecho aislado. La supervivencia de una organización de investigación está íntegramente ligada a su capacidad de mejorar su gestión de información. Para hacerla posible, el método de almacenamiento no debería imponer restricciones a la información. Una «red» de notas con enlaces (referencias) entre los documentos era una solución mucho más útil que un sistema jerárquico fijo (tipo carpetas de un administrador de ficheros).

Para describir un sistema complejo, muchas personas recurren a diagramas con círculos y flechas, esto permite describir relaciones entre los objetos de una manera que las tablas o directorios no pueden. Si llamamos a los círculos “nodos” y “enlaces” a las flechas e imaginamos cada nodo como una pequeña nota o pieza de información (da igual que sea un artículo, un resumen o una foto), se puede construir un sistema vinculado de información entre personas y piezas informativas en constante evolución. Así, la información de un proyecto no residirá sólo en una carpeta de documentos que difícilmente un nuevo investigador iba a reutilizar, ahora formaría parte de la red informativa organizacional en la que se establecerían vínculos entre otras personas y departamentos, garantizando la supervivencia de la información. Esta propuesta de sistema de almacenamiento iba va a conseguir implantar, al fin, la idea del hipertexto como sistema de gestión de información.

esquema del hipertexto que sería luego la WWW de Berners Lee

Lo verdaderamente curioso, algo que poca gente conoce, es que cuando Berners-Lee presentó su memorándun ‘Information Management: a proposal‘, su jefe de equipo le dio permiso para hacerlo «cuando no tuviera algo más importante que hacer«.

Foto de personas creativas

Menos mal que era gente «creativa«.


Fuente recomendada: Berners-Lee. T. (1989-1990). Information Management: a proposal.

El hipertexto como solución de gestión de información

esquema de un hipertexto

El final de la II Guerra Mundial trajo consigo la constatación de que los sistemas de información existentes en esa época no iba a ser capaces de clasificar y organizar debidamente las ingentes cantidades de información que ya entonces comenzaban a manipularse, conjuntos de documentos que, de forma incipiente, comenzaban a no estar siempre en formato textual, incorporando otros tipos de media: gráficos, sonidos, planos de diseños, mapas, fotografías, etc. Fueron varios millones de documentos microfilmados por las tropas norteamericanas en archivos e industrias alemanas que fueron puestos a disposición de los gestores de información de entoces, que verificaron, al aplicar sobre ellos los sistemas de clasificación e indización de la época, su inutilidad.

Portada de la novela "El buen alemán" de Joseph Kanon

Esta realidad ha llamado la atención para el cine y la literatura, especialmente en la novela de Joseph KanonEl buen alemán”, resultando ser el inicio de la llamada “guerra fría” entre las dos grandes potencias de entonces (Estados Unidos y la Unión Soviética) por la posesión de los preciados proyectos de ingeniería y de ciencia que se habían desarrollado en la Alemania de principios de siglo XX.

De esta stituación de crisis surge la idea de disponer de otra manera de organizar estos fondos documentales por medio de unos sistemas que permitieran la colaboración de los gestores, facilitando la asociación de ideas y conceptos, y permitiendo adquirir el conocimiento de forma no estrictamente secuencial.

Vannevar Bush, asesor científico del Presidente Franklin Delano Roosevelt y pionero del concepto del hipertexto.

Vannevar Bush, asesor científico del Presidente Franklin Delano Roosevelt, planteó esas necesidades de una nueva solución para la gestión de la información en su artículo ‘As we may think‘ y llegó a pensar en la construcción de una máquina llamada ‘Memex’ (para algunos autores es el acrónimo de Memory – Index, probablemente por similitud a ‘Rolodex’ (Rolling – Index), un dispositivo para almacenamiento y búsqueda de información en fichas muy popular en esa época).

Esta máquina fue concebida como una gran base de datos donde se almacenarían todo tipo de documentos y constaría de una mesa con un teclado y unas palancas que permitirían la consulta de datos almacenados en microfilms que serían proyectados en unas pantallas translúcidas.

Reconstrucción de Memex, la máquina ideada por Bush que nunca llegó a construirse.

Este aparato incluiría también una opción para que el usuario pudiera tomar anotaciones en los márgenes. De esta forma, el usuario lector podría convertirse también en usuario autor, algo verdaderamente innovador y que se pretendía conseguir casi setenta años antes que se fijaran las características de la Web 2.0 que tanta importancia confieren al doble sentido de la publicación en la web. ‘Memex‘ fue un proyecto teórico que nunca llegó a materializarse, la tecnología de la época no lo permitía. Lo que más subyace de los pensamientos de Bush es su idea de que algo nuevo había que hacer, porque seguir gestionando la información de la misma manera, difícilmente podría llevar a buen término esta tarea.

Diagrama de la arquitectura von Neumann
Arquitectura von Neumann

De forma contemporánea a estos planteamientos y circunstancias, se fue imponiendo paulatinamente la Arquitectura de Von Neumann en el diseño y construcción de las computadoras. Una máquina basada en esta arquitectura, al igual que los ordenadores modernos, debía disponer de cuatro componentes esenciales: dispositivo de operaciones, unidad de control, memoria y dispositivos de entrada y salida. Von Neumann, de origen austrohúngaro, había emigrado a EE.UU. antes del inicio de la II Guerra Mundial, era judío y tuvo que abandonar Europa.

Caricatura de Ted Nelson dentro su hipertexto.

Habrían de pasar varios años para que estas máquinas primigenias pudieran llevar a cabo estas tareas en la forma deseada. Uno de los autores más destacados de este campo, el científico norteamericano Ted H. Nelson, ha asistido prácticamente durante toda su vida al desarrollo de un sistema de información que él denominó “hipertexto” y que sería capaz de gestionar piezas (fragmentos) de información de forma que permitiera un aprendizaje de sus contenidos y una gestión de los mismos de forma no estrictamente secuencial, facilitando a sus usuarios la integración de cualquier pieza informativa en sus propios documentos, sin tener que copiar y pegar esa pieza porque se establecerían vínculos entre ellos pasando los documentos de los usuarios a formar parte de una red universal, un sistema imaginario donde residiría toda la información científica: Xanadú (nombre tomado de un poema de Samuel Taylor Coleridge. Nelson interpretó la palabra como «ese mágico sitio de la memoria literal donde nada se pierde nunca» (en el poema era el palacio de Kublai Khan).

reconstrucción figurada de la Biblioteca de Alejandría

Resulta curioso el paralelismo con el palacio del conocimiento que representó en la antigüedad la Biblioteca de Alejandría construida por orden de Ptolomeo I, rey de Egipto y antiguo general de Alejandro Magno.

Este proyecto tenía como objetivo principal la construcción de un servidor de hipertexto para almacenar y enlazar toda la literatura mundial, accesible desde cualquier ordenador. La idea era reunir toda la producción escrita existente y conectar unos textos con otros. Esos documentos estarían almacenados en ordenadores particulares y disponibles al mismo tiempo para el resto de los usuarios (como pasó con Napster y otras redes P2P) por medio de una dirección única para cada uno de ellos, del mismo modo que ahora un objeto publicado en la web tiene asociado un identificador único de documento URI/URL. Esto viene a ser una metáfora muy parecida a lo que Berners-Lee y otros “popes” de la internet han llamado recientemente ‘decentralized web

Representación del almacenamiento “xanalógico” de T.H. Nelson.
Representación del almacenamiento “xanalógico” de T.H. Nelson.

Esta idea también resultó irrealizable en los años 60 y resulta muy parecida a la web actual, aunque existe una importante diferencia: los documentos del hipertexto de Nelson se construirían en el momento de la consulta, en la edición el autor introduciría nuevos textos y enlaces a fragmentos de texto ya escritos por otros autores, la reconstrucción del documento para su lectura estaría garantizada por la técnica del almacenamiento “xanalógico”, técnica con la que el autor pretendía hacer viable su red (en aquella época los ordenadores apenas tenían memoria de almacenamiento disponible). Aunque los problemas de almacenamiento están superados en la actualidad, resulta curioso que esto no haya sido implementado en la web actual, donde abunda (mucho más de lo deseable), la copia de textos desde otros documentos originales. Por esta razón, desde un punto de vista conceptual, el hipertexto de Nelson aún no se ha desarrollado del todo y no es de extrañar la frustración que arrastra este autor por tener que ceder el protagonismo y reconocimiento de su idea a un joven (entonces) investigador británico que trabajaba becado en el Centro Europeo de Investigación Nuclear (CERN, hoy Organización Europea para la Investigación Nuclear) a principios de los años 90.

Cuando comenzó a popularizarse la tecnología de la web, algunos autores la presentaban como: ‘WWW, Xanadu at least‘, homenajeando de alguna manera a Nelson, si bien este reconocimiento no parece satisfacer del todo al autor quien ha reconocido públicamente que, si bien no puede negar el éxito y trascendencia de la web, este sistema aun no es un hipertexto completo en el sentido conceptual que él había imaginado, sino una “brillante simplificación”.

¿Qué es «contenido de calidad» para Google?

El contenido de calidad es esencial para Google

Contenido de calidad para Google es el que cumple con los principios de utilidad, relevancia y confiabilidad, mientras se optimiza para las necesidades de los usuarios. Este concepto ha evolucionado con el tiempo e incluye ahora una atención especial al alineamiento con los principios E-E-A-T.

El contenido de calidad es el principal factor que considera Google para su ranking.

(a) Los principios E-E-A-T: Experiencia, Conocimientos, Autoridad y Confiabilidad

  1. Experiencia (‘experience’): es bueno que el creador del contenido posea experiencia práctica y directa en el tema tratado. Esto incluye anécdotas, casos de uso y resultados obtenidos de primera mano, relevantes sobre todo en industrias como portales de viajes o productos especializados.
  2. Conocimientos (‘expertise’): relacionado con el anterior principio, es conveniente que el contenido sea escrito por alguien con un conocimiento técnico o especializado en el tema (en medicina un médico o un investigador biosanitario, en derecho un magistrado o un fiscal, etc.). También se puede traducir como «pericia».
  3. Autoridad (‘authoritativeness’): principio vinculado con la reputación del creador y de la fuente. Incluye menciones por otros expertos y enlaces entrantes de sitios confiables. Google valora el contenido que sea verdadera referencia dentro de un sector. Google evalúa la autoridad analizando factores como la calidad de las fuentes que enlazan al contenido y las menciones del autor o sitio web en medios confiables. Un sitio web o creador de contenido que es considerado la fuente definitiva en un tema tiene una autoridad muy alta.
  4. Confiabilidad (‘trustworthiness’): principio relacionado con la precisión y seguridad del contenido. Aquello sitios web con errores, datos imprecisos o que no usen el protocolo seguro https, afectan negativamente a la percepción del contenido.  La confianza se evalúa con base en la precisión, honestidad, seguridad y fiabilidad del contenido del sitio web en general. Factores como la transparencia en la información de contacto, la explicación de políticas claras, la seguridad del sitio web y la concreción y precisión en la información proporcionada (‘clickbaits‘ fuera por favor), contribuyen a la confiabilidad.
Explicación de los principios E-E-A-T. Fuente: SEMrush

Factores y Criterios de Evaluación del Contenido de Calidad

En la siguiente tabla recogemos los factores clave que Google considera para valorar la calidad del contenido de un sitio web en la primera columna. En la segunda presentamos el enfoque distintivo del análisis de cada autor como factor particular o estrategia central resaltada como clave para mejorar la calidad del contenido.

AutorPrincipales Factores de CalidadEnfoque Distintivo
Iqra JamalNarrativa atractiva, datos originales y actualización constante.Uso de ‘storytelling‘ para conectar emocionalmente con el usuario.
Search Engine JournalIntención de búsqueda, estructura organizada y contenido optimizado técnicamente.Adaptación a diferentes etapas del viaje del usuario.
SlickplanUso de multimedia, organización lógica y profundización temática.Diseño visual como una herramienta de engagement clave.
Stellar ContentE-E-A-T, claridad de lenguaje y relevancia cultural.Localización cultural del contenido para mayor resonancia.
ContentGoAutoridad, confiabilidad y optimización semántica.Enfoque en el uso de datos verificados por expertos reconocidos.
Ethan LazukEnfoque «people-first», interactividad y utilidad directa.Diseño enfocado en resolver necesidades reales de los usuarios.
Chevron EditingConcisión, estructura lógica y palabras clave estratégicas.Simplificación de mensajes sin perder el impacto técnico.
Kopp Online MarketingMétricas de experiencia del usuario (tiempo en página, interacción).Uso de datos analíticos para afinar contenido a las necesidades del público.
Marketing InsiderCalidad editorial, investigaciones únicas y formato amigable para compartir.Creación de contenido alineado a las demandas del marketing digital actual.
Akhtar & ResearchGateOptimizaciones en metadatos, ‘backlinks‘ y experiencia de usuario.Conexión entre calidad del contenido y SEO técnico estratégico.
Cameron-KitchenTono conversacional, ‘engagement‘ y adaptabilidad técnica.Optimización de contenido mediante pruebas continuas de audiencia.

Fuentes empleadas para el resumen.

Iqra Jamal. How I Create Top-Quality Content and Rank High on Google: A Step-by-Step Guidehttps://www.linkedin.com/pulse/how-i-create-top-quality-content-rank-high-google-guide-iqra-jamal-ffzuf/
Search Engine Journal. How To Create High-Quality Content. https://www.searchenginejournal.com/how-to-create-high-quality-content/254511/
Slickplan. Create quality content for SEO success: how-to guide. https://slickplan.com/blog/quality-content-for-seo
Stellar. How to Create a SEO Content Strategy for 2024. https://www.stellarcontent.com/blog/content-marketing/how-to-create-a-seo-content-strategy/
ContentGo. The Role of Content in Google’s E-E-A-T snd How to Create High-Quality Content. https://blog.contentgo.com/the-role-of-content-in-googles-e-e-a-t-and-how-to-create-high-quality-content/
Ethan Lazuk. People Tell Me What to Say: Creating Helpful, Reliable, People-First Content for Google Search in 2024 & Beyond (An SEO Deep Dive). https://ethanlazuk.com/blog/people-first-content/
Module 4 – Content Optimisation The Cornerstone of SEO – https://cromsalvatera.com.au/content-optimisation-seo/

Chevron Editing. High-Quality Content: What is it? https://chevronediting.com.au/high-quality-content/
Helpful content: What Google really evaluates? – https://www.kopp-online-marketing.com/google-helpful-content
Stellar. Boost SERP rankings with user-first content for SEO. https://www.stellarcontent.com/blog/seo/boost-serp-rankings-with-user-first-content-for-seo/
Thrive. Google’s Helpful Content Now Included in Core Ranking. https://thriveagency.com/news/quality-ranking-googles-helpful-content-now-included-in-core-ranking-system/
Akstar Bristi. Mastering SEO — A Step by Step Guide to Increasing Google Rankings and Get More Website Visitors, https://www.linkedin.com/pulse/mastering-seo-step-guide-increasing-google-rankings-get-aktar-bristy-bb6wc/
Moss 51. How I should write web pages. https://moss51.com/how-to-write-website-content/
Marketing Insider Group. Google Makes It Official: Content Marketing Is Now the #1 Ranking Factor – https://marketinginsidergroup.com/content-marketing/google-makes-it-official-content-marketing-is-now-the-1-ranking-factor/
Saud Akhtar & Jamia Milia Islamia. SEO Secrets Revealed: Techniques for Higher Rankings. https://www.researchgate.net/profile/Saud-Akhtar/publication/377981890_SEO_Secrets_Revealed_Techniques_for_Higher_Rankings/links/65c1d1ec34bbff5ba7ef9a66/SEO-Secrets-Revealed-Techniques-for-Higher-Rankings.pdf
Tim Cameron-Kitchen. How To Get To The Top of Google. https://exposureninja.com/wp-content/uploads/2016/10/How-To-Get-To-The-Top-of-Google-2022.pdf

Relación entre las buenas prácticas DWBP y los principios FAIR

Cláudia Sofia Teixeira dos Santos presentó en enero de 2023 en la Universidade do Minho su tesis de máster ‘OGD Lens: avaliação  automática da qualidade dos dados do European Data Portal’  sobre la evaluación de la calidad de los conjuntos de datos publicados en el portal de datos abiertos de la Unión Europea (sitio web aloja más de millón y medio de conjuntos de datos y 179 catálogos de datos puestos a disposición de la ciudadanía) para proporcionar una guía de mejora de su calidad. Para poder medir esa calidad desarrolló una metodología basada een los siguientes criterios:

criterios de calidad del portal de datos abiertos de la UE
  1. Facilidad de uso con la que los usuarios pueden acceder a los datos y utilizarlos para fines de investigación.
  2. La disponibilidad de los datos en un formato estándar y abierto y la accesibilidad de los conjuntos de datos a través de un repositorio en línea o una página web.
  3. Calidad técnica: la precisión, integridad y consistencia de los datos.
  4. Documentación: la información proporcionada junto con los datos, como la descripción de la fuente de los datos, las limitaciones de uso y la frecuencia de actualización.
  5. Legalidad: la conformidad de los datos con las leyes de privacidad y derechos de autor.

Los metadatos empleados para describir los conjuntos de datos representan una valiosa fuente de información para satisfacer estos niveles de calidad. Por ello, la investigadora llevó a cabo un estudio empírico desarrollando un analizador semiautomático de evaluación de la información aportada por los metadatos en una serie de conjuntos de datos publicados. Los resultados obtenidos mostraron que la calidad de esos conjuntos varía significativamente. En líneas generales tienen una buena facilidad de uso, pero la calidad técnica, la documentación y la legalidad son aspectos que presentan deficiencias significativas.

En cuanto a la facilidad de uso, se dispone de buena información para el acceso a los datos y cómo reutilizarlos. En cambio, en cuanto a la calidad técnica, en muchos conjuntos de datos se carece de información sobre la fuente, las limitaciones de uso y la frecuencia de actualización. En lo relativo a la legalidad, muchos conjuntos no proporcionan información sobre los derechos de autor y la privacidad, lo que puede derivar en un uso inadecuado de los datos.

En este estudio se analizó la calidad de los catálogos y de los conjuntos de datos. Un catálogo de datos es un repositorio que contiene información detallada de los conjuntos de datos disponibles en una organización. Ofrece metadatos sobre los conjuntos de datos: descripción, origen, estructura, formatos, licencias, fechas de actualización. etc. También puede proporcionar información sobre cómo acceder y utilizarlos.

La autora consideró los beneficios derivados del uso de las buenas prácticas DWBP en la gestión de datos en la web que sintetiza Juan Antonio Pastor Sánchez en esta diapositiva.

beneficios de usar las Data Web Best Practices del W3C para gestionar datos en la wev

Y asoció a cada buena práctica la serie de beneficios que se derivaban de su uso. En la siguiente imagen podemos ver un fragmento de la tabla que construyó que afecta a las cinco primeras.

Buena prácticaBeneficios
BP 1: Proporcionar metadatos  Reusabilidad Comprensibilidad Descubribilidad Procesabilidad
BP 2: Proporcionar metadatos descriptivos  Reusabilidad Comprensibilidad Descubribilidad  
BP 3: Proporcionar metadatos estructurales  Reusabilidad Comprensibilidad Procesabilidad
BP 4: Proporcionar información sobre la licencia de los datos  Reusabilidad Confiabilidad
BP 5: Proporcionar información sobre la procedencia de los datosReusabilidad Confiabilidad
Asociación de las DWBP (1 a 5) con sus beneficios de uso (Teixeira dos Santos, 2023, 26-27).

Nosotros hemos sintetizado esa vinculación en la siguiente tabla que nos permite concluir que la reusabilidad es el beneficio (y principio FAIR)l que agrupa a un número mayor de buenas prácticas seguido de la confianza.

BeneficioBuenas prácticas
AccesibilidadBP17, BP18, BP19, BP20, BP21, BP23, BP24, BP32
ComprensiónBP1, BP2, BP3. BP13 , BP15, BP16, BP29, BP31, BP32, BP33
ConectividadBP9, BP10, BP18, BP24
ConfianzaBP4, BP5, BP6, BP7, BP8, BP11, BP15, BP22, BP25, BP26, BP27, BP28, BP29, BP30, BP31, BP32, BP34, BP35
DescubribilidadBP1, BP2, BP9, BP10, BP11, BP24, BP35
InteroperabilidadBP9, BP10, BP15, BP16, BP23, BP24, BP26, BP33
ProcesabilidadBP1, BP3, BP12, BP14, BP15, BP18, BP23, BP24, BP31
ReusabilidadBP1, BP2, BP3, BP4, BP5, BV6, BP7, BP8, BP9, BP10, BP11, BP12, BP13, BP14, BP15, BP16, BP17, BP18, BP19, BP20, BP21, BP22, BP23, BP24, BP25, BP26, BP27, BP28, BP29, BP30, BP31, BP32, BP33, BP34, BP35
Clasificación de las DWBP según beneficio asociado a su uso.

Data web best practices (DWBP by W3C)

El World Wide Consortium (W3C) publicó en 2017 el documento ‘Data on the Web Best Practices: W3C Recommendation(DWBP), una detallada guía para el diseño, publicación y uso de datos enlazados en la web, con el objeto de promover su accesibilidad, interoperabilidad y reutilización.

logo del W3C

Este documento proporciona orientación a los editores de datos en línea sobre cómo representarlos y compartirlos en un formato estándar y accesible. Las prácticas se han desarrollado para fomentar y permitir la expansión continua de la web como medio para el intercambio de datos. El documento menciona el crecimiento en la publicación de datos abiertos por parte de los gobiernos en todo el mundo, la publicación en línea de los datos de investigación, la recolección y análisis de datos de redes sociales, la presencia de importantes colecciones de patrimonio cultural y, en general, el crecimiento sostenido de los datos abiertos en la nube, destacando la necesidad de una comprensión común entre editores y consumidores de datos, junto con la necesidad de mejorar la consistencia en el manejo de los datos.

Estas buenas prácticas cubren diferentes aspectos relacionados con la publicación y el consumo de datos, como son los formatos, el acceso, los identificadores y la gestión de los metadatos. Con el fin de delimitar el alcance y obtener las características necesarias para implementarlas, se recopilaron casos de uso que representan escenarios de cómo se publican habitualmente estos datos y cómo se utilizan. El conjunto de requisitos derivados de esta recopilación se utilizó para guiar el desarrollo de las DWBP, independientes del dominio y la aplicación. Estas recomendaciones pueden ampliarse o complementarse con otros documentos de similar naturaleza. Si bien las DWBP recomiendan usar datos enlazados, también promueven el empleo de otros formatos abiertos como son CSV o json, maximizando más si cabe el potencial de este contexto para establecer vínculos.

CATEGORÍABUENA PRÁCTICA
Metadatos Requisito fundamental. Los datos no podrán ser descubiertos o reutilizados por nadie más que el editor si no se proporcionan metadatos suficientes.BP 1: Proporcionar metadatos
BP 2: Proporcionar metadatos descriptivos
BP 3: Proporcionar metadatos estructurales
Licencias
Según el tipo de licencia adoptada por el editor, puede haber más o menos restricciones a la hora de compartir y reutilizar los datos.
BP 4: Proporcionar información sobre la licencia de los datos
Procedencia
El reto de publicar datos en la web es proporcionar un nivel adecuado de detalle sobre su origen.
BP 5: Proporcionar información sobre la procedencia de los datos
Calidad
Puede tener un gran impacto en la calidad de las aplicaciones que utilizan un conjunto de datos.
BP 6: Proporcionar información sobre la calidad de los datos
Versiones
Los conjuntos de datos pueden cambiar con el tiempo. Algunos tienen previsto ese cambio y otros se modifican a medida que las mejoras en la recogida de datos hacen que merezca la pena actualizarlos.
BP 7: Proporcionar un indicador de versión BP 8: Proporcionar el historial de versiones
Identificadores
El descubrimiento, uso y citación de datos en la web depende fundamentalmente del uso de URI HTTP (o HTTPS): identificadores únicos globales.
BP 9: Utilizar URIs persistentes como identificadores de conjuntos de datos
BP 10: Utilizar URIs persistentes como identificadores dentro de conjuntos de datos
BP 11: Asignar URIs a versiones y series de conjuntos de datos
Formatos
El mejor y más flexible mecanismo de acceso del mundo carece de sentido si no se sirven los datos en formatos que permitan su uso y reutilización.
BP 12: Utilizar formatos de datos estandarizados legibles por máquina
BP 13: Utilizar representaciones de datos neutras respecto a la localización
BP 14: Proporcionar datos en múltiples formatos  
Vocabularios
Se utiliza para clasificar los términos que pueden utilizarse en una aplicación concreta, caracterizar las posibles relaciones y definir las posibles restricciones en su uso.
BP 15: Reutilizar vocabularios, preferentemente estandarizados BP 16: Elegir el nivel adecuado de formalización
Acceso a los datos
Facilitar el acceso a los datos permite tanto a las personas como a las máquinas aprovechar las ventajas de compartir datos utilizando la infraestructura de la red.
BP 17: Proporcionar descarga masiva
BP 18: Proporcionar subconjuntos para conjuntos de datos grandes
BP 19: Utilizar negociación de contenidos para servir datos disponibles en múltiples formatos
BP 20: Proporcionar acceso en tiempo real
BP 21: Proporcionar datos actualizados
BP 22: Proporcionar una explicación para datos que no están disponibles
BP 23: Hacer datos disponibles a través de una API
BP 24: Utilizar estándares web como base de las APIs
BP 25: Proporcionar documentación completa para su API
BP 26: Evitar cambios que rompan su API
Preservación
Las medidas deben tomar los editores para indicar que los datos se han eliminado o archivado.
BP 27: Preservar identificadores
BP 28: Evaluar la cobertura del conjunto de datos
Retroalimentación (‘feedback’)
Ayuda a los editores en la  mejora de la integridad de los datos, además de fomentar la publicación de nuevos datos. Permite a los consumidores de datos tener voz describiendo experiencias de uso.
BP 29: Recopilar comentarios de los consumidores de datos
BP 30: Hacer comentarios disponibles
Enriquecimiento
Procesos que pueden utilizarse para mejorar, perfeccionar los datos brutos o previamente procesados. Esta idea y otros conceptos similares contribuyen a hacer de los datos un activo valioso para casi cualquier negocio o empresa moderna.
BP 31: Enriquecer datos generando nuevos datos
BP 32: Proporcionar presentaciones complementarias
Republicación
Combinar datos existentes con otros conjuntos de datos, crear aplicaciones web o visualizaciones, o reempaquetar los datos en una nueva forma.
BP 33: Proporcionar comentarios al editor original
BP 34: Seguir los términos de la licencia
BP 35: Citar la publicación original
Resumen de las Data Web Best Practices del W3C

Beneficios e incovenientes de las DWBP

Como podemos ver, se trata de unas pautas que precisan de cierto volumen de trabajo y muchas han de ser aplicadas por personas con mucha experiencia. A continuación, resumimos los beneficios y los (posibles) inconvientes de las mismas.

Beneficios:

  1. Interoperabilidad: Las prácticas están diseñadas para asegurar que los datos publicados sean comprensibles y accesibles para una amplia variedad de aplicaciones y sistemas. Esto facilita la integración y el intercambio de datos entre organizaciones y plataformas.
  2. Reutilización: Si se siguen las buenas prácticas, los datos se estructuran coherentemente y se proporcionan metadatos claros. Esto facilita la reutilización de los datos por parte de otros usuarios y organizaciones para crear nuevas aplicaciones, servicios o análisis. Esto fomenta la innovación y la creación de valor.
  3. Calidad de los datos: Las buenas prácticas promueven la calidad de los datos al definir estándares para la representación y la semántica de los datos. Esto reduce los errores y las ambigüedades en los datos publicados, mejorando la confiabilidad y la precisión de la información.
  4. Accesibilidad: Un seguimiento de las buenas prácticas asegura que los datos estén disponibles y sean accesibles para un público amplio, incluyendo personas con discapacidades. Esto promueve la inclusión y garantiza que los datos estén disponibles para todos los usuarios, independientemente de sus necesidades.
  5. Indexación y búsqueda: Los motores de búsqueda comprenden mejor e indexan más eficazmente los datos que siguen las DWBP. Esto mejora su encontrabilidad, aumentando la visibilidad de los datos en los resultados, lo que aumenta su alcance y utilidad.
  6. Transparencia: Publicar datos según estándares abiertos y transparentes, se promueve la transparencia y la rendición de cuentas. Esto es especialmente importante en los datos de las administraciones públicas y también en datos científicos, donde la accesibilidad a los conjuntos de datos es esencial para la toma de decisiones informadas y la supervisión.
  7. Facilita la colaboración: Estas buenas prácticas fomentan la colaboración entre organizaciones y comunidades al proporcionar un marco común para compartir datos. Esto es especialmente útil en proyectos de colaboración donde múltiples partes necesitan compartir y trabajar con datos de manera eficiente.

Posibles inconvenientes

  1. Coste: Implementar las DWBP puede requerir inversiones significativas en recursos humanos y tecnológicos, lo que es un problema para organizaciones con presupuestos limitados.
  2. Complejidad: Algunas de las mejores prácticas del W3C resultan técnicamente complejas de implementar, especialmente para personas u organizaciones sin experiencia previa en estándares web y tecnologías relacionadas.
  3. Cumplimiento: Asegurarse de cumplir con todas las directrices y recomendaciones puede ser un desafío, y el incumplimiento podría afectar la efectividad de la publicación de datos.
  4. Adopción: No todas las organizaciones y comunidades pueden estar dispuestas o capacitadas para adoptar estas prácticas de inmediato. Esto puede limitar la interoperabilidad y la reutilización de datos.
  5. Seguridad y privacidad: La publicación de datos ha de hacerse con precaución para evitar la divulgación de información sensible o privada. El cumplimiento de las normativas de protección de datos es esencial y requiere un esfuerzo adicional.
  6. Actualización continua: Mantener los datos actualizados y en conformidad con las buenas prácticas puede ser un verdadero desafío a largo plazo. Esto va a precisar de dedicación y recursos continuos.
trabajando con buenas prácticas de datos en la web

En resumen, publicar datos siguiendo las Data Web Best Practices del W3C ofrece numerosos beneficios en términos de interoperabilidad, reutilización de datos, calidad de datos, accesibilidad y transparencia. Sin embargo, también conlleva inconvenientes relacionados con el costo, la complejidad, el cumplimiento, la adopción, la seguridad y la privacidad, así como la necesidad de mantener los datos actualizados. Seguir estas mejores prácticas va a depender de los objetivos y recursos de la organización y de su compromiso con la calidad y la accesibilidad de los datos a publicar.

En otras entradas seguiremos hablando de buenas prácticas y conjuntos de datos, algo preciso para llegar a la Ciencia Abierta.

‘Data steward’, ‘Data research analyst’: perfiles profesionales para la gestión de información

Photo of a data steward in an office, a South Asian female in her late 20s, intently reviewing data on a secure computer terminal that displays complex encryption algorithms. The room has high-security features like a secure card access point and surveillance cameras, with posters on the wall emphasizing data privacy and cybersecurity best practices. She is also seen advising a colleague on data protection measures, illustrating the use of secure databases.

Un ‘data steward‘ es un perfil profesional de una organización cuya tarea principal es garantizar la calidad, disponibilidad, seguridad y usabilidad de los conjuntos de datos producidos o gestionados.

Esta función es esencial en el marco de la gestión de datos empresariales (Enterprise Data Management, EDM), especialmente en una era tan digitalizada como la nuestra, en la que los datos se consideran un activo vital para muchas organizaciones. Entre las tareas y responsabilidades específicas de estos profesionales destacan:

  1. Garantizar la calidad de los datos: asegurar que sean precisos, consistentes, completos y estén actualizados. Esto puede implicar la validación de la entrada de datos, la resolución de discrepancias y la implementación de protocolos para eliminar datos duplicados o irrelevantes.
  2. Gobernanza de datos: consiste en implementar y supervisar políticas y procedimientos que garanticen la correcta gestión de los datos. Esto puede incluir estándares de nomenclatura, estructuras de clasificación y reglas de retención de datos.
  3. Seguridad: trabajar junto con el equipo de seguridad para proteger los datos de accesos no autorizados o violaciones de datos. Esto puede incluir la garantía de cumplimiento de las leyes y de las regulaciones de privacidad y protección de datos.
  4. Facilitar el acceso a los datos: el administrador de datos puede trabajar para garantizar que estos sean fácilmente accesibles para los usuarios autorizados dentro de la organización, y que se utilicen de manera efectiva para tomar decisiones empresariales.
  5. Educación y soporte: los administradores de datos pueden ser responsables de formar a otros miembros de la organización en la importancia de la gestión de datos, cómo acceder y usar los datos correctamente, y la importancia de mantener la calidad y seguridad de los datos.
'stewards' es un partido de fúrbol
‘stewards’ en un partido de fútbol

Las personas encargadas de estas tareas suelen tener fuertes habilidades en análisis y gestión de datos, así como un profundo conocimiento de las leyes y regulaciones que se aplican a los datos en su industria. También deben tener habilidades de comunicación sólidas para trabajar con otros departamentos y ayudar a fomentar una cultura de gestión de datos eficaz en toda la organización. Algo más cercanos a las organizaciones de investigación aparece el perfil profesional ‘data research analyst‘ (analista de investigación de datos), función que si bien es diferente de la anterior. también es crucial en el manejo y análisis de información en una organización.

Similitudes y diferencias

Como perfiles diferentes que son, comparten algunas similitudes y presentan diferencias importantes en cuanto a sus responsabilidades y enfoques.

Similitudes:

  1. Uso y manejo de datos: en ambos perfiles profesionales se trabaja intensivamente con datos. Los profesionales deben ser competentes en la interpretación de datos, la identificación de patrones y tendencias y tener una comprensión sólida de las herramientas y sistemas de manejo de datos.
  2. Importancia de la calidad de los datos: los dos roles comprenden la importancia de la calidad de los datos para obtener resultados precisos. Por lo tanto, pueden involucrarse en actividades para garantizar que los datos sean precisos, completos y actualizados.
  3. Colaboración interdepartamental: ambos roles a menudo trabajan en colaboración con otros departamentos para garantizar que los datos se utilicen efectivamente en toda la organización.

Diferencias:

  1. Enfoque principal: un administrador de datos se centra más en la gestión y gobernanza de los datos, asegurando su calidad, disponibilidad, seguridad y cumplimiento con las regulaciones. Un analista de investigación enfoca su interés más hacia el análisis de los datos, utilizando técnicas estadísticas y algoritmos para extraer ‘insights‘ (revelaciones o descubrimientos que proporcionan una nueva comprensión sobre un fenómeno o problema) que pueden ayudar en la toma de decisiones.
  2. Uso de datos: mientras un administrador de datos está más preocupado por cómo se almacenan, se protegen y se accede a los mismos, un analista de investigación está más preocupado por cómo se pueden utilizar para generar valor para la organización.
  3. Responsabilidades: el administrador de datos se involucrado más en profundidad con el establecimiento de políticas y estándares, con asegurar la seguridad de los datos y garantizar el cumplimiento con las regulaciones. Un investigador de datos se centra más en recoger, procesar y realizar un análisis detallado de los datos para apoyar los objetivos de la organización.

Es importante recordar que, aunque estos perfiles profesionales pueden tener responsabilidades diferentes, pueden llegar a trabajar en estrecha colaboración para garantizar que los datos se manejen de manera efectiva y se utilicen para impulsar el éxito de las organizaciones, especialmente aquellas que generen datos que puedan ser base de investigaciones que no todas tienen que ser fruto de trabajo en laboratorio (datos de tráfico, de logística empresarial, de precipitaciones de lluvia, etc.).

Necesidades formativas

La formación necesaria para convertirse en un administrador o en un analista investigador puede variar según las necesidades específicas de cada sector en general y de cada organización en particular. Sin embargo, en términos generales, podemos atrevernos a establecer algunos ámbitos de estudio y un conjunto de habilidades relevantes que estos profesionales van a necesitar:

Administrador de datos:

  1. Educación: está bien contar con un título en Informática, Estadística, Ingeniería de Datos, Ciencia de Datos o de Gestión de la Información. Estos títulos proporcionan una base sólida para este desempeño. En algunos casos puede ser interesante combinar un grado en una de esas disciplinas con un máster más especializado.
  2. Habilidades técnicas: una comprensión sólida del paradigma de las bases de datos relaciones. dominio del lenguaje SQL y de otras herramientas de gestión de datos es esencial. El conocimiento de la arquitectura de datos también puede ser interesante.
  3. Conocimiento de la gobernanza de datos: lo que representa entender las políticas, procedimientos, estándares y regulaciones que se aplican a la gestión de datos.
  4. Conocimiento de la seguridad de datos: esto incluye conocer las mejores prácticas para proteger los datos y mantener su privacidad, así como las leyes y regulaciones de protección de datos aplicables en cada caso.
  5. `Soft skills‘: las habilidades de comunicación son vitales para trabajar con otros departamentos y promover una cultura de gestión de datos efectiva. Las habilidades de gestión de proyectos también pueden ser útiles.

Data Research Analyst:

  1. Educación: un título en Estadística, Matemáticas, Economía, Ciencia de Datos, o un campo relacionado sería lo más apropiado. Combinar grados genéricos con máster especializados también es una opción.
  2. Habilidades técnicas: son esenciales la programación informática en Python o R (por ejemplo), el análisis de datos, y el dominio de técnicas estadísticas. También es útil tener experiencia con las herramientas de visualización de datos y software de análisis de datos (Tableau o SPSS por ejemplo).
  3. Habilidades de investigación: estas incluyen la capacidad de formular preguntas de investigación, diseñar estudios, recoger y analizar datos, y presentar los resultados de una manera clara y comprensible.
  4. Soft skills’: también son importantes las habilidades de comunicación para presentar hallazgos y trabajar con otros equipos. La capacidad de pensar críticamente y resolver problemas también es esencial.

Ambos roles podrían beneficiarse de la formación continua y la certificación en herramientas y técnicas específicas de gestión y análisis de datos.

El «cuadrante mágico» de Gartner de la gestión de contenidos.

cuadrante mágico de Gartner de la gestión de contenidos 2019

Este post puede parecer contradictorio con el dedicado al liderazgo de WordPress en el mundo de los CMS porque vamos a comentar el ya clásico estudio de Gartner Group sobre lo que ellos llaman «plataformas de gestión de contenidos», si bien emplean en inglés el acrónimo WCM (‘web content management’) que es abreviatura de WCMS de donde «sale» el más utilizado CMS.

Para esta consultora, la gestión de contenido web (WCM) es el proceso de creación, gestión y entrega de contenido a través de uno o más canales digitales mediante el uso de soluciones de gestión específicas basadas en un repositorio central. Estas soluciones pueden ser productos comerciales, herramientas de código abierto, servicios en la nube o servicios alojados. Estos sistemas hacen algo más que publicar páginas web, también incluyen:

  • Funciones de creación de contenido, como plantillas, flujo de trabajo y gestión de cambios.
  • Repositorios que organizan y proporcionan metadatos sobre el contenido.
  • Servicios de biblioteca, como ‘check-in / check-out’, control de versiones y seguridad.
  • Funciones de gestión del sitio web, como diseño, menús y navegación.
  • Funciones de despliegue de contenido
  • Capacidades de personalización y análisis.
  • La capacidad de integrarse bien, a través de API, con tecnologías adyacentes como plataformas de comercio digital, plataformas de redes sociales, plataformas de automatización de marketing y plataformas de experiencia digital más amplias (DXP).

Es precisamente esta última funcionalidad la que «aleja» el estudio de Gartner del común de los mortales (y por tanto, del post anterior) porque se centra más en los sistemas que permiten gestionar contenidos para la web y/o intranets de grandes organizaciones que manejan varios miles de páginas web (además de una amplia cantidad de contenidos editados en otros formatos digitales).

El resultado del estudio de fecha de julio de 2019 muestra el siguiente «cuadrante mágico»:

cuadrante mágico de Gartner de la gestión de contenidos 2019

En otro post comentaremos las fortalezas y debilidades de los sistemas evaluados y cuáles han sido los criterios empleados. En este vamos a dejar el gráfico y también qué significan las cuatro áreas en las que se divide «el cuadrante».

Líderes (‘leaders’)

Los líderes deben impulsar la transformación del mercado. Tienen los puntajes combinados más altos para la capacidad de ejecución y la integridad de la visión global de la gestión de contenidos. Les está yendo bien y están preparados para el futuro con una visión clara y una profunda apreciación del contexto más amplio de los negocios digitales. Tienen socios de canal fuertes, presencia en múltiples regiones, desempeño financiero consistente, soporte de plataforma amplia y buen soporte al cliente. Además, dominan en una o más tecnologías o mercados verticales. Los líderes son conscientes del ecosistema en el que deben ajustarse sus ofertas. Los líderes pueden:

  • Demostrar implementaciones empresariales.
  • Ofrezca integración con otras aplicaciones comerciales y repositorios de contenido.
  • Soporta múltiples contextos verticales y horizontales.

Retadores (‘challengers’)

Los retadores son vendedores sólidos que pueden desempeñarse bien para muchas empresas, pero pueden carecer de una visión para guiar a sus clientes en el futuro. Pueden tener un producto WCM fuerte pero una estrategia de producto que no refleja completamente las tendencias del mercado. Se podría dar el caso de poner un énfasis insuficiente en la creciente importancia del contexto del usuario, la producción multicanal y la interoperabilidad con tecnologías adyacentes (como las de CRM, DAM y gestión de campañas multicanal).

Visionarios (‘visionaries’)

Los visionarios son progresistas y están técnicamente enfocados. Generalmente pueden establecer la dirección del mercado a través de la innovación y el desarrollo de productos. Para convertirse en líderes deben mejorar algunos de los aspectos centrales de sus ofertas y ecosistemas comerciales aumentando su capacidad de ejecución. También pueden necesitar desarrollar su fortaleza financiera, amplitud funcional, servicio y soporte, cobertura geográfica y canales de ventas y distribución. Su evolución puede depender de la aceptación de una nueva tecnología o del desarrollo de asociaciones que complementen sus puntos fuertes.

Jugadores de nicho (‘niche players’)

Los jugadores especializados en un nicho se centran en un segmento particular del mercado, según lo definido por características como el tamaño del cliente, la industria y la complejidad del proyecto. Esta estrechez de enfoque puede ser beneficiosa para las organizaciones alineadas con su nicho, pero puede afectar negativamente su capacidad para innovar o expandir su negocio. Los jugadores de nicho a menudo solo admiten aquellas aplicaciones que se aplican a los segmentos en los que se centran.