blog

Entrada incluída en el blog de javima.info

Escribir en la web «para» las gramáticas generativas LLM: el paradigma GEO

¿Por qué GEO?

Hace unos días escuché a unas de las personas que se presenta a las elecciones al rectorado de la Universidad de Murcia comentar en una entrevista en un podcast que quizá estábamos escribiendo páginas web bajo el paradigma equivocado porque son muchos los usuarios que emplean las gramáticas generativas IA tipo chatGPT, Gemini, Claude, Perplexity, etc. para recuperar información en lugar de los motores de búsqueda tradicionales y podemos preparar nuestras entradas de forma optimizada para esta nueva tecnología, avanzando desde el SEO hasta el GEO (siglas de ‘Generative Engine Optimization‘).

Desde entonces vengo preguntándome sobre esta cuestión y voy a decicar algunas entradas (redactadas en el formato «tradicional» de este blog, pero intentando tomar nota de algunas de las recomendaciones que he encontrado al respecto) a esta cuestión.

Claves del cambio de paradigma

Sabemos que los buscadores tradicional devuelven listas de enlaces a partir de palabras clave y la correspondencia entre esas palabras y el contenido de las páginas web. Una gramática generativa LLM devuelve respuestas construidas a partir de fragmentos de información. Esta diferencia es substancial y deja claro que estamos comparando tecnologías diferentes. Ahora, sin dejar de conferir importancia a la entrada en sí misma como unidad, para las gramáticas generativas resulta más trascendente que el contenido pueda ser reutilizado como una unidad de conocimiento.

1. Credibilidad: si no es verificable, no sirve.

Los modelos generativos priorizan contenidos en los que se puede “confiar”, prefieren textos con fuentes identificables, contenidos con datos concretos y de autoría clara, como se comprueba en esta búsqueda en el modo IA de Google:

Ejemplo de búsqueda en el "modo IA" de Google.
Ejemplo de búsqueda en el «modo IA» de Google.

Además de elaborar un resumen para responder a la cuestión, muestra en la parte derecha de la pantalla las fuentes de información que le sirven de soporte. Entre los criterios que necesitamos los autores para ganarnos esa «confianza» destacan:

  • citar informes, artículos o datasets
  • incluir cifras, porcentajes o resultados medibles
  • indicar quién escribe y cuándo

Está claro que cuanto más verificable sea nuestro contenido, más probable es que sea reutilizado. Esto es algo habitual en el mundo científico al escribir un artículo, el mismo debe apoyarse en fuentes de autoridad contrastada que terminan confiriéndole a nuestro trabajo la calidad suficiente para ganar calidad en el seno de la comunidad científica. Esto no es frecuente en la web actual. Por cierto, he usado viñetas en lugar de escribir en un párrafo los criterios «de confianza» para las gramáticas LLM, lo he hecho porque esa forma de exponer el contenido también les parece interesante.

2. Estructura: escribir pensando en fragmentos, no en páginas.

Las gramáticas generativas no “leen artículos”, trabajan con fragmentos (‘chunks‘). Los autores podemos, fácilmente, ayudar a ello usando los encabezados (H1, H2, H3, …) de una forma clara y consistente (de hecho, cualquiera que siga este blog verá que hay más encabezados que de costumbre, antes no hacía tanto uso de ellos). Dividir el contenido en bloques pequeños y evitar referirnos a esos bloques (párrafos) con expresiones ambiguas del estilo de “esto último permite” o “lo anterior indica” servirá para aumentar el interés de esas gramáticas hacia nuestra entrada web, esto no contradice para nada lo que hemos venido haciendo hasta ahora. La novedad fundamental reside en estructurar en formato pregunta–respuesta estos fragmentos de información, por ejemplo:

Formato de redacción "pregunta-respuesta" en una entrada web.
Formato de redacción «pregunta-respuesta» en una entrada web.

Este tipo de bloques de contenido encaja perfectamente con cómo funcionan los sistemas RAG (Retrieval-Augmented Generation), técnica que mejora la precisión de los modelos LLM en la consulta de fuentes de datos externos.

3. Claridad: menos retórica, más información.

Para un lector humano, cierto grado de estilo es positivo, aunque siempre se ha comentado que la web no es el lugar para perífrasis y circunloquios. Para una gramática generativa LLM lo importante es encontrar contenidos con:

  • frases claras
  • conceptos explícitos
  • poca ambigüedad

Asím funciona mejor la frase «Un eclipse solar ocurre cuando la Luna bloquea la luz del Sol desde la Tierra” que el texto «Este fenómeno sucede cuando se alinean ciertos cuerpos celestes”. Redactar sencillo genera contenido de fácil comprensión y mayor reutilización. La clave es la densidad informativa (cuánta información útil y concreta hay en una frase o texto en relación con su longitud).

4. Metadatos para ayudar a las máquinas a entender el contenido.

Si bien no es obligatorio, añadir metadatos estructurados, lo cierto es que ayuda bastante. Aquí entramos en el territorio de Schema.org y de los datos estructurados que sirven para indicar (entre otras cosas):

  • tipo de contenido (artículo, dataset, etc.)
  • autor
  • fecha
  • tema

Este enriquecimiento de los sitios web con microdatos reduce la ambigüedad del texto y mejora la interoperabilidad con sistemas externos. En este caso, esto es positivo tanto para las gramáticas generativas como para la recuperación de información tradicional.

5. Pensar en RAG: cómo “leen” realmente estos sistemas.

Muchos sistemas actuales combinan modelos de lenguaje con recuperación de información RAG. Esto implica:

  1. el contenido se fragmenta
  2. el contenido se convierte en vectores (‘embeddings‘)
  3. del contenido se van a recuperar los fragmentos más relevantes
  4. el modelo genera la respuesta

Lo cierto es que los autores no podemos controlar este proceso, pero sí facilitarlo por medio de:

  • bloques de contenido de tamaño medio (ni demasiado largos ni demasiado cortos)
  • repetir ligeramente conceptos clave (sin forzar)
  • responder preguntas que el usuario realmente haría

Lo cierto es que las dos primeras recomendaciones también son válidas para la recuperación de información tradicional, es la tercera (que ya hemos adelantado) la que representa una novedad: escribir pensando en preguntas concretas.

6. Qué ya no funciona (o funciona peor)

Algunas prácticas del SEO clásico pierden sentido aquí:

  • keyword stuffing (uso excesivo de palabras clave) → irrelevante o incluso perjudicial
  • textos largos sin estructura → difíciles de reutilizar
  • contenido genérico sin datos → baja probabilidad de uso

Tanto el exceso de palabras clave como la desestructuración de los textos sabemos desde hace tiempo que estaba penalizado en la recuperación de información clásica. En el contexto GEO podemos considerar su abolición como una premisa. En GEO, más no es mejor: mejor es mejor.

Resumiendo …

Todo esto se puede resumir así en una frase corta: «No escribas páginas. Diseña unidades de conocimiento«. Para ello, debemos seguir, como mínimo, esta serie de pasos:

  1. Hacer el contenido verificable (fuentes, datos, autoría).Q
  2. Estructurar el texto en bloques claros (mejor si son preguntas y respuestas).
  3. Escribir de forma explícita y sin ambigüedades.
  4. Facilitar la fragmentación del contenido (‘chunking’).

La optimización del contenido para las gramáticas generativas no sustituye completamente al SEO, lo que hace es añadir una nueva capa.

Para finalizar, le he pedido a Google Notebook LLM que prepare un pequeño vídeo para mostrar la transición del SEo al nuevo paradigma GEO a `partir de algunas de las fuentes que hemos empleado para preparar esta entrada. Creo que ha quedado interesante.

Del SEO al GEO: algunas pistas básicas.

Cuando el diseño web por delante del modelado de contenido

Aprovecho que estoy preparando las clases de esta semana en la asignatura «Sistemas de Gestión de Contenidos» del 2º curso del grado en Gestión de Información y Contenidos Digitales para reflexionar brevemente sobre una cuestión: ¿qué pasa cuando se dedica muchas horas a un diseño «muy visual» del sitio web con nuestro CMS y «pasamos» un poco (o un bastante) del modelado del contenido?.

Vemos qué pasa cuando se dedica muchas horas a un diseño "muy visual" del sitio web con nuestro CMS y "pasamos" un poco (o un bastante) del modelado del contenido.

No es raro encontrarnos sitios web donde se ha puesto todo el interés en un diseño visual muy atractivo que atrae, sin duda alguna, a nuevos usuarios pero que, a nivel de modelado de contenidos, presenta graves problemas. Cuando el diseño va por delante, nos centramos en el desarrollo de unas plantillas visuales espectaculares, animaciones, banners y carruseles de diapositivas de gran calidad visual, maquetación de la interfaz web atractiva, todo ello dentro de una gran coherencia visual (el «tema» del CMS).

cosas que pasan cuando se dedica poco esfuerzo al modelado de contenidos en el desarrollo de un sitio web

Si el sitio web no va más allá de un blog, un pequeño catálogo de productos o una pequeña web institucional, no se plantearían muchos problemas. En estos casos, puede resultar suficiente con los tipos de contenido base «página» y «entrada» (‘post’), con introducir las fechas en formato de texto libre («12/06/2025» o «12-jun-26», a elección del usuario incluso), no tener normalización alguna de cómo introducir el nombre de un autor de un libro («Juan Antonio Pérez López» o «Juan A. Pérez López» o «Pérez López, Juan Antonio»), que la taxonomía del sitio web no esté muy trabajada (o sin trabajar directamente, dejando a los usuarios construirla sin consistencia alguna) y, finalmente, no existe relación entre tipos de contenido específicos (básicamente por su escasez o ausencia). En definitiva, mucho diseño y poca gestión de información, algo parecido a lo que le está ocurriendo ahora al equipo Aston Martin de F1, que ha contratado un «mago» del diseño como Adrian Newey y unos motores Honda que no son capaces de llevar a cabo quince vueltas seguidas a un circuito.

En estos sitios web, poco más se puede hacer que navegar por las distintas secciones, usar el buscador o esperar que la nube de etiquetas esté construida con algún criterio. Si quisiéramos consultar un histórico de «actividades culturales»desarrolladas en el último año, tendríamos el problema de que no existe ese tipo de contenido específico y que, además, la búsqueda por fechas puede resultar complicada al no esta normalizado el formato de entrada.

El CMS termina convirtiéndose casi en un editor de texto "glorificado".

La solución suele terminar siendo manual, se copia contenido de entradas que recuperamos (manualmente casi siempre) de la web para pegarlo en listas elaboradas a mano (como si trabajáramos con el editor de texto normal, de ahí el apelativo de «glorificado» de la imagen). El resultado final es escasa y frágil agregación de contenidos (poco se puede extraer por medio de consultas automáticas), mucho trabajo repetitivo, algo que debería obviar el uso de un CMS, produciéndose una situación de «deuda técnica», algo parecida a la que Honda tiene ahora con la escudería Aston Martin y con todos los aficiones a la Fórmula 1 que ven que Fernando Alonso difícilmente podrá aspirar a un podio en esta su última temporada (o no) en los circuitos.

Esperemos que el CMS no nos lleve a acompetircon un coche normal en las carreras. Para ello hace falta modelado, metadatos, relaciones, agregación y diseño reutilizable.

Siguiendo con esta metáfora, hay que intentar que el diseño del CMS no nos obligue con un coche normal en las carreras. Para ello hace falta modelado de contenido adeucado, metadatos bien definidos, relaciones entre tipos de contenidos, vistas del contenido a partir de agregación, todo ello en un marco de diseño web útil y reutilizable.

El «contrato para la web» de Berners-Lee

entrada actualizada

Actualizo una entrada de noviembre en 2019 sobre el «Contrato para la Web» que puso en marcha el inventor de todo esto, Sir Tim Berners-Lee, para intentar asegurar que internet debe seguir siendo un bien público para toda la sociedad.

fragmento del contrato para la web de Sir Tim Berners Lee

«La web se diseñó para unir a la gente y hacer que el conocimiento fuese accesible para todos y todas. Ha cambiado el mundo para bien y ha mejorado la vida de miles de millones de personas. Sin embargo, todavía hay muchas personas que no pueden acceder a sus ventajas y muchas otras para las que la Web supone un coste demasiado elevado.

Todos tenemos un papel que cumplir a la hora de salvaguardar el futuro de la Web. Los representantes de más de 80 organizaciones redactaron el Contrato para la Web en nombre de gobiernos, empresas y la sociedad civil. En él se establecen los compromisos que deben guiar las políticas digitales. Con el fin de alcanzar los objetivos del Contrato, los gobiernos, las empresas, la sociedad civil y las personas deben comprometerse con el desarrollo sostenido de dichas políticas, así como con la defensa y la implementación de este texto».

Así presentaba en el año 2019 Sir Tim Berners-Lee, el inventor de la web, su iniciativa llamada «Contrato para la Web«. El objeto de la misma era garantizar que todos tenemos acceso a ella, no solo las personas que viven en países donde el nivel de vida lo permitiera y el gobierno sea democrático. La idea de Berners-Lee iba en la línea de conseguir el verdadero acceso universal a «su criatura», la que propuso casi de escondidas a sus jefes del CERN hace más de 30 años.

Este contrato se estructuraba en 9 principios básicos que presentamos de forma resumida:

  1. Asegurarse de que todo el mundo pueda conectarse a internet para que cualquier persona, independientemente de quién sea o dónde viva, pueda participar de forma activa en la red.
  2. Hacer que la totalidad de internet esté disponible en todo momento para que a nadie se le niegue el derecho a disfrutar de un acceso completo a la red.
  3. Respetar y proteger los derechos básicos de las personas sobre sus datos y su privacidad en la red para que todo el mundo pueda usar Internet libremente de forma segura y sin miedo.
  4. Hacer que el acceso a internet sea asequible y accesible para todo el mundo para que nadie quede excluido del uso y el desarrollo de la web.
  5. Respetar y proteger la privacidad y los datos personales, con el fin de generar confianza en la red para que las personas tengan el control sobre sus vidas en Internet y que cuenten con opciones claras y relevantes en lo relativo a sus datos y su privacidad.
  6. Desarrollar tecnologías que promuevan lo mejor de la humanidad y contribuyan a mitigar lo peor para que la web sea realmente un bien público en donde prevalezca el interés de las personas.
  7. Crear y colaborar en la web para que la web tenga un contenido rico y relevante para todos.
  8. Construir comunidades sólidas que respeten el discurso civil y la dignidad humana para que todo el mundo se sienta seguro y bienvenido en la red.
  9. Luchar por la web para que siga siendo abierta y un recurso público global para las personas de todo el mundo, ahora y en el futuro.

Estos principios afectan («reclaman» más bien) a gobiernos, empresas y ciudadanos. Están dirigidos a gran parte (a lo mejor a toda) de la sociedad actual. Asegurar que la red tenga infraestructura suficiente, que el acceso sea lo más barato posible, que se respeten los derechos de los usuarios y que su uso esté dirigido a mejorar a las personas, son causas por las que vale la pena postularse, más allá de rellenar el formulario de adhesión y hacer clic con el dedo en la pantalla del teléfono.

Actualización a fecha de 2026.

Portada de la declaración por el futuro de la internet
Portada de la declaración

Al momento de su lanzamiento, gobiernos como Francia y Alemania se sumaron a la iniciativa.  El gobierno alemán anunció su apoyo a la iniciativa en noviembre de 2018, destacando internet como un «bien público» y un derecho fundamental que debe ser protegido, asegurando el acceso para todos y respetando la privacidad. El gobierno francés también se adhirió a la iniciativa en términos similares. Además, la Unión Europea se ha alineado estrechamente con los principios básicos dictados por Berners-Lee, al igual que los esfuerzos conjuntos de Estados Unidos y otros 60 países firmantes de la «Declaración para el Futuro de Internet«, que busca un internet abierto, seguro y libre. Países como Ghana y Brasil han tenido intervenciones directas apoyadas por la Web Foundation para mejorar la asequibilidad y los derechos digitales. 

Cartel de Women's Right Online

En el caso brasileño, apoyó activamente el desarrollo y aprobación del Marco Civil da Internet en Brasil, considerado el primer «proyecto de ley de derechos» de internet en el mundo. Esta legislación consagraba derechos fundamentales como la neutralidad de la red, la privacidad y la libertad de expresión. En Ghana, la fundación trabajó para abordar la brecha digital, particularmente la brecha de género, a través de la red Women’s Rights Online (WRO). Esto incluye la promoción de políticas de TIC que sean sensibles al género, fomentando el acceso a internet asequible y garantizando los derechos digitales de las mujeres.

Las políticas públicas influenciadas por el contrato se centran en los tres pilares de gobierno del documento:

  • 1. Asegurar la conectividad (acceso): Políticas destinadas a reducir la brecha digital y garantizar que todo el mundo pueda conectarse a internet, haciendo que sea asequible y accesible.
  • 2. Mantener la red abierta (neutralidad y disponibilidad): Normativas que prohíben el cierre o la censura total de internet por parte de los gobiernos.
  • 3. Respetar la privacidad y datos (gobernanza): Políticas alineadas con el cumplimiento de derechos de datos, similares al RGPD (Reglamento General de Protección de Datos) en la UE. 

Principales aliados tecnológicos:
Más de 150 organizaciones respaldan la iniciativa, incluyendo grandes tecnológicas como Google, Facebook (Meta), GitHub, Reddit y DuckDuckGo, que han ajustado sus políticas de producto a estos principios. 

Para finalizar, queremos recordar que el contrato no es solo una aspiración, es una verdadera «hoja de ruta» para políticas concretas para asegurar que internet siga siendo una herramienta para el bien público.

¿Recuperamos información o datos?

Nota de actualización de entracda antigua en el blog

Actualizo una entrada antigua de este blog que escribí en el año 2006 sobre la cierta confusión existente sobre si, en una búsqueda, recuperamos información o datos. Vamos a ver cómo queda.

En el campo de la recuperación de información (‘information retrieval‘), casi al principio de la disciplina, era normal encontrar autores que empleaban la expresión «recuperación de datos» cuando en realidad de lo que estaban hablando era de recuperar información. Teniendo en cuenta las fechas de lasque hablamos (años 80, cuando el tecnopop), Esto se debía, fundamentalmente, a una clara influencia de la terminología informática, disciplina cuya rapidísima evolución llevó a muchos autores a cometer el error de considerar sinónimos ambos conceptos, llegándose a olvidar, como afirmaba Brookes, que se puede recuperar información sin emplear procedimientos informáticos (hecho indiscutible aunque no sea lo más común hoy en día, evidentemente).

Portda del Diccionaro MacMillan de Tecnologías de la Informació

El frecuente y necesario empleo de una tecnología no sustituye la obligatoriedad de utilizar adecuadamente los conceptos terminológicos. Un ejemplo de este desacierto lo hallamos en el Glosario ALA que define “information retrieval” como “recuperación de la información» en su primera acepción y como “recuperación de datos” en una segunda, considerando sinónimos ambos términos en lengua inglesa. De parecida opinión es el Diccionario Mac Millan de Tecnología de la Información, que considera la recuperación de información como el conjunto de “técnicas empleadas para almacenar y buscar grandes cantidades de datos y ponerlos a disposición de los usuarios”.

Afortunadamente, es mayor el grupo de autores que establecen diferencias entre ambos conceptos. Entre ellos destaca Meadow, para quien la recuperación de la información es “una disciplina que involucra la localización de una determinada información dentro de un almacén de información o base de datos”. Este autor establece de forma implícita una ligazón entre recuperación de información y el concepto de «selectividad» a la hora de presentar esa información al usuario siguiendo algún tipo de criterio discriminatorio (selectivo por tanto) entre una gran colección de documentos. Meadow marca un poco más estas diferencias, al afirmar que no es lo mismo la recuperación de información entendida como traducción del término inglés information recovery que cuando se traduce el término information retrieval, porque “en el primer caso no es necesario proceso de selección alguno”. Pérez-Carballo Strzalkowski refuerzan esta idea afirmando que “una típica tarea de la recuperación de información es traer documentos relevantes desde una gran archivo en respuesta a una pregunta formulada por un usuario y ordenar estos documentos de acuerdo con su relevancia.

Grossman y Frieder indican que la recuperación de información es “hallar documentos relevantes, no encontrar simples correspondencias a unos patrones de bits”. De similar criterio es el W3C que define recuperar información como “dado un conjunto de documentos y una pregunta, encontrar el conjunto de documentos más relevantes con la pregunta”.

En clase, explico a mis estudiantes que, en la recuperacíón de datos, las preguntas son altamente formalizadas y la respuesta  es directamente toda la información deseada. Así, “recuperar los títulos de los libros escritos por Jorge Luis Borges en la década de los 50” sería la ecuación “SELECT titulo WHERE autor=’Jorge Luis Borges’ AND fecha>1949  AND fecha<1960”. Otra pregunta fácil es saber cuántos ciudadanos de Murcia tienen alguna multa de tráfico sin abonar al Ayuntamiento de la ciudad y cuánto totaliza esa deuda para las arcas municipales. Nos movemos en un paradigma determinista, el territorio del modelo relacional de bases de datos. También les explico que en la recuperación de información, las preguntas son más difíciles de trasladar a un lenguaje formal y la respuesta es un conjunto de documentos que probablemente contendrá la información deseada, siempre con un factor de cierta indeterminación. En este modelo, el territorio de los SRI, La consulta sería, por ejemplo, «Obras Borges década 50”.

Foto de C.J: Rijsbergen, de la Universidad de Glasgow

El gran profesor ‘Keith’ Rijsbergen establece en la siguiente tabla las diferencias entre recuperar datos e información:

Diferencias entre recuperación de datos y recuperación de información según Keith Risjbergen

Finalizo siempre esta cuestión presentando la siguiente cita de Ricardo Baeza-Yates:

dada una necesidad de información (consulta + perfil del usuario + … ) y un conjunto de documentos, ordenar los documentos de más a menos relevantes para esa necesidad y presentar un subconjunto de aquellos de mayor relevancia

¿Sigue este tema vigente?

Creo que esta distinción conceptual sigue siendo especialmente pertinente hoy en día. Si se observa la evolución reciente de los sistemas de búsqueda y acceso a la información. Las tecnologías actuales —como la búsqueda semántica, el uso de representaciones vectoriales (embeddings) o los modelos de lenguaje de gran tamaño (LLMs)— no han eliminado el problema clásico de la recuperación de información, sino que han añadido nuevas capas de complejidad. Estos sistemas ya no se limitan a la coincidencia literal entre términos (‘matching‘), sino que operan sobre representaciones semánticas del contenido, aproximándose con mayor eficacia a la noción de relevancia, aunque sin resolverla plenamente.

Datos, información y recuperación en sistemas de búsqueda actuales
Datos, información y recuperación en sistemas de búsqueda actuales.
Imagen elaborada por chatGPT.

Muchos de los SRI contemporáneos combinan, de forma híbrida, procedimientos propios de la recuperación de datos y de la recuperación de información. La indexación estructurada, las búsquedas exactas o las consultas sobre bases de datos conviven con mecanismos de ranking, inferencia semántica y estimación de relevancia. Esta convergencia tecnológica no invalida la distinción conceptual entre ambos enfoques; al contrario, la hace más necesaria, ya que permite comprender mejor los límites, fortalezas y riesgos interpretativos de cada tipo de sistema. En este contexto, los sistemas basados en modelos de lenguaje de gran tamaño y arquitecturas de retrieval-augmented generation (RAG) reintroducen, bajo nuevas formas, el debate clásico entre datos e información. Aunque estos modelos pueden generar respuestas coherentes y contextualmente plausibles, su funcionamiento depende en gran medida de procesos previos de recuperación y selección de documentos relevantes. La calidad informativa del resultado no reside únicamente en la capacidad generativa del modelo, sino en la adecuación del proceso de recuperación que lo alimenta, confirmando la vigencia de los principios fundamentales de la recuperación de información.

Fuentes bibliográficas

[1] Brookes afirma esto en la presentación del primer capítulo de la obra Information Retrieval Research titulado ‘Information Technology and Information Science’, donde recuerda que el problema de la recuperación de información no ha de aplicarse sólo a lo automático, sino también a lo manual. (Oddy et al, 1981). Salton también lo recalca al comentar que no siempre se recupera información textual (Salton & McGill, 1983).

[2] Meadow, C.T. (1992) Text Information Retrieval

[3] Pérez-Carballo, J. and Strzalkowski, T. ‘Natural language information retrieval: progress report’. Information Processing and Management 36, 2000. p. 155-178

[4] (Grossman and Frieder, 1998) Grossman, D.A. and Frieder, O. Information retrieval: algorithms and heuristics. Boston: Kluwer Academia Publishers, 1998.

Pedro Díaz, in memoriam

Fotografía del profesor Pedro Miguel Díaz Ortuño, compañero y amigo desde primero de carrera.

Nota: adaptación del editorial de homenaje de la revista Anales de Documentación al compañero y amigo más querido.

Desde el pasado verano, la pequeña familia formada en torno a la revista Anales de Documentación, en particular, y a la facultad de Comunicación y Documentación de la Universidad de Murcia en general, ha perdido a uno de sus miembros más queridos y destacados, el profesor Pedro Manuel Díaz Ortuño quien nos dejó a la temprana edad de 59 años tras luchar varios meses contra una larga y penosa enfermedad.

Pedro Manuel – así le llamaba su madre – era profesor de Tecnologías de la Información en nuestra Universidad desde 1989. Logró la titularidad en el año olímpico de 1992. Su docencia, en almacenamiento y acceso a la información, la desarrolló en nuestra facultad y también en la de Informática, el centro donde se formó en los años ochenta (nos formamos para ser correctos, somos compañeros de promoción, además de amigos desde esos días), como diplomado universitario. Años después, como también hice yo aunque en otra universidad, cursó la licenciatura en Documentación en la Universidad Politécnica de Valencia y los estudios de doctorado en nuestra universidad). Miembro del grupo de investigación en Tecnologías de la Información, participó en varios proyectos de transferencia. En el más reciente, e-labor@, analizamos la necesaria transformación digital en las entidades del Tercer Sector de Acción Social (TSAS). Resultado de este proyecto es el informe La transformación digital de entidades del Tercer Sector de Acción Social: un marco para la gestión documental, donde es autor del capítulo “Prospectiva de sistemas de gestión documental: factores claves para entidades TSAS”, dedicado a presentar la gestión documental actual y los sistemas que la implementan y que hemos reeditado en formato de artículo en el último número de la revista (sección de Estudios y Experiencias). Fue vicedecano de la facultad en varios equipos directivos y a él le debemos, entre otras cosas, el seguimiento de la construcción del edificio tan bonito que alberga nuestra facultad, una de las más dinámicas y creativas de la Universidad de Murcia.

Vista general de la Facultad de Comunicación y Documentación de la Universidad de Murcia

Su relación con nuestra revista se remonta a los inicios de nuestra singladura, Pedro Manuel formó parte del primer comité editorial asumiendo la secretaría del mismo en ese y otros períodos. También fue el responsable del diseño de la maquetación de la edición impresa estableciendo (a nivel interno) las primeras normas, formatos y flujos de trabajo para la publicación de los artículos y de otras secciones de la revista. La solidez, claridad y pertinencia de estos criterios son tales que muchas de esas recomendaciones e instrucciones continúan plenamente vigentes hoy, veintiocho años después, con Anales de Documentación plenamente integrada en el ecosistema digital de la comunicación científica.

Precisamente, toda la tarea de puesta en marcha de la edición electrónica de la revista recayó en su persona, instalando la plataforma Open Journal System para la gestión editorial dentro de los servidores informáticos de nuestra facultad, lo que facilitó, unos años después, su migración al servidor revistas.um.es de nuestra editorial universitaria. Otro apartado donde destacó sobremanera fue en el rigor aplicado a la tarea de revisor. De hecho, raro es el número publicado donde no evaluara la pertinencia de uno o dos manuscritos al menos. También colaboró activamente en la sección de Reseñas, reforzando así su decisiva contribución editorial, gracias a la cual nuestra revista ha alcanzado los actuales niveles de calidad. Sin duda, ha sido uno de los grandes artífices del desarrollo de Anales de Documentación como vehículo de referencia en la comunicación científica del área. Sin su trabajo y dedicación, no estaríamos en este nivel.

Quienes hemos asumido responsabilidades en la revista a lo largo de los años le debemos un profundo agradecimiento por tan valiosa aportación, aunque ese sentimiento se nos antoja ahora como una isla ínfima dentro del océano ante la pérdida de la persona: el compañero de trabajo, el amigo de sus amigos, el esposo, el padre, el hijo y el hermano que nos ha dejado demasiado pronto. Pedro – así lo llamábamos los amigos, colegas y estudiantes – por fortuna pudimos despedirnos de ti y te has marchado sabiendo que, como dice la canción, tú “nunca caminarás solo”, siempre permanecerás acompañándonos en nuestra memoria y en las huellas que dejaste en la revista y en quienes compartimos camino contigo.

La Ciencia Abierta también te va a echar mucho de menos Pedro, y más ahora en estos tiempo donde los avances tecnológicos están abriéndose camino de forma imperativa e imparable.

Murcia, octubre de 2025

El Comité Editorial

Tom Wilson e Information Research: pioneros del acceso abierto diamante

En la revista científica ‘Information Research: an electronic international journal‘ hemos dedicado un número especial a los 30 años de la puesta en marcha de la misma por parte de nuestro querido maestro Tom Wilson de la Universidad de Sheffield (y de la de Borâs en los últimos años). Para nosotros ha sido un honor haber participado en este número y casi en los treinta años de vida de esta revista gracias a la generosidad de su fundador.

Fragmento del sitio web de la revista (versión histórica
Fragmento del sitio web de la revista (versión histórica en https://informationr.net/ir/).
Fotografía de Tom Wilson (2010). Fuente: wikipedia
Fotografía de Tom Wilson (2010). Fuente: wikipedia

En nuestra aportación, que reproducimos en versión HTML a continuación, destacamos los vínculos que se han establecido entre nuestra Universidad, la revista y Tom, además de resaltar que esta revista es acceso abierto antes incluso de que se acuñara ese término y se difudiera tras el acuerdo de la Iniciativa por el Acceso Abierto firmada en Budapest en el año 2002. Sin duda alguna, Tom es un maestro, un genio y mejor persona.


Texto del artículo:

Son muchos los méritos contraídos por Tom Wilson a lo largo de toda su carrera docente e investigadora, en la que ha venido introduciéndonos en el estudio de la gestión de información y del comportamiento informacional en contexto prácticamente desde el inicio de estas disciplinas. En ambos casos, se produce el mismo fenómeno: con el paso del tiempo, ambas forman un binomio de muy difícil separación, por no decir indivisible, tal como dijo José Vicente Rodríguez Muñoz la mañana en la que le investimos Doctor Honoris Causa por nuestra Universidad (septiembre de 201). Es posible que, con anterioridad a Tom Wilson, otros autores pudieran haber realizado aproximaciones parciales alrededor de estos conceptos, pero quien, con su esfuerzo, dedicación y sabiduría, muchas veces acompañado de un grandísimo equipo de colaboradores, ha permitido su desarrollo e implantación dentro de la comunidad científica como temas de interés.

Acto de investidura de Tom Wilson como Doctor Honoris Causa por la Universidad de Murcia en el año 2010.
Acto de investidura de Tom Wilson como Doctor Honoris Causa por la Universidad de Murcia (2010).

De gran parte de todo ese trabajo ha sido testigo y depositaria la revista ‘Information Research: an electronic international journal‘, cuyo trigésimo aniversario celebramos con este número especial. Tal como informa la sección ‘About the Journal’ de su sitio web, fue fundada en 1995 por Tom Wilson en la Universidad de Sheffield y la ha dirigido casi todo este tiempo. En la presentación de la revista se comenta que ‘the Internet and the World ide Web were in their infancy, and the idea was to create a journal that covered the information disciplines in general’, recordando los significativos cambios acaecidos en nuestro campo durante todo este período, de proporciones exponenciales (casi hipergeométricas) en comparación con otros períodos anteriores donde la evolución seguía ritmos mucho más pausados.

Portada de un número de la revista Information Research en su diseño actual.
Portada de un número de la revista Information Research en su diseño actual (https://publicera.kb.se/ir).

La vocación internacional de la revista se observa claramente en el título de esta y constituye uno de sus puntos fuertes. No cabe duda alguna que esto es fiel reflejo de otro aspecto destacado de la personalidad de Tom Wilson: su afán por visitar la mayor parte de países del mundo posible para entrar en contacto con colegas y estudiantes. Gracias a esa actitud abierta y colaborativa tuvimos ocasión de conocerle personalmente y, desde entonces, ha sido para nosotros ese faro que guía a los barcos en la noche hacia puerto seguro donde descansar y avituallarse. Su primera visita a Murcia fue por motivo de un seminario sobre ‘Information Management’ justo el mismo curso que iniciábamos los estudios de Biblioteconomía y Documentación (1989-1999). Desde entonces, el contacto ha sido permanente y el vínculo se fue fortaleciendo hasta el punto de que es la única persona a quien se le ha concedido el Doctorado Honoris Causa a propuesta de nuestra facultad. Hicimos coincidir la ceremonia de investidura con esta distinción académica con la celebración de la conferencia ISIC-2010 para que una parte importante de sus amigos pudiera percibir en primera persona el alto nivel de reconocimiento y devoción que sentimos en esta humilde universidad del sureste de España por nuestro amigo, casi familia, Tom Wilson.

Durante este período de tiempo, el profesor Wilson participó como ponente invitado en el seminario de puesta en marcha de la Cátedra UNESCO en Gestión de Información en las Organizaciones, proyecto que coordinamos en colaboración con la Universidad de La Habana y que tuvo lugar en la Facultad de Economía de la Universidad Nacional Autónoma de México en el año 1995, unos meses antes de la puesta en marcha de la Maestría Internacional en Gestión de Información de la que llevamos realizadas más de 25 ediciones en distintos países de Latinoamérica y que ha permitido a muchos docentes e investigadores acceder al doctorado y progresar en su carrera académica.

En relación con ese progreso de la carrera académica y volviendo a la revista, no recordamos con precisión exacta la fecha, seguro que prácticamente en sus comienzos, el profesor Wilson abrió la posibilidad de publicar artículos en los idiomas portugués y español para colaborar en la difusión de los estudios e investigaciones realizadas en el ámbito iberoamericano, encargando en ese momento la responsabilidad de editar esa sección al profesor José Vicente Rodríguez Muñoz, nuestro maestro y compañero. Este hecho resultó fundamental para la comunicación de nuestras investigaciones en un ámbito internacional al que nos introdujo Tom Wilson, no sólo a los miembros de nuestra universidad, sino a muchos colegas de España, Portugal e Iberoamérica que aprovecharon ese espacio que gentilmente nos abrió el profesor Wilson. En el caso particular de nuestro departamento, Information Research ha sido depositaria de la buena parte de los artículos derivados de las tesis doctorales que hemos realizado a lo largo de estos 30 años, algunos de ellos con una considerable atención e interés por parte de la comunidad investigadora.

Fragmento del artículo 'Advantages of thesaurus representation using the Simple Knowledge Organization System (SKOS) compared with proposed alternatives' publicado en Information Research.
Fragmento del artículo ‘Advantages of thesaurus representation using the Simple Knowledge Organization System (SKOS) compared with proposed alternatives’ publicado en Information Research. Fuente: https://informationr.net/ir/14-4/paper422.html

Hoy en día esa sección sigue recibiendo de forma periódica abundantes peticiones de publicación de artículos, si bien la tendencia actual es presentarlos en inglés (la lingua franca de la Ciencia). Podemos asegurar, sin temor a equivocarnos, que tanto la revista como su director, tienen una pequeña parte de culpa en esa internacionalización de la comunicación de la ciencia en nuestro entorno.

Information Research ha sido siempre una revista digital con el mismo nivel de gestión editorial que otras revistas de más longevas en el tiempo y con mayor presupuesto (algo imaginario en nuestro caso particular). Todo ha sido posible por la disposición de una multitud de compañeros y colegas que nunca han dudado a responder afirmativamente a la “llamada” de Tom Wilson para colaborar con la revista. En todos estos años hemos aprendido muchas cosas y queremos resaltar algunas de ellas. La primera fue la inmensa sorpresa que percibimos ante el nivel de dedicación y atención que investigadores y autores de referencia mundial prestaban a las tareas de revisión y edición de los artículos dentro de un contexto colaborativo impregnado de armonía, equidad y respeto por las decisiones adoptadas por todos los compañeros participantes. Esto nos ha servido a muchos de nosotros para replicarlo en otros proyectos editoriales en los que participamos, aprendiendo todos de todos. Otro aspecto que destacar es la formalidad del proceso editorial, al que muchos autores no estábamos acostumbrados en nuestros entornos locales en aquella época. El uso de una plantilla XHTML para la maquetación rigurosa de los artículos ha permitido además una mayor interoperabilidad y difusión de los textos dentro del ecosistema de la Web Semántica, también embrionario e incipiente cuando se implantó su uso. Continuando con los aspectos formales, la revisión de estilo, que se mantiene en la actualidad, es otra de las fortalezas de nuestra revista, a pesar de que se ha ido trivializando en otras revistas con el paso del tiempo.

Quizá los lectores más antiguos de esta revista recuerden que, al poco de haber sido indexada por la base de datos Social Science Citation Index (hoy parte de la WOS), hubo que introducir algunos cambios en la denominación de los artículos y guardar una copia de este y de las referencias empleadas en un sistema de archivo digital (webcitation.org) para intentar obviar la futilidad propia del ecosistema de la web de aquella época. Tom Wilson condujo inteligentemente este proceso y llevó a cabo la asignación de identificaciones permanentes de artículos para favorecer una preservación de los documentos cuando prácticamente esos conceptos eran embrionarios. Hace un par de años realizamos un sondeo para verificar la existencia de “citas perdidas” de los artículos de nuestra revista en la Web of Science (WOS), un problema presente en muchas publicaciones de acceso abierto y que añade otra tarea más sus comités editoriales. Cuál fue nuestra sorpresa, en realidad no tanto, cuando verificamos que Information Research tenía debidamente computadas todas. La rigurosidad editorial por bandera forma parte de nuestro genoma vital.

En los relativo a la indexación en bases de datos y la posición de la revista en los índices de impacto (estos últimos no han preocupado en exceso a Tom Wilson), la revista siempre ha estado recopilada por los principales productores y distribuidores, además de tener factor de impacto tanto en JCR/JCI como en el índice SJR donde nuestra publicación recibe más citas debido al mayor alcance geográfico del mismo, volviendo a poner de manifiesto que la internacionalización de la revista es una de nuestras fortalezas.

Lo que no ha cambiado nunca es el acceso abierto a los contenidos publicados en nuestra revista sin aplicar coste alguno a los autores de los artículos (las tan controvertidas como perniciosas APCs). Nuestra revista es, desde sus inicios, una revista de acceso abierto “diamante”. Y he aquí la paradoja, Information Research es acceso abierto cuando aún no se había redactado la Declaración de Budapest (2002); incluso Information Research es “diamante” cuando aún no se había tenido que establecer esta categoría de publicaciones para distinguir el verdadero acceso abierto del que pretenden instaurar las editoriales comerciales intenta hacer frente al acoso de las editoriales comerciales, financiadas con dinero público por culpa de una deficiente aplicación del Plan “S” que ha dado pábulo a la proliferación de revistas predadoras y/o de escaso nivel científico que dañan mucho a la comunicación de la ciencia. IR es un claro ejemplo de lo contrario, de cómo el sueño de Tom Wilson se ha consolidado en una publicación de referencia internacional, abierta a todo tipo de autores, consolidados y noveles, y a todas las disciplinas relacionadas con la investigación en información. Por todo ello, creemos de justicia afirmar que, tanto la revista como su impulsor y director hasta el año pasado, son “pioneros del acceso abierto” junto a todos quienes hemos dedicado una parte de nuestro tiempo a la misma.

Autores

Jose-Vicente Rodriguez-Munoz, Francisco-Javier Martinez-Mendez, Pedro-Manuel Diaz-Ortuno, Gregorio Moya-Martinez y Rosana Lopez-Carreno, miembros del Grupo de Investigación en Tecnologías de la Información de la Universidad de Murcia y colaboradores habituales con la revista en los últimos 30 años.

References

Budapest Open Access Initiative. (2002). https://doi.org/10.4403/jlis.it-8629

Fuchs, C., & Sandoval, M. (2013). The diamond model of open access publishing: Why policy makers, scholars, universities, libraries, labour unions and the publishing world need to take non-commercial, non-profit open access serious. TripleC: Communication, capitalism & critique, 11(2), 428-443.  https://doi.org/10.31269/vol11iss2pp428-443  

Rodríguez Muñoz, J.V. et al. (2010) Discursos pronunciados en el acto de investidura del profesor Thomas Daniel Wilson como Doctor Honoris Causa por la Universidad de Murcia. http://hdl.handle.net/10201/40450

cOAlition S. (2019). Accelerating the transition to full and immediate Open Access to scientific publications. Science Europe. https://archive.org/details/plan-s-rationale-310519

Factores «clave» del contenido web para el ranking de Google

La web Backlinko dedica una página informativa sobre los factores de alineamiento de Google ofreciendo una guía exhaustiva de más de 200 elementos que influyen en el algoritmo. Su propósito es «educar» a las personas que administran sitios web y a profesionales del SEO sobre cómo mejorar la posición de sus páginas en los resultados de búsqueda. En este análisis dividen los factores en categorías clave, como la calidad del contenido, ‘backlinks‘ y la experiencia del usuario (UX) y aspectos técnicos tales como la velocidad de carga y la optimización para el escosistema móvil. También se analizan señales de comportamiento del usuario y actualizaciones constantes del algoritmo.

Imagen inspirada en el ranking de Google creada con Delle - 3, la IA para gráficos de chatgpt
El ranking de Google dibunado por Delle – 3

En la siguiente tabla recogemos una síntesis de los once (como si fuera una alineación de un equipo de fútbol) factores que más se destacan en este artículo.

FactorDescripciónEjemplo
Calidad del ContenidoGoogle prioriza contenido de alta calidad, informativo y relevante.Un artículo detallado y bien investigado sobre un tema específico que responde completamente a las preguntas de los usuarios.
Backlinks‘ (enlaces entrantes)Los enlaces de otros sitios web actúan como votos de confianza. Cuantos más enlaces de entrada de alta calidad tenga tu sitio, mejor se posicionará.Un sitio web que recibe enlaces de universidades y sitios de noticias reconocidos.
SEO TécnicoAspectos técnicos del sitio web, como la velocidad de carga, la compatibilidad con dispositivos móviles y la capacidad de rastreo.Un sitio web optimizado para cargar rápidamente en dispositivos móviles y que utiliza un archivo robots.txt adecuado para permitir el rastreo de los motores de búsqueda.
Optimización de palabras claveUso de palabras clave relevantes en el contenido del sitio web para ayudar a los motores de búsqueda a entender de qué trata el sitio.Un blog de recetas que utiliza palabras clave como “recetas saludables” y “comida vegana” en sus artículos.
Experiencia del usuario (UX)Medida de lo fácil y agradable que es para los usuarios utilizar el sitio web. Google prefiere sitios que proporcionan una buena experiencia de usuario.Un sitio web con una navegación intuitiva, tiempos de carga rápidos y diseño responsive.
Marcado de esquema (Schema Markup)Datos estructurados que se pueden añadir al sitio web para ayudar a los motores de búsqueda a entender mejor el contenido.Un sitio de comercio electrónico que utiliza marcado de esquema para mostrar reseñas de productos y precios directamente en los resultados de búsqueda.
Señales socialesInteracciones sociales como “me gusta”, “compartir” y otros. Aunque no son un factor directo, pueden influir en la visibilidad del contenido.Un artículo que recibe muchas comparticiones en redes sociales como Facebook y Twitter.
Señales de marcaLa percepción general de la marca en línea. Google favorece marcas bien conocidas y respetadas.Un sitio web de una marca reconocida que recibe menciones en medios de comunicación y tiene una fuerte presencia en redes sociales.
Edad del dominioLos dominios más antiguos pueden tener una ligera ventaja, ya que se consideran más confiables.Un sitio web que ha estado activo durante más de 10 años y ha mantenido un historial constante de contenido de calidad.
Velocidad de carga del sitioLa rapidez con la que se carga un sitio web es un factor importante, especialmente en dispositivos móviles.Un sitio web que utiliza técnicas de optimización como la compresión de imágenes y el almacenamiento en caché para mejorar los tiempos de carga.
Intención de búsquedaLa capacidad del contenido para satisfacer la intención del usuario en el momento de la búsqueda.Un artículo que proporciona una guía completa y detallada sobre “cómo plantar un jardín de hierbas” cuando los usuarios buscan información sobre jardinería.
RTabla resumen de los 11 factores más importantes en el ranking de Google. Fuente: Backlinko

Como pasa con las selecciones de fútbol donde cualquier aficionado o aficionada tiene su propio «once«, si buscamos en otras páginas web es más que seguro que algunas de estas características no sean consideradas por sus autores e incluyan otras que hemos dejado fuera. Es ley de vida.

Evan Bailyn, CEO de la empresa de SEOFirst Page Sage‘, escribió en diciembre de 2021 un artículo en Linkedln una nota informatica titulada ‘The 2022 Google Algorithm Ranking Factors‘ donde presentaba los factores ordenados a partir de su «peso» en la fórmula final del algoritmo de ranking, que podemos visualizar en el siguiente diagrama circular.

peso de los distintos factores del algoritmo de ranking de Google en 2022

Como se observa, un 26% de la fórmula final se debe al contenido de calidad (de alto nivel se menciona), un 17% se le asigna a las metaetiquetas del título de la página, los enlaces de entrada (‘backlinks‘) tienen un peso del 15% (con Pagerank era el factor clave, desde 2018 ha descencido mucho en importancia). También tiene importancia la presencia de esa página entre lo que se considera «nichos de expertos» (13%) y la involucración de los usuarios (fidelidad) que alcanza el 11%. Entre estos cinco factores suman un poco más del 75% del peso de la fóruma final según Evan Bailyn. Aquí va la tabla completa.

factores principales del algoritmo de Google según firstpagesage.com

¿Qué es «contenido de calidad» para Google?

Son varios aspectos a considerar:

Se trata de contenido original, único y valioso. Google da preferencia al contenido nuevo y único. Es conveniente crear entradas que respondan a las preguntas de sus lectores, que aporten valor y que sean originales. Como regla general, Google premia el contenido de liderazgo intelectual producido al menos dos veces por semana. Si tu contenido es similar al de otras páginas web, causará un impacto negativo en tu SEO. Para empezar, el motor podría no indexar y clasificar la página y ralentizará la tasa de rastreo de su sitio web (la web se hará “obsoleta”). Por lo tanto, cuando creemos contenido, ha de ser diferente y mejor que el de otros sitios web clasificados para el término de búsqueda. Ya lo avisaba Bill Gates en 1996 en su frase «Content is king» (que viene a ser I Ley Universal de la Gestión de Contenidos en la Web para mis alumnos).

Hay que mantener el contenido fresco y actualizado. Si las publicaciones se actualizan y se añade habitualmente información  nueva, se envía una señal positiva al motor de búsqueda. La frescura del contenido juega un papel importante si en nuestras entradas se tratan noticias o tendencias. En estos casos, Google prefiere las páginas que proporcionan la información más reciente. Por ejemplo, si escribimos sobre la crisis sanitaria mundial, nuestro contenido debe contener noticias e investigaciones recientes. Una forma sencilla de encontrar la información más reciente para mantener tu contenido fresco es utilizar Google Trends.

La longitud del contenido es otro factor clave. Una de las preguntas recurrentes en SEO ha sido siempre si la extensión del contenido forma parte de los factores de clasificación de Google. La respuesta es “”. Según diferentes estudios, los posts con 1.890 palabras de media se sitúan en la primera página de resultados. Dicho esto, no hay una regla rígida por la que debamos ceñirnos a un límite de palabras. Lo mejor es crear contenido con profundidad y que cubra un tema con gran detalle. Google prefiere las páginas que responden completamente a la pregunta del usuario y proporcionan soluciones detalladas.

longitud de entradas en la web y posición en google
Relación entre la longitud de una entrada web y la posición en la respuesta de Google.

La estructura del contenido y su organización también influye en la valoración de su calidad. Las entradas deben estar bien organizadas y estructuradas. Esto facilita a los visitantes la lectura y la búsqueda de soluciones a sus problemas. Para mejorar la estructura y la organización de estos artículos, se pueden utilizar distintos niveles de encabezado (H2, H3, H4, etc.) para agrupar el contenido. Mantener debidamente actualizado el fichero sitemap.xml ayuda también. También podemos utilizar etiquetas HTML para viñetas  y listas numéricas para organizar aún más el contenido. Esto es beneficioso ya que Google recoge estas listas y las muestra como fragmentos destacados para diferentes palabras clave.

Evolución de internet

Hoy en día usamos la expresión “nativos digitales” para referirnos a las personas que han crecido con internet y la usan permanentemente con una habilidad consumada. Estas personas sienten atracción por todo lo relacionado con las TIC por medio de las cuales cubren una buena parte de sus necesidades de entretenimiento, diversión, comunicación, información y, tal vez, de formación.

Trabajo en un centro de compiutación en los años 70.
Ordenador de los años 70

Para estas personas, conocer que el primer mensaje de correo electrónico constaba de una palabra de dos letras: «Hi» y que fue enviado en octubre del año 1969 por Kleinrock desde el MIT (Instituto Tecnológico de Massachussets) al Network Information Center de la Universidad de Stanford, puede resultar increíble a la par que paradójico, pudiendo llegar a ser para ellos bastante complicado aceptar que internet ya existía cuando sus padres iban al instituto, cuando The Beatles era aún un grupo de música en activo que acababa de editar el disco “Yellow Submarine”, la famosa Guerra de Vietnam estaba en su apogeo, el Muro de Berlín seguía en su sitio (sin graffiti alguno y con muchos guardias), en los Juegos Olímpicos, de forma repetitiva (a veces apabullante) atletas «amateurs» de un país llamado CCCP (siglas en cirílico de Союз Советских Социалистических Республик, la antigua Unión Soviéticaganaban montones de medallas cada cuatro años.

Cubierta del disco Yellow Submarine de The Beatles
Cubierta y parte trasera del LP «Yellows Submarine» de The Beatles

Y sin embargo, parafreseando a Galileo: «todo eso es cierto«.

Otras páginas sobre la evolución de internet:

Telefónica. Historia de Internet: ¿cómo nació y cuál ha sido su evolución? https://www.telefonica.com/es/sala-comunicacion/blog/historia-internet-como-nacio-evolucion/

ONTSI. La evolución de Internet en España: del Tesys a la economía digital. https://www.ontsi.es/sites/ontsi/files/2022-01/50%20A%C3%B1os%20de%20la%20Red%20de%20Redes.pdf

Wikipedia. Historia de Internet. https://es.wikipedia.org/wiki/Historia_de_Internet

Falta algo de rigor y sobra bastante promiscuidad en la comunicación científica

En las últimas semanas se han detectado malas prácticas por parte de investigadores y universidades árabes que han puesto en duda el rigor de la comunicación científica.

portada antigua de una revista científica

Las primeras revistas científicas surgen en Francia e Inglaterra en la Ilustración: el Journal das Scavans y Philosophical Transactions y en ellas escribieron Pascal, Descartes, Leibniz, Newton, Locke, Halley y Bacon, entre muchos otros.

Esto representó el inicio del ecosistema de la comunicación científica, contexto donde, hoy en día, ya no solo participan los intelectuales de las sociedades aristocráticas que escribían los artículos y los eruditos que los leían. Poco a poco. Con el paso del tiempo, se incorporaron al mismo las editoriales y las distribuidoras científicas, las investigaciones abandonaron este entorno y se trasladaron a las universidades y, ya en la edad contemporánea, a institutos y centros de investigación especializados. Todo este proceso ha estado vehiculado de la mano del artículo científico, el tipo documental inédito y original que describe los resultados de una investigación y que se somete a una revisión por expertos antes de su publicación en una revista.

La teoría de la evolución por selección natural de Charles Darwin se puede aplicar a muchos ámbitos de la vida y de nuestra actividad cotidiana, no solo a los ecosistemas formados por los seres vivos. Dentro de la comunicación científica, la competencia por la publicación de artículos en las revistas de mayor prestigio es inmensa y en ella participan (antes se podía escribir «en buena lid«, ahora surgen dudas), investigadores de todos los países del mundo, buscando el mayor impacto de su investigación y el prestigio asociado. Estos factores vienen dados, hoy en día, más por el medio (la revista) que por el contenido del artículo (la investigación), lo cual es, en cierto modo, algo contradictorio y discutible, a pesar de ser lo habitual.

Las editoriales han de velar por el respeto a los principios de la comunicación científica: que no se plagie, que se cite la autoría de trabajos previos, que no se falseen o alteren los datos de investigación, etc., únicamente así podrán sobrevivir en este ecosistema. Los autores deben cumplir estas premisas y someter sus trabajos a un proceso de “revisión por pares(otros científicos expertos en la temática) que valorarán su nivel científico con vistas a su publicación. Los revisores pedirán cambios o, directamente, los rechazarán si estos textos no alcanzaran el nivel exigido por la publicación (o por si se detectan malas prácticas).

Una parte de estas revistas se publican sin ánimo de lucro, permitiendo sus editores la lectura gratuita de los artículos, compitiendo en desigualdad de condiciones con las revistas pertenecientes a las grandes editoriales científicas comerciales: Elsevier, Springer, Cambridge University Press, Nature, Royal Society of Chemistry, etc. Las suscripciones a estas revistas son muy costosas, quedando prácticamente vetado su acceso a los científicos y estudiantes de muchas partes del mundo, especialmente en aquellos países en (permanente) vía de desarrollo. Incluso cuando estas publicaciones se digitalizaron, sus editores no descendieron los costes de las suscripciones, a pesar de que ya no existen los gastos de impresión y envío.

A principios de este siglo, se aprobaron las declaraciones de Budapest, Betsheda y Berlín a favor del acceso abierto a la información: Su objetivo es hacer posible un acceso más universal a los resultados de las investigaciones a través de internet. Volviendo a la teoría darwiniana, dentro del ecosistema de la comunicación científica, los editores vieron que su negocio podía verse amenazado por estos principios tan loables como, por desgracia en muchos casos, ilusorios. Las empresas propietarias de las editoriales se adaptaron y evolucionaron, introduciendo medidas correctoras que han llegado incluso a subvertir la propia definición de acceso abierto, porque ahora ya no es libre y gratuito en todos los casos, sino que precisa de un pago previo de unas tasas para publicar un artículo (más conocidas por APCs).

caricatura sobre las revistas predadoras

Tras superar este primer intento de introducir cambios en el hábitat donde imponen el devenir de los acontecimientos, estas editoriales siguen desarrollando su actividad, en algunos casos incluso han conseguido recubrirse de una cierta pátina de responsabilidad social. Pero, en todo ecosistema, por muy seguro que parezca para la especie dominante, siempre aparecen nuevos depredadores más fuertes, viéndose los integrantes de la especie predominante obligados a luchar por defender su posición de privilegio y, en muchos casos, su vida.

No es casualidad que uno de los problemas actuales que más perjudican a la comunicación cient´fiica en particular (y a la Ciencia en general) venga de la mano de revistas conocidas como “predadoras, apelativo que se aplica a aquellas que se hacen pasar por una revista científica legítima, pero que en realidad no aplican procesos de revisión por pares rigurosos y aceptan publicar prácticamente cualquier artículo a cambio de una tasa o APC. Lo cierto es que estas revistas representan una verdadera amenaza para la integridad y la calidad de la literatura científica, sus escasos niveles de rigor y calidad no les alcanzan para ser considerados como medios de comunicación de la investigación legítimos.

publicidad de un megajournal donde queda claro que publican artículos de cualquier disciplina

De forma paralela, han surgido los ‘megajournals’, revistas que publican una amplia variedad de artículos en múltiples disciplinas a diferencia de las editoriales especializadas, que se centran en un tema o campo de investigación específico. Estas nuevas revistas no son exactamente·»depredadoras», si bien hay dudas razonables sobre sus procesos de revisión. La realidad se impone, y ahora, tanto las «predadoras» como los ‘megajurnals’ ocupan espacios en el ecosistema de la comunicación científica donde antes habitaban otros agentes que han tenido que reajustarse y trasladarse. Y esto no se ha quedado ahí porque, casi de la noche a la mañana, han aparecido nuevas editoriales que mezclan el modelo de negocio de las tradicionales revistas especializadas con el de los `megajournals’, cobrando altas cantidades dinero a modo de APC y que no parecen cumplir con unos criterios mínimos de calidad en sus revisiones, habiéndose disparado así el número de los artículos científicos retractados en revistas propiedad de algunas de estas editoriales (léase mdpi, Frontiers o Hindawi).

Por si faltaba algún elemento para distorsionar el ecosistema, comienzan a detectarse influencias nada recomendables de los distintos ránquines de universidades (en particular el ARWU o “ranking de Shangai” que en España se hizo famoso por medio del nefasto exministro de Universidades José Ignacio Wert). Uno de los criterios que se valoran en estas “listas de éxitos” (como bien escribía hace unos días la profesora Eva Méndez en El País) es contar entre tus científicos a aquellos clasificados como «altamente citados» (en el recientemente publicado informe de 2002, son 6938 los autores cuyos trabajos reciben el 1% de todas las citas a nivel mundial en su disciplina según la base de datos Web of Science).

Muchas universidades han ascendido posiciones en esos ránquines fichando falsamente a científicos de otras instituciones, pagándoles por cambiar la información sobre el lugar de trabajo que todos ponemos en nuestros artículos (la mayoría de nosotros con sincero orgullo de militancia). Personas que nunca han estado en la península arábiga, aparecen ahora como “trabajadores” de universidades de esa parte del mundo, cuando la institución que paga sus sueldos y financia las infraestructuras para que puedan llevar a cabo sus investigaciones son otras, generalmente públicas, que aportan ese dinero procedente de los presupuestos públicos. Como mínimo, esto es un inmenso desprecio a los ciudadanos y ciudadanas que pagan sus impuestos, aunque parece algo más grave.

Las noticias publicadas por Manuel Ansede en El País muestran una realidad desagradable y que no puede consentirse. La Universidad de Córdoba ha señalado el camino a seguir para corregir estas malas prácticas suspendiendo de empleo y sueldo a un investigador por 13 años, otras deberían seguir su ejemplo. En cambio, la mayoría de los 19 investigadores identificados en España por haber llevado a cabo estas malas prácticas, siguen trabajando en sus universidades o centros de investigación, aparentemente sin apertura de expedientes disciplinarios. Lo mismo ocurre con aquellas personas que han ejercido de mediadores para «captar» a estos investigadores. Incluso una investigadora de un instituto de investigación de Cataluña informa de que renuncia a ese contrato para seguir con las universidades árabes (no he podido verificar esto último, por eso no concreto mucho más).

Personalmente pienso que no es tolerable esta infidelidad, más bien promiscuidad en muchos casos.

Dejando aparte la cuestión administrativa, y para finalizar, es lógico que nos preguntemos si se puede luchar contra todos estos problemas. La respuesta es simple: se puede y se debe. Se tiene que actuar desde muchos ámbitos para corregir hábitos indeseables fuertemente asentados. La LOSU habla de valorar la ciencia con los principios FAIR (encontrabilidad, accesibilidad, interoperabilidad y reutilización) como medida correctora. Es bien sabido que estas ideas constituyen uno de los pilares de la ciencia abierta, un nuevo intento de suturar las heridas que todas estas malas prácticas han introducido y de tender puentes para aminorar las distintas brechas que impiden el libre acceso a los resultados de la investigación por parte de todas las personas.

La ciencia será abierta, o no lo será.

#CienciaAbierta ya!!

Google dedica al cambio climático el ‘doodle’ del 22 de abril – Día de la Tierra

El buscador Google quiere llamar la atención sobre los devastadores efectos del cambio climático acelerado que estamos viviendo y que todavía hay gente que lo niega. Para ello, dedica su ‘doodle‘ de hoy a una animación que destaca imágenes reales del paso del tiempo en determinadas zonas del planeta desde 1986 a 2020.

'doodle' de Google en formato animación con imágenes de los efectos del cambio climático

Para las Naciones Unidas (ONU), la celebración de este día aspira a recordar la necesidad de «avanzar hacia una economía más sostenible que funcione tanto para las personas como para el planeta”.

Precisamente hoy, y en la sede central de esta organización, se celebra el evento ‘Dialogue on Harmony with Nature‘ en el que están invitados a participar Teresa Vicente y Eduardo Salazar, profesores de la Universidad de Murcia, quien con Mario Cervera, alcalde del municipio de Los Alcázares, expondrán en tan destacado foto, la propuesta de iniciativa legislativa popular impulsada desde la Clínica Jurídica de la Facultad de Derecho y que se encuentra en trámite en el Congreso de los Diputados, tras recoger 639.000 firmas de apoyo de ciudadanos y ciudadanas.

Efectos de la anoxia en el Mar Menor en el verano de 2021. 16 toneladas de peces muertos.

El evento se podría seguir en streaming desde la dirección https://media.un.org/en/webtv/ y desde la página principal de la Universidad de Murcia.

Cartel del Día de la Madre Naturaleza de Naciones Unidad, año 2022