blog

Entrada incluída en el blog de javima.info

¿Recuperamos información o datos?

Nota de actualización de entracda antigua en el blog

Actualizo una entrada antigua de este blog que escribí en el año 2006 sobre la cierta confusión existente sobre si, en una búsqueda, recuperamos información o datos. Vamos a ver cómo queda.

En el campo de la recuperación de información (‘information retrieval‘), casi al principio de la disciplina, era normal encontrar autores que empleaban la expresión «recuperación de datos» cuando en realidad de lo que estaban hablando era de recuperar información. Teniendo en cuenta las fechas de lasque hablamos (años 80, cuando el tecnopop), Esto se debía, fundamentalmente, a una clara influencia de la terminología informática, disciplina cuya rapidísima evolución llevó a muchos autores a cometer el error de considerar sinónimos ambos conceptos, llegándose a olvidar, como afirmaba Brookes, que se puede recuperar información sin emplear procedimientos informáticos (hecho indiscutible aunque no sea lo más común hoy en día, evidentemente).

Portda del Diccionaro MacMillan de Tecnologías de la Informació

El frecuente y necesario empleo de una tecnología no sustituye la obligatoriedad de utilizar adecuadamente los conceptos terminológicos. Un ejemplo de este desacierto lo hallamos en el Glosario ALA que define “information retrieval” como “recuperación de la información» en su primera acepción y como “recuperación de datos” en una segunda, considerando sinónimos ambos términos en lengua inglesa. De parecida opinión es el Diccionario Mac Millan de Tecnología de la Información, que considera la recuperación de información como el conjunto de “técnicas empleadas para almacenar y buscar grandes cantidades de datos y ponerlos a disposición de los usuarios”.

Afortunadamente, es mayor el grupo de autores que establecen diferencias entre ambos conceptos. Entre ellos destaca Meadow, para quien la recuperación de la información es “una disciplina que involucra la localización de una determinada información dentro de un almacén de información o base de datos”. Este autor establece de forma implícita una ligazón entre recuperación de información y el concepto de «selectividad» a la hora de presentar esa información al usuario siguiendo algún tipo de criterio discriminatorio (selectivo por tanto) entre una gran colección de documentos. Meadow marca un poco más estas diferencias, al afirmar que no es lo mismo la recuperación de información entendida como traducción del término inglés information recovery que cuando se traduce el término information retrieval, porque “en el primer caso no es necesario proceso de selección alguno”. Pérez-Carballo Strzalkowski refuerzan esta idea afirmando que “una típica tarea de la recuperación de información es traer documentos relevantes desde una gran archivo en respuesta a una pregunta formulada por un usuario y ordenar estos documentos de acuerdo con su relevancia.

Grossman y Frieder indican que la recuperación de información es “hallar documentos relevantes, no encontrar simples correspondencias a unos patrones de bits”. De similar criterio es el W3C que define recuperar información como “dado un conjunto de documentos y una pregunta, encontrar el conjunto de documentos más relevantes con la pregunta”.

En clase, explico a mis estudiantes que, en la recuperacíón de datos, las preguntas son altamente formalizadas y la respuesta  es directamente toda la información deseada. Así, “recuperar los títulos de los libros escritos por Jorge Luis Borges en la década de los 50” sería la ecuación “SELECT titulo WHERE autor=’Jorge Luis Borges’ AND fecha>1949  AND fecha<1960”. Otra pregunta fácil es saber cuántos ciudadanos de Murcia tienen alguna multa de tráfico sin abonar al Ayuntamiento de la ciudad y cuánto totaliza esa deuda para las arcas municipales. Nos movemos en un paradigma determinista, el territorio del modelo relacional de bases de datos. También les explico que en la recuperación de información, las preguntas son más difíciles de trasladar a un lenguaje formal y la respuesta es un conjunto de documentos que probablemente contendrá la información deseada, siempre con un factor de cierta indeterminación. En este modelo, el territorio de los SRI, La consulta sería, por ejemplo, «Obras Borges década 50”.

Foto de C.J: Rijsbergen, de la Universidad de Glasgow

El gran profesor ‘Keith’ Rijsbergen establece en la siguiente tabla las diferencias entre recuperar datos e información:

Diferencias entre recuperación de datos y recuperación de información según Keith Risjbergen

Finalizo siempre esta cuestión presentando la siguiente cita de Ricardo Baeza-Yates:

dada una necesidad de información (consulta + perfil del usuario + … ) y un conjunto de documentos, ordenar los documentos de más a menos relevantes para esa necesidad y presentar un subconjunto de aquellos de mayor relevancia

¿Sigue este tema vigente?

Creo que esta distinción conceptual sigue siendo especialmente pertinente hoy en día. Si se observa la evolución reciente de los sistemas de búsqueda y acceso a la información. Las tecnologías actuales —como la búsqueda semántica, el uso de representaciones vectoriales (embeddings) o los modelos de lenguaje de gran tamaño (LLMs)— no han eliminado el problema clásico de la recuperación de información, sino que han añadido nuevas capas de complejidad. Estos sistemas ya no se limitan a la coincidencia literal entre términos (‘matching‘), sino que operan sobre representaciones semánticas del contenido, aproximándose con mayor eficacia a la noción de relevancia, aunque sin resolverla plenamente.

Datos, información y recuperación en sistemas de búsqueda actuales
Datos, información y recuperación en sistemas de búsqueda actuales.
Imagen elaborada por chatGPT.

Muchos de los SRI contemporáneos combinan, de forma híbrida, procedimientos propios de la recuperación de datos y de la recuperación de información. La indexación estructurada, las búsquedas exactas o las consultas sobre bases de datos conviven con mecanismos de ranking, inferencia semántica y estimación de relevancia. Esta convergencia tecnológica no invalida la distinción conceptual entre ambos enfoques; al contrario, la hace más necesaria, ya que permite comprender mejor los límites, fortalezas y riesgos interpretativos de cada tipo de sistema. En este contexto, los sistemas basados en modelos de lenguaje de gran tamaño y arquitecturas de retrieval-augmented generation (RAG) reintroducen, bajo nuevas formas, el debate clásico entre datos e información. Aunque estos modelos pueden generar respuestas coherentes y contextualmente plausibles, su funcionamiento depende en gran medida de procesos previos de recuperación y selección de documentos relevantes. La calidad informativa del resultado no reside únicamente en la capacidad generativa del modelo, sino en la adecuación del proceso de recuperación que lo alimenta, confirmando la vigencia de los principios fundamentales de la recuperación de información.

Fuentes bibliográficas

[1] Brookes afirma esto en la presentación del primer capítulo de la obra Information Retrieval Research titulado ‘Information Technology and Information Science’, donde recuerda que el problema de la recuperación de información no ha de aplicarse sólo a lo automático, sino también a lo manual. (Oddy et al, 1981). Salton también lo recalca al comentar que no siempre se recupera información textual (Salton & McGill, 1983).

[2] Meadow, C.T. (1992) Text Information Retrieval

[3] Pérez-Carballo, J. and Strzalkowski, T. ‘Natural language information retrieval: progress report’. Information Processing and Management 36, 2000. p. 155-178

[4] (Grossman and Frieder, 1998) Grossman, D.A. and Frieder, O. Information retrieval: algorithms and heuristics. Boston: Kluwer Academia Publishers, 1998.

Pedro Díaz, in memoriam

Fotografía del profesor Pedro Miguel Díaz Ortuño, compañero y amigo desde primero de carrera.

Nota: adaptación del editorial de homenaje de la revista Anales de Documentación al compañero y amigo más querido.

Desde el pasado verano, la pequeña familia formada en torno a la revista Anales de Documentación, en particular, y a la facultad de Comunicación y Documentación de la Universidad de Murcia en general, ha perdido a uno de sus miembros más queridos y destacados, el profesor Pedro Manuel Díaz Ortuño quien nos dejó a la temprana edad de 59 años tras luchar varios meses contra una larga y penosa enfermedad.

Pedro Manuel – así le llamaba su madre – era profesor de Tecnologías de la Información en nuestra Universidad desde 1989. Logró la titularidad en el año olímpico de 1992. Su docencia, en almacenamiento y acceso a la información, la desarrolló en nuestra facultad y también en la de Informática, el centro donde se formó en los años ochenta (nos formamos para ser correctos, somos compañeros de promoción, además de amigos desde esos días), como diplomado universitario. Años después, como también hice yo aunque en otra universidad, cursó la licenciatura en Documentación en la Universidad Politécnica de Valencia y los estudios de doctorado en nuestra universidad). Miembro del grupo de investigación en Tecnologías de la Información, participó en varios proyectos de transferencia. En el más reciente, e-labor@, analizamos la necesaria transformación digital en las entidades del Tercer Sector de Acción Social (TSAS). Resultado de este proyecto es el informe La transformación digital de entidades del Tercer Sector de Acción Social: un marco para la gestión documental, donde es autor del capítulo “Prospectiva de sistemas de gestión documental: factores claves para entidades TSAS”, dedicado a presentar la gestión documental actual y los sistemas que la implementan y que hemos reeditado en formato de artículo en el último número de la revista (sección de Estudios y Experiencias). Fue vicedecano de la facultad en varios equipos directivos y a él le debemos, entre otras cosas, el seguimiento de la construcción del edificio tan bonito que alberga nuestra facultad, una de las más dinámicas y creativas de la Universidad de Murcia.

Vista general de la Facultad de Comunicación y Documentación de la Universidad de Murcia

Su relación con nuestra revista se remonta a los inicios de nuestra singladura, Pedro Manuel formó parte del primer comité editorial asumiendo la secretaría del mismo en ese y otros períodos. También fue el responsable del diseño de la maquetación de la edición impresa estableciendo (a nivel interno) las primeras normas, formatos y flujos de trabajo para la publicación de los artículos y de otras secciones de la revista. La solidez, claridad y pertinencia de estos criterios son tales que muchas de esas recomendaciones e instrucciones continúan plenamente vigentes hoy, veintiocho años después, con Anales de Documentación plenamente integrada en el ecosistema digital de la comunicación científica.

Precisamente, toda la tarea de puesta en marcha de la edición electrónica de la revista recayó en su persona, instalando la plataforma Open Journal System para la gestión editorial dentro de los servidores informáticos de nuestra facultad, lo que facilitó, unos años después, su migración al servidor revistas.um.es de nuestra editorial universitaria. Otro apartado donde destacó sobremanera fue en el rigor aplicado a la tarea de revisor. De hecho, raro es el número publicado donde no evaluara la pertinencia de uno o dos manuscritos al menos. También colaboró activamente en la sección de Reseñas, reforzando así su decisiva contribución editorial, gracias a la cual nuestra revista ha alcanzado los actuales niveles de calidad. Sin duda, ha sido uno de los grandes artífices del desarrollo de Anales de Documentación como vehículo de referencia en la comunicación científica del área. Sin su trabajo y dedicación, no estaríamos en este nivel.

Quienes hemos asumido responsabilidades en la revista a lo largo de los años le debemos un profundo agradecimiento por tan valiosa aportación, aunque ese sentimiento se nos antoja ahora como una isla ínfima dentro del océano ante la pérdida de la persona: el compañero de trabajo, el amigo de sus amigos, el esposo, el padre, el hijo y el hermano que nos ha dejado demasiado pronto. Pedro – así lo llamábamos los amigos, colegas y estudiantes – por fortuna pudimos despedirnos de ti y te has marchado sabiendo que, como dice la canción, tú “nunca caminarás solo”, siempre permanecerás acompañándonos en nuestra memoria y en las huellas que dejaste en la revista y en quienes compartimos camino contigo.

La Ciencia Abierta también te va a echar mucho de menos Pedro, y más ahora en estos tiempo donde los avances tecnológicos están abriéndose camino de forma imperativa e imparable.

Murcia, octubre de 2025

El Comité Editorial

Tom Wilson e Information Research: pioneros del acceso abierto diamante

En la revista científica ‘Information Research: an electronic international journal‘ hemos dedicado un número especial a los 30 años de la puesta en marcha de la misma por parte de nuestro querido maestro Tom Wilson de la Universidad de Sheffield (y de la de Borâs en los últimos años). Para nosotros ha sido un honor haber participado en este número y casi en los treinta años de vida de esta revista gracias a la generosidad de su fundador.

Fragmento del sitio web de la revista (versión histórica
Fragmento del sitio web de la revista (versión histórica en https://informationr.net/ir/).
Fotografía de Tom Wilson (2010). Fuente: wikipedia
Fotografía de Tom Wilson (2010). Fuente: wikipedia

En nuestra aportación, que reproducimos en versión HTML a continuación, destacamos los vínculos que se han establecido entre nuestra Universidad, la revista y Tom, además de resaltar que esta revista es acceso abierto antes incluso de que se acuñara ese término y se difudiera tras el acuerdo de la Iniciativa por el Acceso Abierto firmada en Budapest en el año 2002. Sin duda alguna, Tom es un maestro, un genio y mejor persona.


Texto del artículo:

Son muchos los méritos contraídos por Tom Wilson a lo largo de toda su carrera docente e investigadora, en la que ha venido introduciéndonos en el estudio de la gestión de información y del comportamiento informacional en contexto prácticamente desde el inicio de estas disciplinas. En ambos casos, se produce el mismo fenómeno: con el paso del tiempo, ambas forman un binomio de muy difícil separación, por no decir indivisible, tal como dijo José Vicente Rodríguez Muñoz la mañana en la que le investimos Doctor Honoris Causa por nuestra Universidad (septiembre de 201). Es posible que, con anterioridad a Tom Wilson, otros autores pudieran haber realizado aproximaciones parciales alrededor de estos conceptos, pero quien, con su esfuerzo, dedicación y sabiduría, muchas veces acompañado de un grandísimo equipo de colaboradores, ha permitido su desarrollo e implantación dentro de la comunidad científica como temas de interés.

Acto de investidura de Tom Wilson como Doctor Honoris Causa por la Universidad de Murcia en el año 2010.
Acto de investidura de Tom Wilson como Doctor Honoris Causa por la Universidad de Murcia (2010).

De gran parte de todo ese trabajo ha sido testigo y depositaria la revista ‘Information Research: an electronic international journal‘, cuyo trigésimo aniversario celebramos con este número especial. Tal como informa la sección ‘About the Journal’ de su sitio web, fue fundada en 1995 por Tom Wilson en la Universidad de Sheffield y la ha dirigido casi todo este tiempo. En la presentación de la revista se comenta que ‘the Internet and the World ide Web were in their infancy, and the idea was to create a journal that covered the information disciplines in general’, recordando los significativos cambios acaecidos en nuestro campo durante todo este período, de proporciones exponenciales (casi hipergeométricas) en comparación con otros períodos anteriores donde la evolución seguía ritmos mucho más pausados.

Portada de un número de la revista Information Research en su diseño actual.
Portada de un número de la revista Information Research en su diseño actual (https://publicera.kb.se/ir).

La vocación internacional de la revista se observa claramente en el título de esta y constituye uno de sus puntos fuertes. No cabe duda alguna que esto es fiel reflejo de otro aspecto destacado de la personalidad de Tom Wilson: su afán por visitar la mayor parte de países del mundo posible para entrar en contacto con colegas y estudiantes. Gracias a esa actitud abierta y colaborativa tuvimos ocasión de conocerle personalmente y, desde entonces, ha sido para nosotros ese faro que guía a los barcos en la noche hacia puerto seguro donde descansar y avituallarse. Su primera visita a Murcia fue por motivo de un seminario sobre ‘Information Management’ justo el mismo curso que iniciábamos los estudios de Biblioteconomía y Documentación (1989-1999). Desde entonces, el contacto ha sido permanente y el vínculo se fue fortaleciendo hasta el punto de que es la única persona a quien se le ha concedido el Doctorado Honoris Causa a propuesta de nuestra facultad. Hicimos coincidir la ceremonia de investidura con esta distinción académica con la celebración de la conferencia ISIC-2010 para que una parte importante de sus amigos pudiera percibir en primera persona el alto nivel de reconocimiento y devoción que sentimos en esta humilde universidad del sureste de España por nuestro amigo, casi familia, Tom Wilson.

Durante este período de tiempo, el profesor Wilson participó como ponente invitado en el seminario de puesta en marcha de la Cátedra UNESCO en Gestión de Información en las Organizaciones, proyecto que coordinamos en colaboración con la Universidad de La Habana y que tuvo lugar en la Facultad de Economía de la Universidad Nacional Autónoma de México en el año 1995, unos meses antes de la puesta en marcha de la Maestría Internacional en Gestión de Información de la que llevamos realizadas más de 25 ediciones en distintos países de Latinoamérica y que ha permitido a muchos docentes e investigadores acceder al doctorado y progresar en su carrera académica.

En relación con ese progreso de la carrera académica y volviendo a la revista, no recordamos con precisión exacta la fecha, seguro que prácticamente en sus comienzos, el profesor Wilson abrió la posibilidad de publicar artículos en los idiomas portugués y español para colaborar en la difusión de los estudios e investigaciones realizadas en el ámbito iberoamericano, encargando en ese momento la responsabilidad de editar esa sección al profesor José Vicente Rodríguez Muñoz, nuestro maestro y compañero. Este hecho resultó fundamental para la comunicación de nuestras investigaciones en un ámbito internacional al que nos introdujo Tom Wilson, no sólo a los miembros de nuestra universidad, sino a muchos colegas de España, Portugal e Iberoamérica que aprovecharon ese espacio que gentilmente nos abrió el profesor Wilson. En el caso particular de nuestro departamento, Information Research ha sido depositaria de la buena parte de los artículos derivados de las tesis doctorales que hemos realizado a lo largo de estos 30 años, algunos de ellos con una considerable atención e interés por parte de la comunidad investigadora.

Fragmento del artículo 'Advantages of thesaurus representation using the Simple Knowledge Organization System (SKOS) compared with proposed alternatives' publicado en Information Research.
Fragmento del artículo ‘Advantages of thesaurus representation using the Simple Knowledge Organization System (SKOS) compared with proposed alternatives’ publicado en Information Research. Fuente: https://informationr.net/ir/14-4/paper422.html

Hoy en día esa sección sigue recibiendo de forma periódica abundantes peticiones de publicación de artículos, si bien la tendencia actual es presentarlos en inglés (la lingua franca de la Ciencia). Podemos asegurar, sin temor a equivocarnos, que tanto la revista como su director, tienen una pequeña parte de culpa en esa internacionalización de la comunicación de la ciencia en nuestro entorno.

Information Research ha sido siempre una revista digital con el mismo nivel de gestión editorial que otras revistas de más longevas en el tiempo y con mayor presupuesto (algo imaginario en nuestro caso particular). Todo ha sido posible por la disposición de una multitud de compañeros y colegas que nunca han dudado a responder afirmativamente a la “llamada” de Tom Wilson para colaborar con la revista. En todos estos años hemos aprendido muchas cosas y queremos resaltar algunas de ellas. La primera fue la inmensa sorpresa que percibimos ante el nivel de dedicación y atención que investigadores y autores de referencia mundial prestaban a las tareas de revisión y edición de los artículos dentro de un contexto colaborativo impregnado de armonía, equidad y respeto por las decisiones adoptadas por todos los compañeros participantes. Esto nos ha servido a muchos de nosotros para replicarlo en otros proyectos editoriales en los que participamos, aprendiendo todos de todos. Otro aspecto que destacar es la formalidad del proceso editorial, al que muchos autores no estábamos acostumbrados en nuestros entornos locales en aquella época. El uso de una plantilla XHTML para la maquetación rigurosa de los artículos ha permitido además una mayor interoperabilidad y difusión de los textos dentro del ecosistema de la Web Semántica, también embrionario e incipiente cuando se implantó su uso. Continuando con los aspectos formales, la revisión de estilo, que se mantiene en la actualidad, es otra de las fortalezas de nuestra revista, a pesar de que se ha ido trivializando en otras revistas con el paso del tiempo.

Quizá los lectores más antiguos de esta revista recuerden que, al poco de haber sido indexada por la base de datos Social Science Citation Index (hoy parte de la WOS), hubo que introducir algunos cambios en la denominación de los artículos y guardar una copia de este y de las referencias empleadas en un sistema de archivo digital (webcitation.org) para intentar obviar la futilidad propia del ecosistema de la web de aquella época. Tom Wilson condujo inteligentemente este proceso y llevó a cabo la asignación de identificaciones permanentes de artículos para favorecer una preservación de los documentos cuando prácticamente esos conceptos eran embrionarios. Hace un par de años realizamos un sondeo para verificar la existencia de “citas perdidas” de los artículos de nuestra revista en la Web of Science (WOS), un problema presente en muchas publicaciones de acceso abierto y que añade otra tarea más sus comités editoriales. Cuál fue nuestra sorpresa, en realidad no tanto, cuando verificamos que Information Research tenía debidamente computadas todas. La rigurosidad editorial por bandera forma parte de nuestro genoma vital.

En los relativo a la indexación en bases de datos y la posición de la revista en los índices de impacto (estos últimos no han preocupado en exceso a Tom Wilson), la revista siempre ha estado recopilada por los principales productores y distribuidores, además de tener factor de impacto tanto en JCR/JCI como en el índice SJR donde nuestra publicación recibe más citas debido al mayor alcance geográfico del mismo, volviendo a poner de manifiesto que la internacionalización de la revista es una de nuestras fortalezas.

Lo que no ha cambiado nunca es el acceso abierto a los contenidos publicados en nuestra revista sin aplicar coste alguno a los autores de los artículos (las tan controvertidas como perniciosas APCs). Nuestra revista es, desde sus inicios, una revista de acceso abierto “diamante”. Y he aquí la paradoja, Information Research es acceso abierto cuando aún no se había redactado la Declaración de Budapest (2002); incluso Information Research es “diamante” cuando aún no se había tenido que establecer esta categoría de publicaciones para distinguir el verdadero acceso abierto del que pretenden instaurar las editoriales comerciales intenta hacer frente al acoso de las editoriales comerciales, financiadas con dinero público por culpa de una deficiente aplicación del Plan “S” que ha dado pábulo a la proliferación de revistas predadoras y/o de escaso nivel científico que dañan mucho a la comunicación de la ciencia. IR es un claro ejemplo de lo contrario, de cómo el sueño de Tom Wilson se ha consolidado en una publicación de referencia internacional, abierta a todo tipo de autores, consolidados y noveles, y a todas las disciplinas relacionadas con la investigación en información. Por todo ello, creemos de justicia afirmar que, tanto la revista como su impulsor y director hasta el año pasado, son “pioneros del acceso abierto” junto a todos quienes hemos dedicado una parte de nuestro tiempo a la misma.

Autores

Jose-Vicente Rodriguez-Munoz, Francisco-Javier Martinez-Mendez, Pedro-Manuel Diaz-Ortuno, Gregorio Moya-Martinez y Rosana Lopez-Carreno, miembros del Grupo de Investigación en Tecnologías de la Información de la Universidad de Murcia y colaboradores habituales con la revista en los últimos 30 años.

References

Budapest Open Access Initiative. (2002). https://doi.org/10.4403/jlis.it-8629

Fuchs, C., & Sandoval, M. (2013). The diamond model of open access publishing: Why policy makers, scholars, universities, libraries, labour unions and the publishing world need to take non-commercial, non-profit open access serious. TripleC: Communication, capitalism & critique, 11(2), 428-443.  https://doi.org/10.31269/vol11iss2pp428-443  

Rodríguez Muñoz, J.V. et al. (2010) Discursos pronunciados en el acto de investidura del profesor Thomas Daniel Wilson como Doctor Honoris Causa por la Universidad de Murcia. http://hdl.handle.net/10201/40450

cOAlition S. (2019). Accelerating the transition to full and immediate Open Access to scientific publications. Science Europe. https://archive.org/details/plan-s-rationale-310519

Factores «clave» para el ranking de Google

La web Backlinko dedica una página informativa sobre los factores de alineamiento de Google ofreciendo una guía exhaustiva de más de 200 elementos que influyen en el algoritmo. Su propósito es «educar» a las personas que administran sitios web y a profesionales del SEO sobre cómo mejorar la posición de sus páginas en los resultados de búsqueda. En este análisis dividen los factores en categorías clave, como la calidad del contenido, ‘backlinks‘ y la experiencia del usuario (UX) y aspectos técnicos tales como la velocidad de carga y la optimización para el escosistema móvil. También se analizan señales de comportamiento del usuario y actualizaciones constantes del algoritmo.

Imagen inspirada en el ranking de Google creada con Delle - 3, la IA para gráficos de chatgpt
El ranking de Google dibunado por Delle – 3

En la siguiente tabla recogemos una síntesis de los once (como si fuera una alineación de un equipo de fútbol) factores que más se destacan en este artículo.

FactorDescripciónEjemplo
Calidad del ContenidoGoogle prioriza contenido de alta calidad, informativo y relevante.Un artículo detallado y bien investigado sobre un tema específico que responde completamente a las preguntas de los usuarios.
Backlinks‘ (enlaces entrantes)Los enlaces de otros sitios web actúan como votos de confianza. Cuantos más enlaces de entrada de alta calidad tenga tu sitio, mejor se posicionará.Un sitio web que recibe enlaces de universidades y sitios de noticias reconocidos.
SEO TécnicoAspectos técnicos del sitio web, como la velocidad de carga, la compatibilidad con dispositivos móviles y la capacidad de rastreo.Un sitio web optimizado para cargar rápidamente en dispositivos móviles y que utiliza un archivo robots.txt adecuado para permitir el rastreo de los motores de búsqueda.
Optimización de palabras claveUso de palabras clave relevantes en el contenido del sitio web para ayudar a los motores de búsqueda a entender de qué trata el sitio.Un blog de recetas que utiliza palabras clave como “recetas saludables” y “comida vegana” en sus artículos.
Experiencia del usuario (UX)Medida de lo fácil y agradable que es para los usuarios utilizar el sitio web. Google prefiere sitios que proporcionan una buena experiencia de usuario.Un sitio web con una navegación intuitiva, tiempos de carga rápidos y diseño responsive.
Marcado de esquema (Schema Markup)Datos estructurados que se pueden añadir al sitio web para ayudar a los motores de búsqueda a entender mejor el contenido.Un sitio de comercio electrónico que utiliza marcado de esquema para mostrar reseñas de productos y precios directamente en los resultados de búsqueda.
Señales socialesInteracciones sociales como “me gusta”, “compartir” y otros. Aunque no son un factor directo, pueden influir en la visibilidad del contenido.Un artículo que recibe muchas comparticiones en redes sociales como Facebook y Twitter.
Señales de marcaLa percepción general de la marca en línea. Google favorece marcas bien conocidas y respetadas.Un sitio web de una marca reconocida que recibe menciones en medios de comunicación y tiene una fuerte presencia en redes sociales.
Edad del dominioLos dominios más antiguos pueden tener una ligera ventaja, ya que se consideran más confiables.Un sitio web que ha estado activo durante más de 10 años y ha mantenido un historial constante de contenido de calidad.
Velocidad de carga del sitioLa rapidez con la que se carga un sitio web es un factor importante, especialmente en dispositivos móviles.Un sitio web que utiliza técnicas de optimización como la compresión de imágenes y el almacenamiento en caché para mejorar los tiempos de carga.
Intención de búsquedaLa capacidad del contenido para satisfacer la intención del usuario en el momento de la búsqueda.Un artículo que proporciona una guía completa y detallada sobre “cómo plantar un jardín de hierbas” cuando los usuarios buscan información sobre jardinería.
RTabla resumen de los 11 factores más importantes en el ranking de Google. Fuente: Backlinko

Como pasa con las selecciones de fútbol donde cualquier aficionado o aficionada tiene su propio «once«, si buscamos en otras páginas web es más que seguro que algunas de estas características no sean consideradas por sus autores e incluyan otras que hemos dejado fuera. Es ley de vida.

Evan Bailyn, CEO de la empresa de SEOFirst Page Sage‘, escribió en diciembre de 2021 un artículo en Linkedln una nota informatica titulada ‘The 2022 Google Algorithm Ranking Factors‘ donde presentaba los factores ordenados a partir de su «peso» en la fórmula final del algoritmo de ranking, que podemos visualizar en el siguiente diagrama circular.

peso de los distintos factores del algoritmo de ranking de Google en 2022

Como se observa, un 26% de la fórmula final se debe al contenido de calidad (de alto nivel se menciona), un 17% se le asigna a las metaetiquetas del título de la página, los enlaces de entrada (‘backlinks‘) tienen un peso del 15% (con Pagerank era el factor clave, desde 2018 ha descencido mucho en importancia). También tiene importancia la presencia de esa página entre lo que se considera «nichos de expertos» (13%) y la involucración de los usuarios (fidelidad) que alcanza el 11%. Entre estos cinco factores suman un poco más del 75% del peso de la fóruma final según Evan Bailyn. Aquí va la tabla completa.

factores principales del algoritmo de Google según firstpagesage.com

¿Qué es «contenido de calidad» para Google?

Son varios aspectos a considerar:

Se trata de contenido original, único y valioso. Google da preferencia al contenido nuevo y único. Es conveniente crear entradas que respondan a las preguntas de sus lectores, que aporten valor y que sean originales. Como regla general, Google premia el contenido de liderazgo intelectual producido al menos dos veces por semana. Si tu contenido es similar al de otras páginas web, causará un impacto negativo en tu SEO. Para empezar, el motor podría no indexar y clasificar la página y ralentizará la tasa de rastreo de su sitio web (la web se hará “obsoleta”). Por lo tanto, cuando creemos contenido, ha de ser diferente y mejor que el de otros sitios web clasificados para el término de búsqueda. Ya lo avisaba Bill Gates en 1996 en su frase «Content is king» (que viene a ser I Ley Universal de la Gestión de Contenidos en la Web para mis alumnos).

Hay que mantener el contenido fresco y actualizado. Si las publicaciones se actualizan y se añade habitualmente información  nueva, se envía una señal positiva al motor de búsqueda. La frescura del contenido juega un papel importante si en nuestras entradas se tratan noticias o tendencias. En estos casos, Google prefiere las páginas que proporcionan la información más reciente. Por ejemplo, si escribimos sobre la crisis sanitaria mundial, nuestro contenido debe contener noticias e investigaciones recientes. Una forma sencilla de encontrar la información más reciente para mantener tu contenido fresco es utilizar Google Trends.

La longitud del contenido es otro factor clave. Una de las preguntas recurrentes en SEO ha sido siempre si la extensión del contenido forma parte de los factores de clasificación de Google. La respuesta es “”. Según diferentes estudios, los posts con 1.890 palabras de media se sitúan en la primera página de resultados. Dicho esto, no hay una regla rígida por la que debamos ceñirnos a un límite de palabras. Lo mejor es crear contenido con profundidad y que cubra un tema con gran detalle. Google prefiere las páginas que responden completamente a la pregunta del usuario y proporcionan soluciones detalladas.

longitud de entradas en la web y posición en google
Relación entre la longitud de una entrada web y la posición en la respuesta de Google.

La estructura del contenido y su organización también influye en la valoración de su calidad. Las entradas deben estar bien organizadas y estructuradas. Esto facilita a los visitantes la lectura y la búsqueda de soluciones a sus problemas. Para mejorar la estructura y la organización de estos artículos, se pueden utilizar distintos niveles de encabezado (H2, H3, H4, etc.) para agrupar el contenido. Mantener debidamente actualizado el fichero sitemap.xml ayuda también. También podemos utilizar etiquetas HTML para viñetas  y listas numéricas para organizar aún más el contenido. Esto es beneficioso ya que Google recoge estas listas y las muestra como fragmentos destacados para diferentes palabras clave.

Evolución de internet

Hoy en día usamos la expresión “nativos digitales” para referirnos a las personas que han crecido con internet y la usan permanentemente con una habilidad consumada. Estas personas sienten atracción por todo lo relacionado con las TIC por medio de las cuales cubren una buena parte de sus necesidades de entretenimiento, diversión, comunicación, información y, tal vez, de formación.

Trabajo en un centro de compiutación en los años 70.
Ordenador de los años 70

Para estas personas, conocer que el primer mensaje de correo electrónico constaba de una palabra de dos letras: «Hi» y que fue enviado en octubre del año 1969 por Kleinrock desde el MIT (Instituto Tecnológico de Massachussets) al Network Information Center de la Universidad de Stanford, puede resultar increíble a la par que paradójico, pudiendo llegar a ser para ellos bastante complicado aceptar que internet ya existía cuando sus padres iban al instituto, cuando The Beatles era aún un grupo de música en activo que acababa de editar el disco “Yellow Submarine”, la famosa Guerra de Vietnam estaba en su apogeo, el Muro de Berlín seguía en su sitio (sin graffiti alguno y con muchos guardias), en los Juegos Olímpicos, de forma repetitiva (a veces apabullante) atletas «amateurs» de un país llamado CCCP (siglas en cirílico de Союз Советских Социалистических Республик, la antigua Unión Soviéticaganaban montones de medallas cada cuatro años.

Cubierta del disco Yellow Submarine de The Beatles
Cubierta y parte trasera del LP «Yellows Submarine» de The Beatles

Y sin embargo, parafreseando a Galileo: «todo eso es cierto«.

Otras páginas sobre la evolución de internet:

Telefónica. Historia de Internet: ¿cómo nació y cuál ha sido su evolución? https://www.telefonica.com/es/sala-comunicacion/blog/historia-internet-como-nacio-evolucion/

ONTSI. La evolución de Internet en España: del Tesys a la economía digital. https://www.ontsi.es/sites/ontsi/files/2022-01/50%20A%C3%B1os%20de%20la%20Red%20de%20Redes.pdf

Wikipedia. Historia de Internet. https://es.wikipedia.org/wiki/Historia_de_Internet

Google dedica al cambio climático el ‘doodle’ del 22 de abril – Día de la Tierra

El buscador Google quiere llamar la atención sobre los devastadores efectos del cambio climático acelerado que estamos viviendo y que todavía hay gente que lo niega. Para ello, dedica su ‘doodle‘ de hoy a una animación que destaca imágenes reales del paso del tiempo en determinadas zonas del planeta desde 1986 a 2020.

'doodle' de Google en formato animación con imágenes de los efectos del cambio climático

Para las Naciones Unidas (ONU), la celebración de este día aspira a recordar la necesidad de «avanzar hacia una economía más sostenible que funcione tanto para las personas como para el planeta”.

Precisamente hoy, y en la sede central de esta organización, se celebra el evento ‘Dialogue on Harmony with Nature‘ en el que están invitados a participar Teresa Vicente y Eduardo Salazar, profesores de la Universidad de Murcia, quien con Mario Cervera, alcalde del municipio de Los Alcázares, expondrán en tan destacado foto, la propuesta de iniciativa legislativa popular impulsada desde la Clínica Jurídica de la Facultad de Derecho y que se encuentra en trámite en el Congreso de los Diputados, tras recoger 639.000 firmas de apoyo de ciudadanos y ciudadanas.

Efectos de la anoxia en el Mar Menor en el verano de 2021. 16 toneladas de peces muertos.

El evento se podría seguir en streaming desde la dirección https://media.un.org/en/webtv/ y desde la página principal de la Universidad de Murcia.

Cartel del Día de la Madre Naturaleza de Naciones Unidad, año 2022

Berners-Lee vende una copia digital del código original del primer navegador web por más de 5 millones de dólares.

Tim Berners Lee

Tim Berners Lee

Tim Berners Lee creó la WWW en 1989, conectando diferentes piezas de información en internet a través de hipervínculos. Para ello construyó el primer navegador y servidor web, y siempre se negó a patentar su invención porque quería garantizar el acceso universal a este nuevo sistema. En el año 1993, el CERN (la organización de investigación para la que trabajaba) renunció a todos sus derechos sobre la tecnología y la puso en el dominio abierto.

Hace unos días se anunció la subasta de una copia de ese código original (y de una carta firmada digitalemente por Berners-Lee y alguna otra fruslería) en Sotheby’s, pero en forma de una NFT (‘Tokens no fungibles’, por sus siglas en inglés, archivos digitales que se basan en la misma tecnología que sustenta las criptomonedas para crear un registro inalterable de una creación digital, que no puede ser modificado o copiado sin perder su firma criptográfica original). La recaudación iba a ser íntegramente donada con fines sociales.

Berners-Lee dijo al diario inglés ‘The Guardian‘ que «los códigos y protocolos centrales en la web están libres de regalías, como siempre lo han sido». Y no estaba «vendiendo la web«, y no habrá que empezar a pagar dinero para seguir enlaces porque “no estoy vendiendo el código fuente, vendo una imagen que hice, con un programa escrito en Python que escribí yo mismo, de cómo se vería el código fuente si estuviera pegado en la pared y firmado por mí».

Sotheby’s describió el lote como «la única copia firmada del código del primer navegador web existente«, comparando su venta con la de los documentos manuscritos de una figura histórica. Las NFT han sido criticadas por su impacto en el medio ambiente, ya que la cadena de bloques, donde los registros de propiedad se almacenan en un libro de contabilidad digital, requiere grandes cantidades de energía para funcionar. Sotheby’s dijo que pagaría una compensación de carbono por los «costos de acuñación y transacción de la venta».

Si quieres «revivir» cómo funcionaba ese primer navegador web hace algo más de 30 años, el CERN ha preparado un enlace para ello.

HyperMedia browser/editor. El primer navegador web que utilizó Berners-Lee para crear la web.
HyperMedia browser/editor. El primer navegador web que utilizó Berners-Lee para crear la web.

El origen de la palabra «ordenador».

IBM 650, finales de los años 50

Tanto la palabra «ordenador» como la palabra «informática» son de origen francés (‘informatique‘ fue acuñado por el ingeniero Philippe Dreyfus como contracción de information + automatique para designar el tratamiento automático de la información), más allá del mero cálculo numérico. Ambos términos comparten una misma idea: que las máquinas que se estaban desarrollando de forma frenética en los años 60 servían para algo más que para contar, tal como hacían las calculadoras (concepto más cercano a la idea de ‘computer’ que había en esos tiempos).

Por esta razón, cuando la empresa IBM quiso introducir en Francia su equipo 650 en el año 1955, su responsable de publicidad en este país, François Girard, insistió en buscar una palabra más familiar en su lengua y para ello recurrió (hizo bien sin duda alguna) a un antiguo profesor de filología en la Sorbona. Jacques Perretquien redactó un informe filológico proponiendo varios términos, destacando la palabra ‘ordonnateur‘ («alguien que lo pone todo en orden») que provenía del latín ‘ordinare‘.

IBM 650, finales de los años 50

El IBM 650 del año 1955.

Finalmente, IBM no terminó de hacer caso (del todo) al viejo profesor e introdujo la palabra ‘ordinateurcomo una adaptación «deliberada» por su trasfondo social y religioso en francés, que termina introduciéndose como término de normal uso en francés y se «trasladó» a otras muchas lenguas, como el español que usamos en Europa (porque en América se sigue usando «computador» o «computadora» de forma masiva, y bien que hacen).


Revisión (febrero de 2026): le he pedido a chatGPT que dibuje una infografía con una línea del tiempo de los ordenadores más destacados que fabricó IBM desde el final de la II Guerra Mundial y la aparición del IBM PC a principios de los 80.

Hitos en la fabricación de los ordenadores de IBM
Hitos en la fabricación de los ordenadores de IBM. Imagen elaborada por chatGPT.

1989-2014: WWW, de una propuesta de gestión de información a un universo de información

En noviembre de 2014 estuve de visita en la Universidade Estadual Paulista «Julio de Mesquita Filho», más concretamente en el Campus de Marilia. El motivo de la misma fue participar en el Programa de Posgrado de Ciencias de la Información, impartiendo una conferencia el segundo día de mi estancia y un seminario sobre recuperación de datos y recuperación de información al final de la misma. Antes de proseguir quiero agradecer a los compañeros y estudiantes brasileños sus muchas atenciones hacia mi persona, son unos grandes anfitriones y mejores personas.

Edificio de aulas del campus de Marilia en la UNESP
Faculdade de Filosofia e Ciências – Universidade Estadual Paulista «Júlio de Mesquita Filho» – Câmpus de Marília (UNESP).

La conferencia se titulaba «1989-2014: WWW, de una propuesta de gestión de información a un universo de información por descubrir» y en la misma llevaba a cabo un pequeño homenaje a la creación de la WWW por parte de Berners-Lee como una propuesta de nuevo sistema para la gestión de la información, algo que muchos desconocen. 

fragmento de la primera página de la propuesta de Tim Berners Lee sobre la WWW
Fragmento de la portada de la propuesta de Tim Berners Lee sobre la WWW

He revisado algunos errores en la redacción original del texto de la conferencia y la he publicado en el respositorio Digitum de nuestra universidad. Espero que guste, hice un amplio recopilatorio de hitos y conceptos alrededor de la gestión y de la recuperación de información.