Recuperación de información

New architectures for presenting search results based on web search engines users experience

logo journal

Hoy voy a hacer un poco de «autopromoción» enlazando con el texto que presentamos en la última Conferencia ISIC que celebramos en Murcia el pasado septiembre de 2010 y que ahora Tom Wilson edita en su revista ‘Information Research: an international electronic journal‘.

Este artículo trata sobre cómo está cambiando los motores de búsqueda la presentación de los resultados en función de los cada vez más dinámicos hábitos de recuperación y manejo de la web por parte de los usuarios. Examina la evolución de los motores de búsqueda web y cómo sus arquitecturas de presentación de resultados han cambiado en respuesta a la experiencia y necesidades de los usuarios. Los autores destacan que los motores de búsqueda han sido, siguen siendo y probablemente seguirán siendo los sistemas más utilizados en la web para la recuperación de información, dada su presencia dominante desde hace más de quince años y la fuerte lealtad de los usuarios hacia ellos .

El trabajo se estructura en torno a una revisión histórica y analítica de las generaciones de motores de búsqueda y sus interfaces. En una primera generación, los buscadores clásicos —junto con directorios y metabuscadores— ofrecían resultados principalmente como listas de enlaces ordenados por algoritmos tradicionales, dominando la navegación web en sus inicios . Sin embargo, con el tiempo la atención se desplazó del mero tamaño del índice o la velocidad de respuesta hacia la eficiencia de recuperación y la satisfacción del usuario, incluyendo factores como la relevancia contextual y el feedback implícito derivado de la interacción usuario-sistema .

El artículo identifica una segunda generación de motores de búsqueda, caracterizada por interfaces más sofisticadas que integran diferentes fuentes de información (textos, imágenes, vídeos, noticias, etc.) y funcionalidades que responden directamente a las demandas de los usuarios. Por ejemplo, los buscadores ya no solo devuelven enlaces; ofrecen acceso directo a contenidos específicos (como imágenes o reproducciones de vídeo), recomendaciones, búsquedas relacionadas y asistentes que mejoran la experiencia de búsqueda . 

Alegoría clara del paso de la presentación secuencial a la arquitectura modular de resultados, que es central en el artículo.
Alegoría clara del paso de la presentación secuencial a la arquitectura modular de resultados

El análisis comparativo de Yahoo!, Google y Bing muestra cómo cada uno aplica tendencias de presentación (como diseños de múltiples columnas o herramientas auxiliares) con el objetivo de hacer la experiencia más interactiva y personalizada, aunque con diferencias en la implementación y alcance . En conclusión, los autores sostienen que la evolución de los motores de búsqueda implica tanto avances tecnológicos como una transformación en la forma en que los usuarios interactúan y perciben la información en línea, dando lugar a un nuevo paradigma de búsqueda en Internet .

logo journal

Martínez, F.J., Pastor, J.A., Rodríguez, J.V., López, R. and Rodríguez Jr., J.V. (2011). «New architectures for presenting search results based on Web search engines users experience» Information Research16(1) paper 461. [Available at http://InformationR.net/ir/16-1/paper461.html]

Si alguien quiere el texto original en español sólo tiene que escribirme

¿Tienen ya 20 años los motores de búsqueda?

cliente de Archie, el primer buscador en internet

He leído un comentario en facebook de Tom Wilson publicado en la revista New Scientist sobre el vigésimo aniversario de la aplicación Archie que aprovechan los autores para celebrar el aniversario de los motores de búsqueda. Lo cierto es que en 1990 aún no habíamos entrado la mayoría de nosotros en internet pero algunos de nosotros sí hemos utilizado ese sistema que, tal como escribí en su momento en mi tesis doctoral:

«la mayoría de los autores coinciden en que el primer motor de búsqueda desarrollado en la red fue Archie, creado en 1990, aunque no fue hasta la creación del primer navegador web, Mosaic, cuando se propició el crecimiento de los documentos publicados en la web»

De ahí surge la necesidad de disponer de herramientas de búsqueda sofisticadas que terminaron siendo los sistemas de recuperación de información en la web. Es muy posible que casi nadie recuerde este sistema (Archie). Era una base de datos que contenía información sobre el contenido de servidores FTP Anónimo dispuestos en la red Internet. La usábamos para localizar en qué servidor FTP se podía encontrar un determinado recurso (por ejemplo el cliente de correo Eudora o el navegador Nestcape) y entonces lanzábamos la descarga del módulo ejecutable o del ZIP.

cliente de Archie, el primer buscador en internet

Recuerdo que entonces estos ficheros se almacenaban en esos servidores en nombres casi crípticos tales como «NETSCP342.exe» o «EUDOR351.zip«, aunque, tal como se ha podido comprobar, no representaba mucho problema. Posteriormente Archie tuvo un «lavado de cara» y se podía acceder a este sistema de búsqueda vía web. Si bien tengo dudas de que Archie fuera el primer motor de búsqueda, indudablemente es el antecedente más antiguo de otros sistemas de búsqueda (por ejemplo, los empleados en las aplicaciones de descarga/intercambio de ficheros P2P) y por supuesto, podría decirse sin lugar a duda alguna que es el «bisabuelo» de sitios web como Softonic.

Alegoría al 20 cumpleaños de Archie en el año 2010
20 cumpleaños de Archie en el año 2010

TrustRank o la lucha ‘anti spam’

TrustRank de google, lucha contra el webspamming

TrustRank de google, lucha contra el webspamming

En la búsqueda de mejorar la efectividad de Google contra el ‘web spamming‘ hace poco más de un año trascendió el trabajo de Zoltán GyöngyiHector Garcia-Molina y Jan Pedersen titulado ‘Combating Web Spam with TrustRank‘, propuesta de algoritmo de posicionamiento basado en enlaces que podría llegar a sustituir a PageRank.

La idea fundamental de este algoritmo la comentaban sucinta y claramente en alt64:

  1. Google desea que en las primeras posiciones de los resultados de búsqueda encontremos páginas de cierta relevancia y que estén siendo recomendadas por otras páginas que a su vez también tengan relevancia.
  2. Para determinar el PageRank, el motor Google analiza el número de enlaces que provienen de otras páginas web y su PageRank.
  3. El algoritmo TrustRank, parte de la misma base. Pero en lugar de valorar la importancia de una recomendación en función del PageRank de la página que recomienda, lo hace a partir de una serie de páginas web que han sido consideradas importantes por humanos en lugar de por algoritmos.
  4. A las páginas web que los humanos determinan como importantes se las considera «web semilla» y a sus enlaces se les asigna un valor. Y será ese valor el que se irá transmitiendo por toda la red.

Para ilustrarlo con un ejemplo: Supongamos que disponemos de una web semilla A que transmitirá un valor de 100 TrustRank a todas las webs a las que enlace. Estas páginas, a su vez, transmitirán un TrustRank de 99 a todas las webs a las que enlacen. Y éstas últimas, transmitirán un TrustRank de 98 a las que ellas enlacen.

Para mitigar la degradación del TrustRank a medida que se distancia de las webs semilla, en el algoritmo se ha incluido un corrector que tiene en cuenta el número de grados que hay entre la web semilla y la web que recibe el TrustRank, sin anular completamente la distancia que las separa de la semilla».

En la propuesta inicial aún había que refinar algunos detalles, tales como esa corrección en nodos «lejanos», cuáles serán los criterios que ha de cumplir una página web para ser considerada «semilla» y también dónde se debe cortar el factor de corrección de una página para que no incorporara (o sí incorporara) un valor negativo de TrustRank. No parece que estos factores fueran a modificar sustancialmente la idea pero un poco más de un año después no se ha vuelto a hablar del tema. ¿Alguien sabe por qué?

Anatomía de un motor de búsqueda a gran escala: Google

google en 1997

En el año 1997, dos estudiantes (desconocidos en ese momento) Sergey Brin y Larry Page escribieron el artículo ‘The Anatomy of a Large-Scale Hypertextual Web Search Engine‘ en el que nos presentaban a toda la comunidad científica cómo funcionaba un «juguetito» que habían diseñado en la Universidad de Stanford al que pusieron de nombre Google. Este artículo es básico para todos aquellos que quieran iniciarse en el estudio de los sistemas de recuperación de información en la web pero, tal como les he comentado varias veces a mis alumnos, el mismo se hace un poco complicado de leer, no solo porque esté en Inglés sino también por la amplia profusión de términos y vocablos muy técnicos (muy de ‘tecnojerga’ vamos).

Arquitectura de alto nivel del buscador Google
Arquitectura de alto nivel del buscador

 Por ello aplaudo con alegría y alborozo el esfuerzo de José Dueñas, quien en su blog ha publicado una traducción (aún parcial) de este histórico documento a español.

Actualización de 2026.

Le he pedido a chatGPT que prepare un resumen de 500 palabras del artículo original. He aquí el resultado:

Claro — aquí tienes un resumen preciso y didáctico del artículo académico que has enlazado: “The Anatomy of a Large-Scale Hypertextual Web Search Engine” de Sergey Brin y Lawrence Page (1998), disponible en la URL que compartiste. (SNAP)


📄 Resumen del artículo: The Anatomy of a Large-Scale Hypertextual Web Search Engine

🧠 Contexto y objetivo

El artículo presenta por primera vez una descripción técnica detallada de Google, un motor de búsqueda a gran escala diseñado para explotar la estructura de la web de hipervínculos (hypertext) con el fin de mejorar la calidad de los resultados de búsqueda respecto a los sistemas existentes en los años 90. (SNAP)

🚀 Motivaciones principales

  1. Escalabilidad
    La web crecía de forma exponencial tanto en número de documentos como en número de consultas, lo que hacía extremadamente difícil indexar y buscar eficientemente. (SNAP)
  2. Calidad de resultados
    Los motores de búsqueda tradicionales basados en coincidencia de palabras clave (keyword matching) devolvían muchos resultados irrelevantes. (SNAP)

El objetivo de Brin y Page fue construir un sistema que escalara bien con grandes cantidades de contenido y al mismo tiempo produjera resultados de alta calidad aprovechando la información presente en los enlaces entre páginas. (ScienceDirect)


🔎 Componentes clave del sistema

1. 📑 Crawler e indexación

Google incluye un crawler distribuido capaz de recorrer millones de páginas web, descargar su contenido y almacenarlo eficientemente. Las páginas se transforman en índices que permiten búsquedas rápidas. (SNAP)

2. 🔗 Uso de la estructura de hipervínculos

Una de las grandes innovaciones del artículo es cómo Google utiliza la estructura de enlaces entre páginas como una señal de relevancia:

  • Cada enlace se interpreta como un “voto” o referencia de calidad.
  • No todos los enlaces valen igual: los que provienen de páginas importantes pesan más. (Siddharth Jain)

Esto se materializa en el algoritmo PageRank (desarrollado por Page y Brin), que asigna a cada página web un valor numérico de importancia basado en la red de enlaces. (Wikipedia)

3. 🧠 PageRank — ranking basado en enlaces

El artículo introduce y describe cómo PageRank:

  • Asigna valores a páginas según cuántos enlaces entrantes tienen.
  • Ajusta esos valores considerando la “importancia” de las páginas que emiten esos enlaces. (Wikipedia)

Este enfoque permite priorizar páginas con mayor probabilidad de ser relevantes para el usuario frente a páginas con muchas palabras clave sin valor real.


📌 Ventajas del enfoque de Google

  • Mayor precisión en los resultados al filtrar páginas irrelevantes.
  • Escalabilidad real para miles de millones de páginas web.
  • Aprovechamiento de metadatos implícitos (como el texto ancla de los enlaces) para enriquecer la representación de los contenidos. (Siddharth Jain)

📊 Contribución científica

Este artículo fue uno de los primeros análisis públicos detallados de un motor de búsqueda a gran escala y sentó las bases de lo que hoy es el motor de búsqueda dominante en internet. Su enfoque en estructura de la web y ranking de enlaces ha influido en una enorme cantidad de trabajo posterior en minería de grafos, recuperación de información y sistemas distribuidos. (terriblesoftware.org)


¿Influye el Pagerank de Google en el posicionamiento de Yahoo!?

google y yahoo search, logos
google y yahoo search, logos

Lo normal sería contestar que no a esa pregunta, pero tras leer el trabajo ‘The ranking algorithm of Yahoo‘ en el sitio web A promotion guide, comienzo a tener mis dudas (más o menos las mismas que tiene el autor del trabajo). En el artículo se recoge un pequeño experimento conducente a intentar establecer cuáles de los parámetros que normalmente afectan al posicionamiento son verdaderamente empleados por Yahoo Search!. Ya en el planteamiento del trabajo el autor presenta la posibilidad de que este buscador use el algoritmo Pagerank de una página como elemento del posicionamiento.

Tags, metadatos y el futuro

Vuelvo a la carga con el tema de los metadatos. Ya prometí en su día «embeberme» de toda esa metacultura y convertirme en un defensor a ultranza de la misma, pero lo cierto es que estoy fracasando en el intento. Otro día podré contar una «meta-experiencia» que estamos «meta-viviendo» en estas fechas y lo cierto es que no es para repetirla, pero vamos en la vida todo es posible, así que a esperar. Pues bien, ahora más en serio, ayer en la web Google Dirson posteaban lo siguiente:

¿Seguirán funcionando los tags en un futuro?

«[05-12-2005] Muchos servicios que almacenan información de diferentes tipos, como Flickr (fotografías), Technorati (posts de blogs), ‘del.icio.us’ (enlaces) o YouTube (vídeos), utilizan los populares ‘tags’ (‘etiquetas’) para intentar ordenar los contenidos y conseguir que los elementos sean fácilmente localizables.

Por ejemplo, podemos encontrar fotos sobre Paris en Flickr (utilizando el tag ‘paris’), posts que hablen sobre la Xbox en Technorati (con el tag ‘xbox’), vídeos de skate en YouTube (tag ‘skateboard’), o incluso cuáles son los tags más populares en ‘del.icio.us’ que da una idea de qué temas interesan más en la WWW.

Sin embargo, ¿por qué deben los usuarios perder unos segundos escribiendo unas palabras sobre las que tratan sus contenidos? ¿Y si no las escriben todas? ¿Y si las escriben mal? Por ejemplo, si buscamos ‘surf’ en Flick, no aparecen muchas de las fotografías que se muestran si buscamos ‘surfers’, cuando la temática es la misma. La tecnología de los tags es similar a la que utilizaban aquellos ‘viejos buscadores’ que nos pedían que insertásemos «cinco palabras clave separadas por comas» cuando queríamos dar de alta nuestra URL.

¿No puede ser el propio servicio el que determine los temas que contiene la fotografía, vídeo, post, etc? Quizá nos falten algunos años de investigación tecnológica (ya hemos hablado sobre las búsquedas de ‘tercera generación’ o sobre herramientas como Riya que reconocen elementos dentro de las imágenes), pero -como dice John Battelle en este artículo- las tags no son el futuro.»

Tipos de metaetiquetas y metadatos

Imagino que la frase «las tags no son el futuro» quiere decir que los autores de las páginas web seguiremos sin hacer uso de las metaetiquetas, que los metadatos tendrán que formar parte de los recursos electrónicos en otra parte del documento y finalmente, que los metadatos por supuesto se generarán solitos ya que los autores no están muy «por perder unos segundos» de sus atareadas y globalizadas vidas.

Aunque el panorama es triste, peor lo pone la frase, porque si uno la lee del tirón y no reflexiona, puede llegar a pensar que no podremos implantar un metadato Dublin Core en las páginas web porque van a desaparecer las tags («etiquetas»). Con esa forma de expresión y con el contenido de la misma, no es de extrañar que los motores de búsquedas «pasen literalmente» de los metadatos. 

El carácter selectivo de la recuperación de información

recuperación de datos e informaciones (nube)
recuperación de datos e informaciones (nube)

Uno de los libros fundamentales sobre recuperación de información es la obra ‘Language and representation in information retrieval de D.C. Blair de 1990. Y una de sus principales aportaciones es, sin duda alguna, el llegar a establecer una clara diferenciación entre el término ‘data retrieval’ y el término ‘information retrieval’, utilizando como criterios distintivos: 

  1. En recuperación de datos se usan preguntas altamente formalizadas, cuya respuesta es directamente la información deseada. En cambio, en recuperación de información las preguntas resultan difíciles de trasladar a un lenguaje normalizado (aunque existen lenguajes para ello son de naturaleza mucho menos formal que los empleados en los sistemas relacionales) y la respuesta es un conjunto de documentos que pueden contener, sólo probablemente, lo deseado, con un evidente factor de indeterminación.
     
  2. De lo anterior y según la relación entre el requerimiento al sistema y la satisfacción de usuario, la recuperación de datos es determinista y la recuperación de información es posibilista, por causa del nivel de incertidumbre presente en la respuesta.
     
  3. En cuanto al éxito de la búsqueda, en recuperación de datos el criterio a emplear es la exactitud de lo encontrado, mientras que en recuperación de información, el criterio de valor es el grado en el que la respuesta obtenida satisface las necesidades de información del usuario, es decir, su percepción personal de utilidad, más conocido como la relevancia de la respuesta..

Jesús Tramullas destaca un aspecto de las reflexiones de Blair, “la importancia, en ocasiones ignorada, que tiene el factor de predicción. Predicción por parte del usuario, ya que éste debe intuir, en numerosas ocasiones, los términos que han sido utilizados para representar el contenido de los documentos, independientemente de la presencia de mecanismos de control terminológico. Este criterio de predicción es otro de los elementos que desempeñan un papel fundamental en el complejo proceso de la recuperación de información” y que no se presenta en el campo de la recuperación de datos.

Metadatos y usabilidad

Seguimos intentando convencernos de las ventajas del uso de los metadatos. El otro día, buscando en Google por «metadatos» y «usabilidad» me encontré un trabajo con la siguiente frase al comienzo:

frase de Ricardo Baeza Yates

Supongo que algunos ya saben que el autor de esta frase es el profesor e investigador Ricardo Baeza-Yates en el artículo titulado «Ubicuidad y Usabilidad en la Web» escrito en 2002. El mismo introduce la idea de que un sitio web “bueno” no se define únicamente por su estética, sino por una secuencia de condiciones necesarias para que el usuario llegue a usarlo y, sobre todo, vuelva a visitarlo. El autor parte de un princicio claro: la web crece a un ritmo tan acelerado (y con tanta renovación de páginas) que es imposible pensar que todos los sitios van a ser diseñados por especialistas en interfaces. De ahí se desprenden tres salidas: (1) facilitar que se diseñen sitios razonables sin ser experto; (2) formar a más gente en diseño o (3) resignarse a un ecosistema web difícil de usar. Mediante la analogía con una tienda física, Baeza-Yates explica que la desorganización, la mala ayuda y la dificultad para encontrar lo que se busca llevan al abandono del sitio, algo frecuente en cualquier ámbito, no solo en comercio electrónico.

El éxito de una página depende de su facilidad de uso y de localización
El éxito de una página depende de su facilidad de uso y de localización

Sobre esa base, el artículo articula dos conceptos clave en la web: ubicuidad y usabilidad. Primero, un sitio debe ser “ubicuo”: poder ser encontrado y accedido. La ubicuidad se descompone en buscabilidad (que el sitio sea localizable, especialmente a través de buscadores) y visibilidad (que el sitio pueda verse y cargue adecuadamente en condiciones técnicas diversas). Esto implica acciones concretas: asegurar que los buscadores puedan rastrear el sitio (registro, enlaces entrantes, evitar barreras como Flash, mapas de imagen, ‘frames’ o JavaScript mal usado), cuidar el vocabulario de la página principal para que coincida con los términos de los usuarios, y mejorar la posición con enlaces y metadatos (con cautela por el “spam” de metadatos). La visibilidad, por su parte, exige ligereza (tamaños moderados), compatibilidad con distintos navegadores y sistemas, y atención a la accesibilidad (WAI), recordando que los robots de búsqueda “son ciegos” y que los enlaces textuales ayudan a usuarios y buscadores.

Después, una vez que el sitio se encuentra y se ve, entra la usabilidad, definida (Norma ISO 9241-11) como efectividad, eficiencia y satisfacción en un contexto de uso. Se revisan atributos clásicos (aprendizaje, velocidad, errores, retención, satisfacción) y otros complementarios (control, apoyo a habilidades, privacidad). Finalmente, se expone la ingeniería de usabilidad y la evaluación como núcleo del proceso: inspecciones, pruebas con usuarios, pensar en voz alta, evaluaciones heurísticas, caminatas cognitivas y encuestas. El texto culmina con heurísticas y recomendaciones prácticas (consistencia, prevención de errores, diseño minimalista, rapidez, compatibilidad, diseño para diversidad, escritura concisa), subrayando que la verdadera meta es la fidelidad del usuario: que encuentre, use, se “seduzca” y regrese.