buscadores

TrustRank o la lucha ‘anti spam’

TrustRank de google, lucha contra el webspamming

TrustRank de google, lucha contra el webspamming

En la búsqueda de mejorar la efectividad de Google contra el ‘web spamming‘ hace poco más de un año trascendió el trabajo de Zoltán GyöngyiHector Garcia-Molina y Jan Pedersen titulado ‘Combating Web Spam with TrustRank‘, propuesta de algoritmo de posicionamiento basado en enlaces que podría llegar a sustituir a PageRank.

La idea fundamental de este algoritmo la comentaban sucinta y claramente en alt64:

  1. Google desea que en las primeras posiciones de los resultados de búsqueda encontremos páginas de cierta relevancia y que estén siendo recomendadas por otras páginas que a su vez también tengan relevancia.
  2. Para determinar el PageRank, el motor Google analiza el número de enlaces que provienen de otras páginas web y su PageRank.
  3. El algoritmo TrustRank, parte de la misma base. Pero en lugar de valorar la importancia de una recomendación en función del PageRank de la página que recomienda, lo hace a partir de una serie de páginas web que han sido consideradas importantes por humanos en lugar de por algoritmos.
  4. A las páginas web que los humanos determinan como importantes se las considera «web semilla» y a sus enlaces se les asigna un valor. Y será ese valor el que se irá transmitiendo por toda la red.

Para ilustrarlo con un ejemplo: Supongamos que disponemos de una web semilla A que transmitirá un valor de 100 TrustRank a todas las webs a las que enlace. Estas páginas, a su vez, transmitirán un TrustRank de 99 a todas las webs a las que enlacen. Y éstas últimas, transmitirán un TrustRank de 98 a las que ellas enlacen.

Para mitigar la degradación del TrustRank a medida que se distancia de las webs semilla, en el algoritmo se ha incluido un corrector que tiene en cuenta el número de grados que hay entre la web semilla y la web que recibe el TrustRank, sin anular completamente la distancia que las separa de la semilla».

En la propuesta inicial aún había que refinar algunos detalles, tales como esa corrección en nodos «lejanos», cuáles serán los criterios que ha de cumplir una página web para ser considerada «semilla» y también dónde se debe cortar el factor de corrección de una página para que no incorporara (o sí incorporara) un valor negativo de TrustRank. No parece que estos factores fueran a modificar sustancialmente la idea pero un poco más de un año después no se ha vuelto a hablar del tema. ¿Alguien sabe por qué?

Anatomía de un motor de búsqueda a gran escala: Google

google en 1997

En el año 1997, dos estudiantes (desconocidos en ese momento) Sergey Brin y Larry Page escribieron el artículo ‘The Anatomy of a Large-Scale Hypertextual Web Search Engine‘ en el que nos presentaban a toda la comunidad científica cómo funcionaba un «juguetito» que habían diseñado en la Universidad de Stanford al que pusieron de nombre Google. Este artículo es básico para todos aquellos que quieran iniciarse en el estudio de los sistemas de recuperación de información en la web pero, tal como les he comentado varias veces a mis alumnos, el mismo se hace un poco complicado de leer, no solo porque esté en Inglés sino también por la amplia profusión de términos y vocablos muy técnicos (muy de ‘tecnojerga’ vamos).

Arquitectura de alto nivel del buscador Google
Arquitectura de alto nivel del buscador

 Por ello aplaudo con alegría y alborozo el esfuerzo de José Dueñas, quien en su blog ha publicado una traducción (aún parcial) de este histórico documento a español.

Actualización de 2026.

Le he pedido a chatGPT que prepare un resumen de 500 palabras del artículo original. He aquí el resultado:

Claro — aquí tienes un resumen preciso y didáctico del artículo académico que has enlazado: “The Anatomy of a Large-Scale Hypertextual Web Search Engine” de Sergey Brin y Lawrence Page (1998), disponible en la URL que compartiste. (SNAP)


📄 Resumen del artículo: The Anatomy of a Large-Scale Hypertextual Web Search Engine

🧠 Contexto y objetivo

El artículo presenta por primera vez una descripción técnica detallada de Google, un motor de búsqueda a gran escala diseñado para explotar la estructura de la web de hipervínculos (hypertext) con el fin de mejorar la calidad de los resultados de búsqueda respecto a los sistemas existentes en los años 90. (SNAP)

🚀 Motivaciones principales

  1. Escalabilidad
    La web crecía de forma exponencial tanto en número de documentos como en número de consultas, lo que hacía extremadamente difícil indexar y buscar eficientemente. (SNAP)
  2. Calidad de resultados
    Los motores de búsqueda tradicionales basados en coincidencia de palabras clave (keyword matching) devolvían muchos resultados irrelevantes. (SNAP)

El objetivo de Brin y Page fue construir un sistema que escalara bien con grandes cantidades de contenido y al mismo tiempo produjera resultados de alta calidad aprovechando la información presente en los enlaces entre páginas. (ScienceDirect)


🔎 Componentes clave del sistema

1. 📑 Crawler e indexación

Google incluye un crawler distribuido capaz de recorrer millones de páginas web, descargar su contenido y almacenarlo eficientemente. Las páginas se transforman en índices que permiten búsquedas rápidas. (SNAP)

2. 🔗 Uso de la estructura de hipervínculos

Una de las grandes innovaciones del artículo es cómo Google utiliza la estructura de enlaces entre páginas como una señal de relevancia:

  • Cada enlace se interpreta como un “voto” o referencia de calidad.
  • No todos los enlaces valen igual: los que provienen de páginas importantes pesan más. (Siddharth Jain)

Esto se materializa en el algoritmo PageRank (desarrollado por Page y Brin), que asigna a cada página web un valor numérico de importancia basado en la red de enlaces. (Wikipedia)

3. 🧠 PageRank — ranking basado en enlaces

El artículo introduce y describe cómo PageRank:

  • Asigna valores a páginas según cuántos enlaces entrantes tienen.
  • Ajusta esos valores considerando la “importancia” de las páginas que emiten esos enlaces. (Wikipedia)

Este enfoque permite priorizar páginas con mayor probabilidad de ser relevantes para el usuario frente a páginas con muchas palabras clave sin valor real.


📌 Ventajas del enfoque de Google

  • Mayor precisión en los resultados al filtrar páginas irrelevantes.
  • Escalabilidad real para miles de millones de páginas web.
  • Aprovechamiento de metadatos implícitos (como el texto ancla de los enlaces) para enriquecer la representación de los contenidos. (Siddharth Jain)

📊 Contribución científica

Este artículo fue uno de los primeros análisis públicos detallados de un motor de búsqueda a gran escala y sentó las bases de lo que hoy es el motor de búsqueda dominante en internet. Su enfoque en estructura de la web y ranking de enlaces ha influido en una enorme cantidad de trabajo posterior en minería de grafos, recuperación de información y sistemas distribuidos. (terriblesoftware.org)