Pagerank

TrustRank o la lucha ‘anti spam’

TrustRank de google, lucha contra el webspamming

La idea fundamental de este algoritmo la comentaban sucinta y claramente en alt64: «Google desea que en las primeras posiciones de los resultados de búsqueda encontremos páginas de cierta relevancia y que estén siendo recomendadas por otras páginas que a su vez también tengan relevancia. Para determinar el PageRank, Google analiza el número de enlaces que provienen de otras páginas web y su PageRank. El Trust Rank, parte de la misma base. Pero en lugar de valorar la importancia de una recomendación en función del PageRank de la página que recomienda, lo hace a partir de una serie de páginas web que han sido consideradas importantes por humanos en lugar de por algoritmos.
Seguir leyendo…

Anatomía de un motor de búsqueda a gran escala

google en 1997

google en 1997

En el año 1997, dos estudiantes (desconocidos en ese momento) Sergey Brin y Larry Page escribieron el artículo ‘The Anatomy of a Large-Scale Hypertextual Web Search Engine‘ en el que nos presentaban a toda la comunidad científica cómo funcionaba un «juguetito» que habían diseñado en la Universidad de Stanford al que pusieron de nombre Google. Este artículo es básico para todos aquellos que quieran iniciarse en el estudio de los sistemas de recuperación de información en la web pero, tal como les he comentado varias veces a mis alumnos, el mismo se hace un poco complicado de leer, no solo porque esté en Inglés sino también por la amplia profusión de términos y vocablos muy técnicos (muy de ‘tecnojerga’ vamos).

Por ello aplaudo con alegría y alborozo el esfuerzo de José Dueñas, quien en su blog ha publicado una traducción (aún parcial) de este histórico documento a español.

¿Influye el Pagerank de Google en el posicionamiento de Yahoo!?

google y yahoo search, logos

google y yahoo search, logos

Lo normal sería contestar que no a esa pregunta, pero tras leer el trabajo ‘The ranking algorithm of Yahoo‘ en el sitio web A promotion guide, comienzo a tener mis dudas (más o menos las mismas que tiene el autor del trabajo). En el artículo se recoge un pequeño experimento conducente a intentar establecer cuáles de los parámetros que normalmente afectan al posicionamiento son verdaderamente empleados por Yahoo Search!. Ya en el planteamiento del trabajo el autor presenta la posibilidad de que este buscador use el algoritmo Pagerank de una página como elemento del posicionamiento.

El secreto de Google y el Álgebra Lineal

google y el álgebra lineal
google y el álgebra lineal

La base matemática subyace en el algoritmo de alineamiento de Google (Pagerank en un principio, ahora podríamos hablar de ese algoritmo y múltiples extensiones). El algoritmo lleva a cabo una serie de cálculos recursivos que dificultan su entendimiento y que precisa de simplificaciones matemáticas. Una de ellas es el trabajo «El secreto de Google y el Álgebra Lineal» de Pablo Fernández Gallardo, profesor de la Universidad Autónoma de Madrid que le sirvió al autor para obtener el quinto Premio SEMA a la Divulgación en Matemática Aplicada, otorgado por la Sociedad Española de Matemática Aplicada en septiembre de 2004. Ha sido publicado en el Boletín de la Sociedad Española de Matemática Aplicada 30 (2004), 115-141. En enlace anterior podemos ver la versión en formato de diapositivas y haciendo clic sobre la imagen de la diapositiva accedemos al texto del artículo.

El trabajo explica de forma divulgativa y rigurosa el fundamento matemático que subyace al éxito del buscador Google, centrado en su algoritmo de alineamiento PageRank, cuyo núcleo conceptual se basa en el álgebra lineal. El autor parte de la constatación de que Google se consolidó rápidamente como buscador dominante no solo por la cantidad de información indexada, sino, sobre todo, por la calidad del ordenamiento de los resultados de búsqueda, que difiere de enfoques basados únicamente en la coincidencia de términos.

El artículo concibe a la web como un grafo dirigido, en el que las páginas son los nodos y los enlaces hipervinculados representan aristas. Desde esta perspectiva, la relevancia de una página no depende solo de su contenido, sino del número y la calidad de las páginas que enlazan hacia ella. Esta idea se formaliza mediante una matriz que representa las probabilidades de transición entre páginas, interpretando la navegación de un usuario como un proceso estocástico. El valor de PageRank de una página se define entonces como la probabilidad de que un “navegante aleatorio” se encuentre en ella tras un número elevado de pasos.

Fórmula de Pagerank ilustrada

En esencia, el algoritmo se basa en un cálculo que permite identificar qué páginas son más importantes dentro de toda la red, a partir de la estructura de enlaces que las conectan entre sí., lo que conecta directamente el problema con conceptos clásicos del álgebra lineal, como matrices, autovalores, autovectores y convergencia. El autor explica cómo la introducción de un factor de amortiguación garantiza la existencia y unicidad de la solución, evitando problemas como ciclos cerrados o componentes desconectadas del grafo.

Finalmente, el trabajo subraya el valor didáctico del PageRank como ejemplo de aplicación real del álgebra lineal, mostrando cómo herramientas matemáticas abstractas pueden resolver problemas prácticos de gran escala. Más allá de Google, el artículo pone de relieve la importancia de los modelos matemáticos en la recuperación de información y en el análisis de redes, anticipando su relevancia en ámbitos como la ciencia de datos, la web semántica y los sistemas de recomendación.