motores de búsqueda

Los primeros buscadores de la web

En otra entrada comentamos que la expansión de la web a principios de los años 90 pronto desbordó el entorno académico, hábitat natural de internet, y comenzó a expandirse por otros ámbitos: administraciones, empresas, medios de comunicación y particulares (algo más adelante con los blogs), publicándose páginas y sitios web por su cuenta.

Algunos sitios web de prensa de los años 90

En estos primigenios sitios de la «Web 1.0” era frecuente incluir una página con enlaces a otras páginas que parecían interesantes y podían permitir ampliar información a los lectores, a modo de «misceláneas«. Se puede que esto era replicar, en cierto modo, el muy tradicional servicio de referencia que desde tiempos inmemoriales llevan a cabo las personas que trabajan en las bibliotecas. Esto constituyó el germen para el desarrollo de los primeros sistemas de recuperación de información (SRI) en la web: los índices o directorios, sistemas de los cuales Yahoo! fue durante un tiempo el mejor ejemplo.

Estos SRI, como muchos recordamos todavía, son un producto documental considerado una fuente de información de carácter secundario porque dirige a la fuente original, justo lo que hacían y actualmente hacen estos sistemas de recuperación. Una actividad de gestión de información vuelve a confluir con la tecnología de la web. Se llevaba a cabo un seguimiento generalista y se registraban apenas unas pocas páginas de cada sitio web, a diferencia de los motores de búsqueda cuyo propósito es indexar la totalidad de un sitio web (o intentarlo al menos).

Pantalla de inicio de yahoo directory

Con el paso del tiempo, el vertiginoso crecimiento de la web hizo imposible el rastreo manual de los nuevos sitios que iban surgiendo ni la actualización del contenido ya rastreado. El día que Yahoo! se convirtió en motor de búsqueda tras comprar Altavista, comenzó el final definitivo de estos sistemas.

pantalla principal del antiguo buscador Altavista

Propuesta y desarrollo de un modelo para la evaluación de la recuperación de información en Internet

La recuperación de información, como disciplina claramente diferenciada de la recuperación de datos, posee una naturaleza no determinista que provoca ineludiblemente ciertas dosis de incertidumbre a la hora de realizar una operación de búsqueda. Es por ello que, desde el inicio del desarrollo de esta disciplina, ha sugerido una considerable cantidad de propuestas de medida de la efectividad del funcionamiento de los sistemas encargados de esta tarea: los sistemas de recuperación de información (SRI). La consolidación de la World Wide Web como ejemplo paradigmático del desarrollo de la Sociedad de la Información y del Conocimiento, y la continua multiplicación del número de documentos que en ella se publican cada día, propicia la creación de los sistemas de recuperación de información más avanzados, de mayor volumen de documentos gestionados y de mayor popularidad: los motores de búsqueda.

En estos sistemas, no obstante, subyacen las dudas sobre su efectividad, máxime cuando los mismos suelen ofrecer grandes cantidades de referencias entre las cuales abundan muchas poco relevantes con la necesidad de información del usuario. La evaluación de estos sistemas ha sido, hasta el momento, dispersa y dispar. La dispersión procede de la poca uniformidad de los criterios empleados y la disparidad surge de la aperiodicidad de los estudios y por la diferente cobertura de los mismos. Surge entonces la necesidad de proponer el desarrollo de un modelo de evaluación multidimensional de estos sistemas, próximos a los usuarios y al contexto donde se desarrolla, la World Wide Web, entorno difícil de gestionar y que, además, se encuentra afectado de grandes dosis de volatilidad. Nuestra propuesta de modelo de evaluación adapta medidas empleadas en otros procesos de la misma naturaleza, basadas en los juicios de relevancia y en la detección de errores y/o duplicados e implementa una función discreta de ponderación de la relevancia de los documentos recuperados.

Autor Principal: Martínez Méndez, Francisco Javier

Título: Propuesta y desarrollo de un modelo para la evaluación de la recuperación de información en Internet

Mención de Responsabilidad: / Francisco Javier Martínez MéndezRodríguez Muñoz, José Vicente (Profesor Titular de Universidad de Ciencias de la Información, Universidad de Murcia)

Publicación: Alicante : Biblioteca Virtual Miguel de Cervantes, 2003

Nota General: Calificación de la tesis : Sobresaliente cum laude

Portal: Biblioteca Virtual Miguel de Cervantes

Materias:

CDU:

Encabezamiento de materia:

Autor Secundario: Universidad de Murcia , Facultad de Ciencias de la Documentación

Año: 2002

New architectures for presenting search results based on web search engines users experience

logo journal

Hoy voy a hacer un poco de «autopromoción» enlazando con el texto que presentamos en la última Conferencia ISIC que celebramos en Murcia el pasado septiembre de 2010 y que ahora Tom Wilson edita en su revista ‘Information Research: an international electronic journal‘.

Este artículo trata sobre cómo está cambiando los motores de búsqueda la presentación de los resultados en función de los cada vez más dinámicos hábitos de recuperación y manejo de la web por parte de los usuarios. Examina la evolución de los motores de búsqueda web y cómo sus arquitecturas de presentación de resultados han cambiado en respuesta a la experiencia y necesidades de los usuarios. Los autores destacan que los motores de búsqueda han sido, siguen siendo y probablemente seguirán siendo los sistemas más utilizados en la web para la recuperación de información, dada su presencia dominante desde hace más de quince años y la fuerte lealtad de los usuarios hacia ellos .

El trabajo se estructura en torno a una revisión histórica y analítica de las generaciones de motores de búsqueda y sus interfaces. En una primera generación, los buscadores clásicos —junto con directorios y metabuscadores— ofrecían resultados principalmente como listas de enlaces ordenados por algoritmos tradicionales, dominando la navegación web en sus inicios . Sin embargo, con el tiempo la atención se desplazó del mero tamaño del índice o la velocidad de respuesta hacia la eficiencia de recuperación y la satisfacción del usuario, incluyendo factores como la relevancia contextual y el feedback implícito derivado de la interacción usuario-sistema .

El artículo identifica una segunda generación de motores de búsqueda, caracterizada por interfaces más sofisticadas que integran diferentes fuentes de información (textos, imágenes, vídeos, noticias, etc.) y funcionalidades que responden directamente a las demandas de los usuarios. Por ejemplo, los buscadores ya no solo devuelven enlaces; ofrecen acceso directo a contenidos específicos (como imágenes o reproducciones de vídeo), recomendaciones, búsquedas relacionadas y asistentes que mejoran la experiencia de búsqueda . 

Alegoría clara del paso de la presentación secuencial a la arquitectura modular de resultados, que es central en el artículo.
Alegoría clara del paso de la presentación secuencial a la arquitectura modular de resultados

El análisis comparativo de Yahoo!, Google y Bing muestra cómo cada uno aplica tendencias de presentación (como diseños de múltiples columnas o herramientas auxiliares) con el objetivo de hacer la experiencia más interactiva y personalizada, aunque con diferencias en la implementación y alcance . En conclusión, los autores sostienen que la evolución de los motores de búsqueda implica tanto avances tecnológicos como una transformación en la forma en que los usuarios interactúan y perciben la información en línea, dando lugar a un nuevo paradigma de búsqueda en Internet .

logo journal

Martínez, F.J., Pastor, J.A., Rodríguez, J.V., López, R. and Rodríguez Jr., J.V. (2011). «New architectures for presenting search results based on Web search engines users experience» Information Research16(1) paper 461. [Available at http://InformationR.net/ir/16-1/paper461.html]

Si alguien quiere el texto original en español sólo tiene que escribirme

¿Tienen ya 20 años los motores de búsqueda?

cliente de Archie, el primer buscador en internet

He leído un comentario en facebook de Tom Wilson publicado en la revista New Scientist sobre el vigésimo aniversario de la aplicación Archie que aprovechan los autores para celebrar el aniversario de los motores de búsqueda. Lo cierto es que en 1990 aún no habíamos entrado la mayoría de nosotros en internet pero algunos de nosotros sí hemos utilizado ese sistema que, tal como escribí en su momento en mi tesis doctoral:

«la mayoría de los autores coinciden en que el primer motor de búsqueda desarrollado en la red fue Archie, creado en 1990, aunque no fue hasta la creación del primer navegador web, Mosaic, cuando se propició el crecimiento de los documentos publicados en la web»

De ahí surge la necesidad de disponer de herramientas de búsqueda sofisticadas que terminaron siendo los sistemas de recuperación de información en la web. Es muy posible que casi nadie recuerde este sistema (Archie). Era una base de datos que contenía información sobre el contenido de servidores FTP Anónimo dispuestos en la red Internet. La usábamos para localizar en qué servidor FTP se podía encontrar un determinado recurso (por ejemplo el cliente de correo Eudora o el navegador Nestcape) y entonces lanzábamos la descarga del módulo ejecutable o del ZIP.

cliente de Archie, el primer buscador en internet

Recuerdo que entonces estos ficheros se almacenaban en esos servidores en nombres casi crípticos tales como «NETSCP342.exe» o «EUDOR351.zip«, aunque, tal como se ha podido comprobar, no representaba mucho problema. Posteriormente Archie tuvo un «lavado de cara» y se podía acceder a este sistema de búsqueda vía web. Si bien tengo dudas de que Archie fuera el primer motor de búsqueda, indudablemente es el antecedente más antiguo de otros sistemas de búsqueda (por ejemplo, los empleados en las aplicaciones de descarga/intercambio de ficheros P2P) y por supuesto, podría decirse sin lugar a duda alguna que es el «bisabuelo» de sitios web como Softonic.

Alegoría al 20 cumpleaños de Archie en el año 2010
20 cumpleaños de Archie en el año 2010

El secreto de Google y el Álgebra Lineal

google y el álgebra lineal
google y el álgebra lineal guardan relación gracias al algoritmo de ranking

La base matemática subyace en el algoritmo de alineamiento de Google (Pagerank en un principio, ahora podríamos hablar de ese algoritmo y múltiples extensiones). El algoritmo lleva a cabo una serie de cálculos recursivos que dificultan su entendimiento y que precisa de simplificaciones matemáticas. Una de ellas es el trabajo «El secreto de Google y el Álgebra Lineal» de Pablo Fernández Gallardo, profesor de la Universidad Autónoma de Madrid que le sirvió al autor para obtener el quinto Premio SEMA a la Divulgación en Matemática Aplicada, otorgado por la Sociedad Española de Matemática Aplicada en septiembre de 2004. Ha sido publicado en el Boletín de la Sociedad Española de Matemática Aplicada 30 (2004), 115-141. En enlace anterior podemos ver la versión en formato de diapositivas y haciendo clic sobre la imagen de la diapositiva accedemos al texto del artículo.

El trabajo explica de forma divulgativa y rigurosa el fundamento matemático que subyace al éxito del buscador Google, centrado en su algoritmo de alineamiento PageRank, cuyo núcleo conceptual se basa en el álgebra lineal. El autor parte de la constatación de que Google se consolidó rápidamente como buscador dominante no solo por la cantidad de información indexada, sino, sobre todo, por la calidad del ordenamiento de los resultados de búsqueda, que difiere de enfoques basados únicamente en la coincidencia de términos.

El artículo concibe a la web como un grafo dirigido, en el que las páginas son los nodos y los enlaces hipervinculados representan aristas. Desde esta perspectiva, la relevancia de una página no depende solo de su contenido, sino del número y la calidad de las páginas que enlazan hacia ella. Esta idea se formaliza mediante una matriz que representa las probabilidades de transición entre páginas, interpretando la navegación de un usuario como un proceso estocástico. El valor de PageRank de una página se define entonces como la probabilidad de que un “navegante aleatorio” se encuentre en ella tras un número elevado de pasos.

Fórmula de Pagerank ilustrada

En esencia, el algoritmo se basa en un cálculo que permite identificar qué páginas son más importantes dentro de toda la red, a partir de la estructura de enlaces que las conectan entre sí., lo que conecta directamente el problema con conceptos clásicos del álgebra lineal, como matrices, autovalores, autovectores y convergencia. El autor explica cómo la introducción de un factor de amortiguación garantiza la existencia y unicidad de la solución, evitando problemas como ciclos cerrados o componentes desconectadas del grafo.

Finalmente, el trabajo subraya el valor didáctico del PageRank como ejemplo de aplicación real del álgebra lineal, mostrando cómo herramientas matemáticas abstractas pueden resolver problemas prácticos de gran escala. Más allá de Google, el artículo pone de relieve la importancia de los modelos matemáticos en la recuperación de información y en el análisis de redes, anticipando su relevancia en ámbitos como la ciencia de datos, la web semántica y los sistemas de recomendación.