admin

Transparencia y gestión de información

Muchos compañeros míos docentes y profesionales gustan de escribir y opinar, cada vez que surge un nuevo tema de moda, que el mismo representa una gran oportunidad para «los profesionales de la Información y Documentación». Eso es algo recurrente (y lógico, tampoco vamos a criticarlo en exceso, forma parte de la forma de ser humana) que ha acaecido con los sistemas de gestión de la calidad, la usabilidad y el rediseño de webs, la inclusión de metadatos en los documentos publicados en la web y seguramente con muchas otras tecnologías y/o corrientes que ahora no recuerdo. Y mucho me temo que esto también va a pasar con todo lo relacionado con la Ley de Transparencia y Acceso a la Información Pública aprobada hace más o menos un año. En este punto, resulta curioso es que no proliferan, de momento, esos mensajes visionarios de nuevas oportunidades de empleo y riqueza. Algo es algo.

Pero lo cierto es que sí estamos ante un tema importante que debería ser de interés de nuestro sector profesional, en particular en la gestión de información. Esta ley (cuando se desarrolle de verdad y deje de ser palabrería barata conducente a maquillar a uno de los gobiernos más opacos y recovecos que hemos tenido en España), instrumentaliza el acceso a la información como (1) garantía de buen gobierno (o por lo menos, de gobierno «más transparente», lo que ha de conllevar el desarrollo de unos sistemas de información que permitan ese seguimiento de forma eficaz por parte de la ciudadanía, algo de lo que hoy no disfrutamos y (2) favorece la disposición para su reutilización posterior de ingentes cantidades de datos que obran en poder de las administraciones públicas y que pueden servir para generar alternativas de negocio en el sector de las TICs.

Si bien, como era de esperar por otra parte, en el primero de los ejes (el de los sistemas de información accesibles y transparentes) aun andamos en pañales (por no decir «estado embrionario»). Llama la atención que en nuestro país se hayan dado una serie de interesantes pasos en el camino de esa reutilización de información, situándonos a la cabeza a nivel europeo pero que, en este momento, no se hable de oportunidad para los gestores de información. No deja de ser una paradoja, pero es cierta.

Este mismo mes hemos publicado un artículo sobre este tema, donde hemos analizado los conjuntos de datos abiertos disponibles en el portal datos.gob.es (lo más «transparente» que se había dispuesto en España antes de promulgar la ley) y el conjunto de aplicaciones web y móviles que se están desarrollando a partir de esos datos (búsqueda de gasolineras con sus precios y de bibliotecas).

Fragmento de la búsqueda por "gasolineras" en la sección de apps del portal datos.gob.es — Fragmento de la búsqueda por «gasolineras» en la sección de apps del portal datos.gob.es

Llama poderosamente la atención que en un entorno político tan corrompido como opaco que tenemos en nuestro país haya técnicos con esta mentalidad tan innovadora y abierta. En fin, así somos.

03/03/2014 por admin blog Gestión de Información 0

Arquitectura de un sitio web, su importancia en la «tabla periódica» del SEO

Rosenfeld y Morville establecieron su visión de la Arquitectura de Información para la Web a partir de cómo se podían organizar los siguientes elementos componentes de un sitio web;

Esquemas de organización del contenido.
Sistemas de navegación.
Sistemas de rotulación.
Sistemas de búsqueda, tesauros y vocabularios controlados.

Estos «pilares» tienen algunas correspondencias en la Tabla Periódica del SEO, son las siguientes:

Ac: «recopilabilidad» del sitio web (‘site crawlability‘). Sabido es que los motores de búsqueda recopilan sitios web a partir de una serie de direcciones «semillas» desde las cuales inician sus rastreos e indexan todo el contenido de estas páginas, además de ir anotando todos los enlaces que en ellas vayan encontrando, tanto a efectos de mejor posicionamiento como para aumentar el tamaño de la colección del índice de los motores. Es uno de los factores más considerados, de hecho se le ha asignado un valor de +3 en la tabla. Si se desea atraer tráfico a un sitio web es fundamental (e incluso vital) que los elementos que forman parte del mismo no generen problemas a estos módulos recopiladores (los robots o ‘crawlers’ de los motores de búsqueda). La mayoría de los sitios en general no tienen problemas de rastreo, pero siempre hay cosas que pueden causar problemas y que, muchas veces nos pasan desapercibidas. Por ejemplo, el uso de las tecnologías JavaScript o Flash potencialmente pueden hacer invisible para los robots los vínculos presentes en las páginas y así haremos más complicado un rastreo profundo de nuestro sitio web. Cada sitio Web se beneficia de un presupuesto de rastreo, es decir, de una cantidad aproximada de tiempo o número de páginas que un motor de búsqueda rastreará cada día: Ese presupuesto será de mayor valor cuanta más confianza y autoridad reconocida tenga en nuestro sitio (y los elementos del diseño influyen en ello decisivamente). Los sitios más grandes pueden tratar de mejorar su eficiencia de rastreo para garantizar que las páginas «correctas» están siendo rastreadas con mayor frecuencia. El uso de robots.txt , estructuras de enlace internos e indicar de forma explícita a los motores de búsqueda no rastrear páginas con ciertos parámetros de URL, por ejemplo, pueden mejorar la eficiencia del rastreo. En la mayor parte de las ocasiones, los problemas de rastreo se pueden evitar fácilmente, destacando especialmente el uso de sitemaps porque tanto HTML como XML lo aprovechan para hacer más fácil a los motores de búsqueda el rastreo.

Ad: Duplicación / Canonicalización (‘Duplication / Canonicalization‘). A veces, el índice del motor de búsqueda se complica especialmente cuando, tras una operación de selección de información, se localiza un conjunto de páginas con contenido prácticamente similar (algo desgraciadamente frecuente en los blogs con un alto índice de copia directa de contenidos) y el algoritmo de ranking se encuentra con problemas para discernir cuál de esas muchas páginas es la más relevante para la necesidad de información planteada. Esto no es bueno (y ya hemos visto en este blog que, por ejemplo Google, lo penaliza por la vía de sus algoritmos Penguin y Panda).

As: Velocidad de descarga (‘site speed’). El interés por la velocidad de acceso al contenido de un sitio web es tal que Google ha declarado que aquellos sitios más rápidos tendrán una pequeña ventaja en su algoritmo de alineamiento (si bien será uno más de los muchos factores que emplea Google) Eso sí, cuando diseñamos una página pensando en su velocidad de descarga, también estamos mejorando de forma indirecta otros factores que contribuirán, sin duda alguna, a mejorar el posicionamiento de la misma. Por tanto, es algo importante a tener en cuenta.

Au: URL descriptiva. Si bien no es un factor decisivo, desde siempre se ha recomendado que en la dirección del sitio web (URL) aparezcan la palabra o las palabras que mejor lo representan (por ejemplo, un blog sobre turismo en Tarifa podría tener una URL como turismoentarifa.com). Eso siempre ayuda y además, parece que a los usuarios de la web les aportan más confianzas estas URLs tan «concretas» en lugar de algunas algo más «difuminadas». También es conveniente que la URL indique el objeto principal del sitio web a la hora de presentar los datos estructurados en los resultados de la búsqueda, tal como hacen los motores.

Por lo tanto, observamos que guardar siempre una serie de buenos hábitos sobre la arquitectura del contenido de nuestro sitio web es positivo (y nunca negativo como dirían seguramente Van Gaal y un innombrable ex-entrenador del Real Madrid) para nuestro posicionamiento. Son pequeños detalles que siempre ayudan. El gusto por la vida, ya se sabe, es cuestión de detalles ..

02/05/2014 por admin Recuperación de información 0

Propuesta y desarrollo de un modelo para la evaluación de la recuperación de información en Internet

La recuperación de información, como disciplina claramente diferenciada de la recuperación de datos, posee una naturaleza no determinista que provoca ineludiblemente ciertas dosis de incertidumbre a la hora de realizar una operación de búsqueda. Es por ello que, desde el inicio del desarrollo de esta disciplina, ha sugerido una considerable cantidad de propuestas de medida de la efectividad del funcionamiento de los sistemas encargados de esta tarea: los sistemas de recuperación de información (SRI). La consolidación de la World Wide Web como ejemplo paradigmático del desarrollo de la Sociedad de la Información y del Conocimiento, y la continua multiplicación del número de documentos que en ella se publican cada día, propicia la creación de los sistemas de recuperación de información más avanzados, de mayor volumen de documentos gestionados y de mayor popularidad: los motores de búsqueda.

En estos sistemas, no obstante, subyacen las dudas sobre su efectividad, máxime cuando los mismos suelen ofrecer grandes cantidades de referencias entre las cuales abundan muchas poco relevantes con la necesidad de información del usuario. La evaluación de estos sistemas ha sido, hasta el momento, dispersa y dispar. La dispersión procede de la poca uniformidad de los criterios empleados y la disparidad surge de la aperiodicidad de los estudios y por la diferente cobertura de los mismos. Surge entonces la necesidad de proponer el desarrollo de un modelo de evaluación multidimensional de estos sistemas, próximos a los usuarios y al contexto donde se desarrolla, la World Wide Web, entorno difícil de gestionar y que, además, se encuentra afectado de grandes dosis de volatilidad. Nuestra propuesta de modelo de evaluación adapta medidas empleadas en otros procesos de la misma naturaleza, basadas en los juicios de relevancia y en la detección de errores y/o duplicados e implementa una función discreta de ponderación de la relevancia de los documentos recuperados.

Autor Principal: Martínez Méndez, Francisco Javier

Título: Propuesta y desarrollo de un modelo para la evaluación de la recuperación de información en Internet

Mención de Responsabilidad: / Francisco Javier Martínez MéndezRodríguez Muñoz, José Vicente (Profesor Titular de Universidad de Ciencias de la Información, Universidad de Murcia)

Publicación: Alicante : Biblioteca Virtual Miguel de Cervantes, 2003

Nota General: Calificación de la tesis : Sobresaliente cum laude

Portal: Biblioteca Virtual Miguel de Cervantes

Materias:

CDU:

Encabezamiento de materia:

Autor Secundario: Universidad de Murcia , Facultad de Ciencias de la Documentación

Año: 2002

04/03/2012 por admin blog Recuperación de información 0

New architectures for presenting search results based on web search engines users experience

Hoy voy a hacer un poco de «autopromoción» enlazando con el texto que presentamos en la última Conferencia ISIC que celebramos en Murcia el pasado septiembre de 2010 y que ahora Tom Wilson edita en su revista ‘Information Research: an international electronic journal‘.

Este artículo trata sobre cómo está cambiando los motores de búsqueda la presentación de los resultados en función de los cada vez más dinámicos hábitos de recuperación y manejo de la web por parte de los usuarios. Examina la evolución de los motores de búsqueda web y cómo sus arquitecturas de presentación de resultados han cambiado en respuesta a la experiencia y necesidades de los usuarios. Los autores destacan que los motores de búsqueda han sido, siguen siendo y probablemente seguirán siendo los sistemas más utilizados en la web para la recuperación de información, dada su presencia dominante desde hace más de quince años y la fuerte lealtad de los usuarios hacia ellos .

El trabajo se estructura en torno a una revisión histórica y analítica de las generaciones de motores de búsqueda y sus interfaces. En una primera generación, los buscadores clásicos —junto con directorios y metabuscadores— ofrecían resultados principalmente como listas de enlaces ordenados por algoritmos tradicionales, dominando la navegación web en sus inicios . Sin embargo, con el tiempo la atención se desplazó del mero tamaño del índice o la velocidad de respuesta hacia la eficiencia de recuperación y la satisfacción del usuario, incluyendo factores como la relevancia contextual y el feedback implícito derivado de la interacción usuario-sistema .

El artículo identifica una segunda generación de motores de búsqueda, caracterizada por interfaces más sofisticadas que integran diferentes fuentes de información (textos, imágenes, vídeos, noticias, etc.) y funcionalidades que responden directamente a las demandas de los usuarios. Por ejemplo, los buscadores ya no solo devuelven enlaces; ofrecen acceso directo a contenidos específicos (como imágenes o reproducciones de vídeo), recomendaciones, búsquedas relacionadas y asistentes que mejoran la experiencia de búsqueda .

Alegoría clara del paso de la presentación secuencial a la arquitectura modular de resultados, que es central en el artículo. — Alegoría clara del paso de la **presentación secuencial** a la **arquitectura modular de resultados**

El análisis comparativo de Yahoo!, Google y Bing muestra cómo cada uno aplica tendencias de presentación (como diseños de múltiples columnas o herramientas auxiliares) con el objetivo de hacer la experiencia más interactiva y personalizada, aunque con diferencias en la implementación y alcance . En conclusión, los autores sostienen que la evolución de los motores de búsqueda implica tanto avances tecnológicos como una transformación en la forma en que los usuarios interactúan y perciben la información en línea, dando lugar a un nuevo paradigma de búsqueda en Internet .

Martínez, F.J., Pastor, J.A., Rodríguez, J.V., López, R. and Rodríguez Jr., J.V. (2011). «New architectures for presenting search results based on Web search engines users experience» Information Research, 16(1) paper 461. [Available at http://InformationR.net/ir/16-1/paper461.html]

Si alguien quiere el texto original en español sólo tiene que escribirme

02/25/2011 por admin Recuperación de información 0

¿Tienen ya 20 años los motores de búsqueda?

cliente de Archie, el primer buscador en internet

He leído un comentario en facebook de Tom Wilson publicado en la revista New Scientist sobre el vigésimo aniversario de la aplicación Archie que aprovechan los autores para celebrar el aniversario de los motores de búsqueda. Lo cierto es que en 1990 aún no habíamos entrado la mayoría de nosotros en internet pero algunos de nosotros sí hemos utilizado ese sistema que, tal como escribí en su momento en mi tesis doctoral:

«la mayoría de los autores coinciden en que el primer motor de búsqueda desarrollado en la red fue Archie, creado en 1990, aunque no fue hasta la creación del primer navegador web, Mosaic, cuando se propició el crecimiento de los documentos publicados en la web»

De ahí surge la necesidad de disponer de herramientas de búsqueda sofisticadas que terminaron siendo los sistemas de recuperación de información en la web. Es muy posible que casi nadie recuerde este sistema (Archie). Era una base de datos que contenía información sobre el contenido de servidores FTP Anónimo dispuestos en la red Internet. La usábamos para localizar en qué servidor FTP se podía encontrar un determinado recurso (por ejemplo el cliente de correo Eudora o el navegador Nestcape) y entonces lanzábamos la descarga del módulo ejecutable o del ZIP.

Recuerdo que entonces estos ficheros se almacenaban en esos servidores en nombres casi crípticos tales como «NETSCP342.exe» o «EUDOR351.zip«, aunque, tal como se ha podido comprobar, no representaba mucho problema. Posteriormente Archie tuvo un «lavado de cara» y se podía acceder a este sistema de búsqueda vía web. Si bien tengo dudas de que Archie fuera el primer motor de búsqueda, indudablemente es el antecedente más antiguo de otros sistemas de búsqueda (por ejemplo, los empleados en las aplicaciones de descarga/intercambio de ficheros P2P) y por supuesto, podría decirse sin lugar a duda alguna que es el «bisabuelo» de sitios web como Softonic.

Alegoría al 20 cumpleaños de Archie en el año 2010 — 20 cumpleaños de Archie en el año 2010

11/20/2010 por admin blog Recuperación de información 0

Similitud en la respuesta de los motores de búsqueda

Uno de los experimentos que llevé a cabo cuando mi tesis doctoral fue intentar determinar la similitud en la respuesta de los motores de búsqueda. A partir de los 30 primeros documentos devueltos por seis motores a 30 preguntas, determinamos que la similitud de la respuesta era bastante escasa, alrededor del 15% hacia principios del año 2001.

Este análisis, bastante manual, lo repetimos de forma algo más automatizada, con motivo de nuestra participación en la Conferencia ISIC de 2008 celebrada en Vilnius y los resultados fueron más o menos similares, tal como podemos ver en el artículo que publicamos como resultado de la investigación en Information Research, la revista de Tom Wilson.

Analysis of the similarity of the responses of Web search engines to user queries: a user perspective” publicado en Information Research (vol. 13, nº 4, paper 382).

El artículo analiza la similitud de las respuestas proporcionadas por distintos motores de búsqueda ante consultas idénticas, desde una perspectiva centrada en el usuario. En un contexto caracterizado por el crecimiento exponencial de la información disponible en la Web y el uso masivo de motores de búsqueda como principal vía de acceso a contenidos digitales, los autores se plantean una cuestión clave: ¿ofrecen realmente los motores resultados similares cuando se formula la misma consulta?

El estudio parte de investigaciones previas que habían observado un bajo nivel de solapamiento entre los resultados de diferentes motores, sugiriendo que cada sistema devuelve conjuntos de documentos en gran medida distintos. Esta diversidad se atribuye a varios factores, entre ellos las diferencias en los índices utilizados (cada motor rastrea y almacena una porción distinta de la Web), los criterios de actualización de sus bases de datos y, sobre todo, los algoritmos de ranking que determinan el orden de aparición de los resultados.

Para analizar empíricamente esta cuestión, los autores desarrollan un metabuscador experimental que permite enviar simultáneamente la misma consulta a varios motores de búsqueda y recopilar los resultados obtenidos. A partir de este sistema, se examinan dos dimensiones principales de similitud: (1) el grado de coincidencia en los documentos recuperados (es decir, si los mismos enlaces aparecen en diferentes motores), y (2) la similitud en la posición que ocupan esos documentos en las listas de resultados. Este segundo aspecto resulta especialmente relevante, dado que numerosos estudios sobre comportamiento de usuarios demuestran que la mayoría de las personas se limita a consultar los primeros resultados mostrados.


Los hallazgos confirman que el nivel de coincidencia entre motores es limitado. Incluso cuando se plantean consultas idénticas, los motores devuelven conjuntos de resultados considerablemente diferentes, tanto en términos de contenido como de ordenación. Esta falta de homogeneidad implica que la experiencia de búsqueda puede variar sustancialmente dependiendo del motor utilizado. Desde la perspectiva del usuario, esto significa que la elección del buscador no es neutral: puede influir en el tipo de información a la que se accede y en la visibilidad de determinadas fuentes.

El artículo también pone de relieve la complejidad del concepto de “cobertura” en la Web. Ningún motor indexa la totalidad de los contenidos disponibles, y las estrategias de rastreo y almacenamiento varían significativamente entre sistemas. Además, los algoritmos de ranking incorporan múltiples factores —como popularidad, enlaces entrantes, relevancia semántica u otros criterios propietarios— que introducen diferencias adicionales en la presentación de resultados. Así, la divergencia observada no es un error del sistema, sino una consecuencia estructural del funcionamiento de los motores de búsqueda.

Desde un punto de vista metodológico, el estudio contribuye a la evaluación comparativa de sistemas de recuperación de información en entornos web dinámicos. También subraya la necesidad de realizar análisis periódicos, ya que la Web y los motores evolucionan constantemente, lo que puede alterar los niveles de solapamiento y similitud con el tiempo.

En términos más amplios, el trabajo plantea implicaciones importantes para la alfabetización informacional y la comprensión crítica del entorno digital. Si diferentes motores ofrecen resultados distintos ante una misma consulta, los usuarios deberían ser conscientes de que la información accesible depende en parte de la herramienta utilizada. Esta constatación refuerza la idea de que los motores de búsqueda no son meros intermediarios neutrales, sino sistemas complejos que modelan el acceso al conocimiento.

En definitiva, el artículo demuestra que la diversidad entre motores de búsqueda es significativa y persistente, lo que invita a reflexionar sobre la naturaleza de la recuperación de información en la Web y sobre la importancia de adoptar una actitud crítica y comparativa en el uso de estas herramientas.

El metabuscador desarrollado para el cálculo de similitud en 2008

11/18/2009 por admin Uncategorized 1

TrustRank o la lucha ‘anti spam’

TrustRank de google, lucha contra el webspamming

En la búsqueda de mejorar la efectividad de Google contra el ‘web spamming‘ hace poco más de un año trascendió el trabajo de Zoltán Gyöngyi, Hector Garcia-Molina y Jan Pedersen titulado ‘Combating Web Spam with TrustRank‘, propuesta de algoritmo de posicionamiento basado en enlaces que podría llegar a sustituir a PageRank.

La idea fundamental de este algoritmo la comentaban sucinta y claramente en alt64:

Google desea que en las primeras posiciones de los resultados de búsqueda encontremos páginas de cierta relevancia y que estén siendo recomendadas por otras páginas que a su vez también tengan relevancia.
Para determinar el PageRank, el motor Google analiza el número de enlaces que provienen de otras páginas web y su PageRank.
El algoritmo TrustRank, parte de la misma base. Pero en lugar de valorar la importancia de una recomendación en función del PageRank de la página que recomienda, lo hace a partir de una serie de páginas web que han sido consideradas importantes por humanos en lugar de por algoritmos.
A las páginas web que los humanos determinan como importantes se las considera «web semilla» y a sus enlaces se les asigna un valor. Y será ese valor el que se irá transmitiendo por toda la red.

Para ilustrarlo con un ejemplo: Supongamos que disponemos de una web semilla A que transmitirá un valor de 100 TrustRank a todas las webs a las que enlace. Estas páginas, a su vez, transmitirán un TrustRank de 99 a todas las webs a las que enlacen. Y éstas últimas, transmitirán un TrustRank de 98 a las que ellas enlacen.

Para mitigar la degradación del TrustRank a medida que se distancia de las webs semilla, en el algoritmo se ha incluido un corrector que tiene en cuenta el número de grados que hay entre la web semilla y la web que recibe el TrustRank, sin anular completamente la distancia que las separa de la semilla».

En la propuesta inicial aún había que refinar algunos detalles, tales como esa corrección en nodos «lejanos», cuáles serán los criterios que ha de cumplir una página web para ser considerada «semilla» y también dónde se debe cortar el factor de corrección de una página para que no incorporara (o sí incorporara) un valor negativo de TrustRank. No parece que estos factores fueran a modificar sustancialmente la idea pero un poco más de un año después no se ha vuelto a hablar del tema. ¿Alguien sabe por qué?

11/21/2007 por admin blog Recuperación de información 0

Anatomía de un motor de búsqueda a gran escala: Google

En el año 1997, dos estudiantes (desconocidos en ese momento) Sergey Brin y Larry Page escribieron el artículo ‘The Anatomy of a Large-Scale Hypertextual Web Search Engine‘ en el que nos presentaban a toda la comunidad científica cómo funcionaba un «juguetito» que habían diseñado en la Universidad de Stanford al que pusieron de nombre Google. Este artículo es básico para todos aquellos que quieran iniciarse en el estudio de los sistemas de recuperación de información en la web pero, tal como les he comentado varias veces a mis alumnos, el mismo se hace un poco complicado de leer, no solo porque esté en Inglés sino también por la amplia profusión de términos y vocablos muy técnicos (muy de ‘tecnojerga’ vamos).

Arquitectura de alto nivel del buscador Google — Arquitectura de alto nivel del buscador

Por ello aplaudo con alegría y alborozo el esfuerzo de José Dueñas, quien en su blog ha publicado una traducción (aún parcial) de este histórico documento a español.

Actualización de 2026.

Le he pedido a chatGPT que prepare un resumen de 500 palabras del artículo original. He aquí el resultado:

Claro — aquí tienes un resumen preciso y didáctico del artículo académico que has enlazado: “The Anatomy of a Large-Scale Hypertextual Web Search Engine” de Sergey Brin y Lawrence Page (1998), disponible en la URL que compartiste. (SNAP)

📄 Resumen del artículo: The Anatomy of a Large-Scale Hypertextual Web Search Engine

🧠 Contexto y objetivo

El artículo presenta por primera vez una descripción técnica detallada de Google, un motor de búsqueda a gran escala diseñado para explotar la estructura de la web de hipervínculos (hypertext) con el fin de mejorar la calidad de los resultados de búsqueda respecto a los sistemas existentes en los años 90. (SNAP)

🚀 Motivaciones principales

Escalabilidad
La web crecía de forma exponencial tanto en número de documentos como en número de consultas, lo que hacía extremadamente difícil indexar y buscar eficientemente. (SNAP)
Calidad de resultados
Los motores de búsqueda tradicionales basados en coincidencia de palabras clave (keyword matching) devolvían muchos resultados irrelevantes. (SNAP)

El objetivo de Brin y Page fue construir un sistema que escalara bien con grandes cantidades de contenido y al mismo tiempo produjera resultados de alta calidad aprovechando la información presente en los enlaces entre páginas. (ScienceDirect)

🔎 Componentes clave del sistema

1. 📑 Crawler e indexación

Google incluye un crawler distribuido capaz de recorrer millones de páginas web, descargar su contenido y almacenarlo eficientemente. Las páginas se transforman en índices que permiten búsquedas rápidas. (SNAP)

2. 🔗 Uso de la estructura de hipervínculos

Una de las grandes innovaciones del artículo es cómo Google utiliza la estructura de enlaces entre páginas como una señal de relevancia:

Cada enlace se interpreta como un “voto” o referencia de calidad.
No todos los enlaces valen igual: los que provienen de páginas importantes pesan más. (Siddharth Jain)

Esto se materializa en el algoritmo PageRank (desarrollado por Page y Brin), que asigna a cada página web un valor numérico de importancia basado en la red de enlaces. (Wikipedia)

3. 🧠 PageRank — ranking basado en enlaces

El artículo introduce y describe cómo PageRank:

Asigna valores a páginas según cuántos enlaces entrantes tienen.
Ajusta esos valores considerando la “importancia” de las páginas que emiten esos enlaces. (Wikipedia)

Este enfoque permite priorizar páginas con mayor probabilidad de ser relevantes para el usuario frente a páginas con muchas palabras clave sin valor real.

📌 Ventajas del enfoque de Google

Mayor precisión en los resultados al filtrar páginas irrelevantes.
Escalabilidad real para miles de millones de páginas web.
Aprovechamiento de metadatos implícitos (como el texto ancla de los enlaces) para enriquecer la representación de los contenidos. (Siddharth Jain)

📊 Contribución científica

Este artículo fue uno de los primeros análisis públicos detallados de un motor de búsqueda a gran escala y sentó las bases de lo que hoy es el motor de búsqueda dominante en internet. Su enfoque en estructura de la web y ranking de enlaces ha influido en una enorme cantidad de trabajo posterior en minería de grafos, recuperación de información y sistemas distribuidos. (terriblesoftware.org)

11/06/2007 por admin blog Historia de internet Recuperación de información 0

¿Influye el Pagerank de Google en el posicionamiento de Yahoo!?

Lo normal sería contestar que no a esa pregunta, pero tras leer el trabajo ‘The ranking algorithm of Yahoo‘ en el sitio web A promotion guide, comienzo a tener mis dudas (más o menos las mismas que tiene el autor del trabajo). En el artículo se recoge un pequeño experimento conducente a intentar establecer cuáles de los parámetros que normalmente afectan al posicionamiento son verdaderamente empleados por Yahoo Search!. Ya en el planteamiento del trabajo el autor presenta la posibilidad de que este buscador use el algoritmo Pagerank de una página como elemento del posicionamiento.

01/21/2007 por admin Recuperación de información 0

Tags, metadatos y el futuro

Vuelvo a la carga con el tema de los metadatos. Ya prometí en su día «embeberme» de toda esa metacultura y convertirme en un defensor a ultranza de la misma, pero lo cierto es que estoy fracasando en el intento. Otro día podré contar una «meta-experiencia» que estamos «meta-viviendo» en estas fechas y lo cierto es que no es para repetirla, pero vamos en la vida todo es posible, así que a esperar. Pues bien, ahora más en serio, ayer en la web Google Dirson posteaban lo siguiente:

¿Seguirán funcionando los tags en un futuro?

«[05-12-2005] Muchos servicios que almacenan información de diferentes tipos, como Flickr (fotografías), Technorati (posts de blogs), ‘del.icio.us’ (enlaces) o YouTube (vídeos), utilizan los populares ‘tags’ (‘etiquetas’) para intentar ordenar los contenidos y conseguir que los elementos sean fácilmente localizables.

Por ejemplo, podemos encontrar fotos sobre Paris en Flickr (utilizando el tag ‘paris’), posts que hablen sobre la Xbox en Technorati (con el tag ‘xbox’), vídeos de skate en YouTube (tag ‘skateboard’), o incluso cuáles son los tags más populares en ‘del.icio.us’ que da una idea de qué temas interesan más en la WWW.

Sin embargo, ¿por qué deben los usuarios perder unos segundos escribiendo unas palabras sobre las que tratan sus contenidos? ¿Y si no las escriben todas? ¿Y si las escriben mal? Por ejemplo, si buscamos ‘surf’ en Flick, no aparecen muchas de las fotografías que se muestran si buscamos ‘surfers’, cuando la temática es la misma. La tecnología de los tags es similar a la que utilizaban aquellos ‘viejos buscadores’ que nos pedían que insertásemos «cinco palabras clave separadas por comas» cuando queríamos dar de alta nuestra URL.

¿No puede ser el propio servicio el que determine los temas que contiene la fotografía, vídeo, post, etc? Quizá nos falten algunos años de investigación tecnológica (ya hemos hablado sobre las búsquedas de ‘tercera generación’ o sobre herramientas como Riya que reconocen elementos dentro de las imágenes), pero -como dice John Battelle en este artículo- las tags no son el futuro.»

Imagino que la frase «las tags no son el futuro» quiere decir que los autores de las páginas web seguiremos sin hacer uso de las metaetiquetas, que los metadatos tendrán que formar parte de los recursos electrónicos en otra parte del documento y finalmente, que los metadatos por supuesto se generarán solitos ya que los autores no están muy «por perder unos segundos» de sus atareadas y globalizadas vidas.

Aunque el panorama es triste, peor lo pone la frase, porque si uno la lee del tirón y no reflexiona, puede llegar a pensar que no podremos implantar un metadato Dublin Core en las páginas web porque van a desaparecer las tags («etiquetas»). Con esa forma de expresión y con el contenido de la misma, no es de extrañar que los motores de búsquedas «pasen literalmente» de los metadatos.

12/06/2006 por admin blog Recuperación de información 0