2004

Precisión y exhaustividad normalizadas

Entre las medidas alternativas a la relevancia encontramos la Exhaustividad Normalizada como propuesta de diversos autores. Casi todo el mundo reconoce que el mayor problema de las medidas basadas en la relevancia es la alta dosis de subjetividad inherente a su determinación. Otro de los problemas que conlleva su uso reside en la secuencialidad de la lectura de los resultados. Korfhage avisa: “los sistemas de recuperación de información típicos presentan los resultados formando una secuencia de documentos. Incluso en aquellos sistemas que no presentan así la información, el usuario suele examinar los documentos secuencialmente» (Korfhage, 1997). Inevitablemente, este modo de consulta afectará al juicio que el usuario ha de llevar a cabo sobre la relevancia o no de los documentos siguientes.

En la práctica, todos los usuarios de estos sistemas sufren este problema cuando, al consultar dos documentos más o menos igual de interesantes y relacionados con una materia, centran su atención de forma preferente en el primero de ellos, aunque el segundo no desmerezca en nada al anterior. Algo parecido acaece cuando un usuario realiza una búsqueda y los primeros documentos recuperados resultan relevantes con el tema de su interés. En esta circunstancia, el usuario tendrá una sensación positiva y se considerará satisfecho, no preocupándose por el número de documentos no relevantes que también recupera (que puede llegar a ser muy grande). La situación contraria también ocurre cuando la presencia de los documentos no relevantes al principio de la respuesta es masiva. En este caso la sensación de frustración va a ser de gran consideración, independientemente de que en el global de la búsqueda se entreguen muchos más documentos relevantes que no relevantes.

Estas reflexiones han propiciado el desarrollo de medidas que tomen en consideración la secuencia en la que los documentos son presentados a los usuarios. El primer trabajo conocido corresponde a Rocchio (citado en [Rijsbergen, 1999] y en [Moschitii, 2003]), quien define una exhaustividad normalizada y una precisión normalizada para sistemas que presentan los documentos alineados según un determinado criterio de clasificación y donde no afecte el tamaño de la muestra analizada. El autor define un “sistema ideal donde los documentos relevantes se recuperan antes que los documentos no relevantes y se puede representar en un gráfico la evolución de la exhaustividad de esta operación de recuperación de información”. 

e-p normalizadas
Ejemplo de cómo la Exhaustividad normalizada queda comprendida entre el peor y el mejor resultado posible. Fuente: Rijsbergen, C.J. Information Retrieval. [En línea]. Glasgow, University, 1999.[Consulta: 29 noviembre 2004]

Si en una base de datos de 25 documentos se sabe que cinco de ellos son relevantes, y que han sido devueltos por el sistema al realizar una búsqueda en las posiciones {3, 5 , 10, 11, 15}, se puede representar un gráfico etapa a etapa (tal como muestra la imagen anterior). La exhaustividad de esta búsqueda alcanza el valor de 0.2 (1 documento relevante recuperado dividido entre 5 documentos relevantes de la colección) al analizar el tercer documento (hasta entonces vale cero). Cada vez que se analice un documento relevante, el valor de la exhaustividad aumentará, hasta llegar a la unidad (en este caso, en el documento 15), permaneciendo constante hasta el último documento recuperado, ya que todos los relevantes ya han aparecido. Tal como se desprende de la comparación con la gráfica de la mejor búsqueda posible (cuando se presentan los cinco documentos relevantes en las cinco primeras posiciones de la secuencia) o con la peor búsqueda posible (cuando se presentan los cinco documentos relevantes en las cinco últimas posiciones de la secuencia), resulta muy intuitiva, tal como se refleja en la anterior imagen.

Para Korfhage, “el área comprendida entre la búsqueda actual y la gráfica ideal representa una medida de la ejecución del SRI” (Korfhage, 1997). Esta medida se calcula restando al valor de la unidad el resultado de dividir el valor de esta área por (n1 * (N – n1)). En el ejemplo anterior, el valor del área es 29, por lo que el valor de la exhaustividad normalizada, aplicando la anterior fórmula, será el resultado de la siguiente operación: (1 – 21/(5 * (25 – 5)) = (1 – 0.21) = 0.79

La precisión normalizada se define de manera análoga: “mientras la precisión ordinaria es una medida exactamente definida, esta medida depende del conocimiento del número total de documentos relevantes” (Korfhage, 1997). Rijsbergen propone como método para su cálculo “restar a la unidad el resultado de dividir el valor de esta área por el valor del área existente entre la búsqueda ideal y la peor búsqueda” (Rijsbergen, 1999). En el ejemplo propuesto, el resultado de esta precisión normalizada sería (1 – 21/(95 – 15)) = (1 – 21/80) = 0.7375. Rijsbergen destaca algunos aspectos de estas medidas: “ambas presentan un comportamiento consistente, es decir, cuando una se aproxima a cero la otra se aproxima a la unidad. Ambas medidas asignan valores distintos de peso a los documentos recuperados en la secuencia, la precisión los asigna a los iniciales y la exhaustividad asigna un valor uniforme a todos los documentos relevantes. En tercer lugar, estas medidas pueden entenderse como una aproximación de la precisión y exhaustividad promedio y, por último, los problemas que surgían en la determinación de la longitud esperada de búsqueda (por la posición de los documentos relevantes), son inexistentes en este caso”.

Bibliografía.

(Korfhage, 1997) Korfhage, R.R. Information Retrieval and Storage. New York: Wiley Computer Publisher, 1997.

(Moschitti, 2003) Moschitti, A. ‘A study on optimal parameter tuning for Rocchio Text Classifier’. ECIR 2003 [En línea][Consulta: 29 noviembre 2004]

(Risjbergen, 1999) Risjbergen, C. J. Information Retrieval. [En línea]Glasgow, University, 1999.[Consulta: 29 noviembre 2004]

‘Google bombing’

bombardeo a google - google bombing

bombardeo a google - google bombingEn los últimos meses hemos asistido al nacimiento de un nuevo término conocido como ‘Google bombing‘ (expresión que se puede traducir como «bombardeo a Google»). Este «bombardeo» consiste en introducir enlaces (ojo, de forma coordinada) a un mismo sitio web dentro de varias páginas que gozan de cierta popularidad en el buscador (páginas con Page Rank alto o relativamente alto), con el objeto de que ese sitio web aparezca en los primeros lugares de la respuesta del motor, ya que Google clasifica los documentos devueltos según su «popularidad», y si páginas que gozan de cierta popularidad recomiendan en bloque una misma página, pues esta última se convierte (por propiedad «multi-transitiva» podríamos decir) en una nueva página popular.

Espero que hayas seguido leyendo hasta aquí y que no te duela la cabeza mucho, básicamente porque ahora llega lo mejor. Si bien puede parecer normal que varios administradores de sitios web recomienden una misma página, lo que caracteriza a este fenómeno (al «bombardeo») es que ese enlace al unísono se lleva a cabo por medio de la inserción de una frase escrita en tono de broma en la página que recomienda, empleándose ese texto para enlazar hacia la otra página. ¿Qué hay de raro en ello?, pues, por ejemplo, puedes poner en tu página personal, al final y escrito de forma más o menos disimulada para no mezclar este enlace con el resto del contenido de la página, un texto que diga «Obviously, I think too that George Bush is a miserable failure» (parafraseando lo que dijo hace tiempo el candidato demócrata John Kerry sobre el POTUS). Este texto «casi oculto» te traslada a la biografía de George W. Bush, 43º Presidente de los Estados Unidos de América, uno de los peores de la historia.

La gracia del «bombardeo» reside precisamente en que si vamos a Google e insertamos la búsqueda «miserable failure«, la primera página devuelta es esa biografía. Y lo más chocante a primera vista es que en esa página no aparece ni por asomo esa expresión (que podría traducirse como «miserable fracasado», más concretamente en política exterior, tal como decía Kerry). ¿Qué está pasando? ¿Falla Google? ¿Se ha descubierto la manera de enturbiar la gloriosa vida de este buscador?. En realidad no pasa nada más que lo que tenía que pasar, Google es capaz de recomendar la visita a sitios que ni siquiera ha visitado o que no poseen los términos de la ecuación planteada (a la vista está). ¿Por qué se atreve a hacerlo?, básicamente porque el buscador confía en la credibilidad de los administradores de sitios que llevan a cabo estos enlaces y si los mismos deciden «engañarle», pues el motor cae en la trampa sin ningún pudor y de forma irremediable.

Pero la gracia del «bombardeo» no se queda ahí. En este caso, la contribución de mi página es escasa y tardía a este «bombing». Ha habido otros antes, uno famoso dedicado a un «hacker sin futuro ni imaginación» que terminó recibiendo una vista del FBI y, como no podía ser de otro modo, a Bill Gates a quien enlazaban desde el texto de una archiconocida canción de los Rolling Stones), porque ya se encargaron los administradores de sitios webs mucho más populares (el cineasta Michael Moore a la cabeza), de provocarlo. Posteriormente, alguno de estos famosos personajes deja «caer» esta noticia a un periodista y rápidamente todas las televisiones del mundo lo están emitiendo, ante el gran impacto mediático que tiene este buscador y las personas involucradas.

¿Qué hacer al respecto? Mi opinión personal es que nada debe hacerse y que Google no debe corregir su algoritmo para evitar este problema, entre otras muchas razones porque ¿alguien en su sano juicio piensa que George W. Bush no es un pobre FRACASADO miserable? No obstante, se trata de una moda, y como tal desaparecerá y dejará sitio a otra nueva, ya sabemos que el tiempo en la red es cuestión de eso, de poco tiempo. Otro día hablaremos de Page Rank y de toda la serie de trucos que se vienen llevando a cabo para ganar «popularidad» ante este algoritmo, eso ya es otro cantar.