Conferencias TREC

Logo de la primera conferencia TREC

Cuenta Donna K. Harman en el capítulo séptimo de ‘TREC: Experiment and Evaluation in Information Retrieval‘ que a partir de la conferencia TREC-3 comenzaron a probarse distintos sistemas de recuperación de información implementados en colecciones de documentos multilingües. Hasta ese momento, como es fácil suponer solo se había empleado el Inglés.

En esa conferencia, cuatro grupos trabajaron con una colección de 58.000 documentos procedentes de un periódico de Monterrey llamado El Norte (aproximadamente 200 megabtytes de tamaño). Los grupos usaron búsquedas simples y analizaron el comportamiento del sistema con un total de 25 preguntas. Algunos de estos grupos (de las universidades de Cornell y Amherst -Massachusetts), trasladaron sus sistemas directamente, con la única salvedad de los ficheros de palabras vacías que ahora iban a ser términos en español. Los otros dos grupos (Dublin -«la del Core»- y Michigan) usaron desarrollos adaptados al nuevo idioma, modificando la primera de ellas el original algoritmo de lematización (‘stemming‘) propuesto por Porter.

El principal resultado de este experimento fue la facilidad de portabilidad de las aplicaciones y técnicas de recuperación de información a textos escritos en otro idioma, el nuestro en este caso. En el informe de la Universidad de Cornell se decía que bastaban unas pocas horas de trabajo para garantizar la misma efectividad de los sistemas. Estas conclusiones iniciales fueron refrendadas posteriormente en las conferencias TREC-4 y TREC-5. La inmortal lengua de Miguel de Cervantes está al mismo nivel que la de Shakespeare, por tanto.

Dedicamos este post a hablar de una medida de evaluación de la recuperación de información denominada utilidad lineal. Para explicarla, tomamos como referencia el quinto capítulo del libro ‘TREC: Experiment and Evaluation in Information Retrieval‘, titulado ‘Routing and Filtering‘ y firmado por Stephen Robertson y Jamie Callan.

Esta medida esencialmente asume que la presencia de documentos relevantes en la respuesta de un sistema de recuperación de información a una determinada pregunta debe tomarse como un rédito a favor del sistema, al mismo tiempo que los documentos no relevantes deben considerarse como un débito. Por lo tanto, esta medida establece su valor favoreciendo el acierto y penalizando al mismo tiempo el desacierto. Su cálculo es muy intuitivo, se multiplica por un factor (A) el porcentaje de documentos relevantes (R+) y a este producto se le suma el producto de un segundo factor (B) por el total de documentos no relevantes (N+). Como el segundo factor es de penalización su valor es negativo, por lo tanto más que sumar se resta. Así, si en una búsqueda determinada, nuestro buscador devuelve un 80% de documentos relevantes (por tanto, un 20% de no relevantes), los valores de R+ y N+ serían 0.8 y 0.2 respectivamente.

Ahora queda por establecer los valores de los factores A y B, que son introducidos por el evaluador según estime oportuno. En las conferencias TRECs 9-11 se optó por utilizar A=2 y B=-1, asumiendo que la posibilidad de recuperar un documento relevante era del 66% y de encontrar un documento no relevante era del 33%, de ahí que el valor absoluto de A sea el doble que el de B. Con estos parámetros, nuestra búsqueda ejemplo tendría el siguiente valor de utilidad lineal que podemos vers de forma esquemática en la figura siguiente:

Cálculo de la utilidad lineal ilustrado.

Esta utilidad indica que la búsqueda es buena, algo que así parecía al tener un 80% de documentos relevantes, cuya influencia en la medida refuerza esta fórmula. Lo cierto es que quizá (solo quizá) a veces nos complicarnos mucho la cabeza a la hora de establecer una medida de evaluación de la recuperación de información. De hecho, en TREC-8 los autores experimentaron con una ‘utilidad no lineal’ que resultó difícil de interpretar y fue deshechada.

El idioma español y las conferencias TREC

Utilidad lineal

Archives

Categories

Conferencias TREC

Tags

Archives

Categories