noviembre 2005

El idioma español y las conferencias TREC

logo de la primera conferencia TREC

logo de la primera conferencia TRECCuenta Donna K. Harman en el capítulo séptimo de ‘TREC: Experiment and Evaluation in Information Retrieval‘ que a partir de la conferencia TREC-3 comenzaron a probarse distintos sistemas de recuperación de información implementados en colecciones de documentos multilingües. Hasta ese momento, como es fácil suponer solo se había empleado el Inglés.

En esa conferencia, cuatro grupos trabajaron con una colección de 58.000 documentos procedentes de un periódico de Monterrey llamado El  Norte (aproximadamente 200 megabtytes de tamaño). Los grupos usaron búsquedas simples y analizaron el comportamiento del sistema con un total de 25 preguntas. Algunos de estos grupos (de las universidades de Cornell y Amherst -Massachusetts), trasladaron sus sistemas directamente, con la única salvedad de los ficheros de palabras vacías que ahora iban a ser términos en español. Los otros dos grupos (Dublin -«la del Core»- y Michigan) usaron desarrollos adaptados al nuevo idioma, modificando la primera de ellas el original algoritmo de lematización (‘stemming‘) propuesto por Porter.

El principal resultado de este experimento fue la facilidad de portabilidad de las aplicaciones y técnicas de recuperación de información a textos escritos en otro idioma, el nuestro en este caso. En el informe de la Universidad de Cornell se decía que bastaban unas pocas horas de trabajo para garantizar la misma efectividad de los sistemas. Estas conclusiones iniciales fueron refrendadas posteriormente en las conferencias TREC-4 y TREC-5. La inmortal lengua de Miguel de Cervantes está al mismo nivel que la de Shakespeare, por tanto.

Utilidad lineal.

medidas de la recuperación de información la utilidad lineal

La usabilidad lineal es una medida de la recuperación de información que, esencialmente asume que la presencia de documentos relevantes en la respuesta de un sistema de recuperación de información a una determinada pregunta debe tomarse como un rédito a favor del sistema, al mismo tiempo que los documentos no relevantes deben considerarse como un débito. Por lo tanto, esta medida establece su valor favoreciendo el acierto y penalizando al mismo tiempo el desacierto
Seguir leyendo…

El secreto de Google y el Álgebra Lineal

google y el álgebra lineal

google y el álgebra lineal

La base matemática subyace en el algoritmo de alineamiento de Google (Pagerank en un principio, ahora podríamos hablar de ese algoritmo y múltiples extensiones). El algoritmo lleva a cabo una serie de cálculos recursivos que dificultan su entendimiento y que precisa de simplificaciones matemáticas. Una de ellas es el trabajo «El secreto de Google y el Álgebra Lineal» de Pablo Fernández Gallardo, profesor de la Universidad Autónoma de Madrid que le sirvió al autor para obtener el quinto Premio SEMA a la Divulgación en Matemática Aplicada, otorgado por la Sociedad Española de Matemática Aplicada en septiembre de 2004. Ha sido publicado en el Boletín de la Sociedad Española de Matemática Aplicada 30 (2004), 115-141. En enlace anterior podemos ver la versión en formato de diapositivas y haciendo clic sobre la imagen de la diapositiva accedemos al texto del artículo.. .

Office de Microsoft adoptará XML como estándar

icono de XML

 

icono de XML

«Hacer que XML sea el formato de archivo por defecto de Office es para mí la culminación de un sueño de 35 años» ha declarado Charles F. Goldfarb, el inventor del SGML y del lenguaje XML y autor del libro ‘The XML Handbook‘, quien añadió que «en 1970 sólo existía un sistema que podía compartir documentos. Ahora Microsoft está haciendo posible que cientos de millones de personas creen de forma habitual XML que pueda interoperar con toda clase de sistemas ‘back-end’ y servicios web. Creo que en el futuro existirá un nuevo conjunto de escenarios de información compartida avanzada, con flujos de trabajo mejorados y una colaboración individual y organizacional reforzada».

Todo este texto está extraído de una nota de prensa de Microsoft del pasado verano. Lo cierto es que esta integración de XML con uno de las aplicaciones ofimáticas más empleadas tiene que redundar en una mejor accesibilidad e interoperabilidad de sus contenidos, aunque seguirá subyaciendo el problema de la calidad de esos metadatos y si los mismos van a ser aprovechados realmente por los motores de búsqueda. 

Características de la web española (por Chato Castillo).

Siguiendo la línea emprendida ayer de hacer más participativo este blog (incluyendo como posts algunos de los comentarios que recibo), hoy me decido a hacer caso a Álvaro Roldán quien me remite el siguiente mensaje:

«Como sé que tienes una pasión inconfesable que se llama Ricardo Baeza-Yates y he visto que ha escrito un artículo en Cybermetrics, me he decidido a mandarte un enlace del mismo por si aun no habías tenido noticias de él: ‘Characteristics of the Web of Spain‘».

Lo cierto es que me parece recordar que Juan Carlos me lo envió hace algún tiempo y que precisamente ayer entré en esta revista y vi el trabajo, donde firman también Carlos Castillo y de Vicente López. No he tenido aún tiempo material para leerlo, aunque teniendo la autoría que tiene y visto el interés que está despertando entre los asiduos a este humilde blog, lo menos que puedo hacer es recomendarlo.

Para finalizar, ayer entraba en esa revista tras comprobar que es la revista española de más impacto, según los datos del proyecto IN-RECS dirigido por el compañero Emilio Delgado de la Universidad de Granada. Lo cierto es que trabajos como el desarrollado por Emilio y su equipo son muy necesarios.

Ha caído en mis manos una pequeña joya

cubierta del libro sobre las conferencias TREC

cubierta del libro sobre las conferencias TRECHa caido en mis manos, de forma temporal porque se lo he «quitado» a José Vicente, una pequeña joya: el libro ‘TREC: Experiment and Evaluation in Information Retrieval‘, editado por Ellen M. Voorhees y Donna K. Harman, que ha sido recientemente publicado por el MIT (nada más y nada menos).

Este libro constituye un verdadero homenaje a las conferencias TREC, el foro sobre recuperación de información que se convierte en el protagonista del libro. En el mismo, diversos especialistas comentan qué les ha parecido la evolución de estas conferencias en varios capítulos. Sólo he podido leer por encima un capítulo que dedican a la recuperación de información en idiomas diferentes del Inglés (entre ellos el idioma del inmortal Cervantes y del Fénix de los Ingenios), y otro donde proponen algunas medidas que se me habían «escapado» hasta ahora. Ya lo iremos comentando poco a poco, hasta que me lo pida su dueño.

Un grupo de amigas y Berners-Lee.

Esta mañana recibía el agradable comentario que os acompaño:

«Hola, javima: Un grupo de amigas estamos buscando información sobre diseño paginas web cuando encontramos tu blog. Tu título, Textffiles: memoria de Internet., nos ha gustado y lo hemos comentado. Estamos tratando de escribir algo relacionado con diseño paginas web para un proyecto de internet. Muchas gracias por permitirnos aprender de ti con tu excelente blog.»

Aprovecho para darle las gracias a «este grupo de amigas» y de paso presentaros una breve referencia al trabajo ‘The World Wide Web: A very short personal history‘ escrito por Tim Berners-Lee, y ya de paso -no todo va ser historia – vaya a terminar este blog en una especie de serie Cuéntame que te pasó – podemos leer también la transcripción del discurso del mismo Tim en la celebración en el MIT del 35 aniversario del Computer Science and Artificial Intelligence Laboratory.