web

1989-2014: WWW, de una propuesta de gestión de información a un universo de información por descubrir.

logo de la WWW

Se puede pensar que la confluencia entre la Gestión de Información y la World Wide Web es un fenómeno contemporáneo (algo lógico tras ver la idea de Berners-Lee y su tremendo éxito), pero sus orígenes son algo más lejanos en el tiempo. Por un lado está el cambio de paradigma en la gestión documental auspiciado por los profesionales de los archivos federales norteamericanos a partir de la teoría del ‘Records Management’ de principios de los años cincuenta (Llansó i Sanjuan, 1993, p.73), algo que derivó en la necesaria reforma en los métodos de trabajo y, por otro lado, encontramos la corriente de pensamiento que surge alrededor de la idea del hipertexto concebida por Vannevar Bush (‘As we may think’, 1945), justo al final de la II Guerra Mundial y que desarrollan posteriormente otros investigadores, destacando entre todos ellos T.H. Nelson (‘http://u-tx.net/ccritics/literary-machines.html’. 1981) con su proyecto de sistema de gestión de la literatura universal Xanadú y Douglas Engelbart con el desarrollo de los primeros interfaces gráficos de usuario y los dispositivos que los hacían posible, como el primer mouse o ratón (Cantos et. al., 1994).
Seguir leyendo…

La web precisa de «constructores de puentes».

construyendo puentes en la web

Gerry MCGovern propone en un post de New Thinking que los diseñadores web adopten el rol de «constructores de puentes» entre las múltiples islas que se han desarrollado de forma paralela y alrededor de la Web en los últimos años. Estas islas a las que se refiere el autor son (en primera instancia): la arquitectura de información, la experiencia del usuario, la experiencia del cliente, el diseño e implementación de servicios, la gestión de contenidos Web, el diseño de páginas web y (en un plano algo más alejado pero relacionado igualmente): programación de software Web, el ‘branding’, el marketing y la optimización en motores de búsqueda (SEO).
Seguir leyendo…

Propuesta y desarrollo de un modelo para la evaluación de la recuperación de información en Internet

La recuperación de información, como disciplina claramente diferenciada de la recuperación de datos, posee una naturaleza determinista que provoca ineludiblemente ciertas dosis de incertidumbre a la hora de realizar una operación de búsqueda. Es por ello que, desde el inicio del desarrollo de esta disciplina, ha sugerido una considerable cantidad de propuestas de medida de la efectividad del funcionamiento de los sistemas encargados de esta tarea: los sistemas de recuperación de información (SRI). La consolidación de la World Wide Web como ejemplo paradigmático del desarrollo de la Sociedad de la Información y del Conocimiento, y la continua multiplicación del número de documentos que en ella se publican cada día, propicia la creación de los sistemas de recuperación de información más avanzados, de mayor volumen de documentos gestionados y de mayor popularidad: los motores de búsqueda.
Seguir leyendo…

Tags, metadatos y el futuro.

Vuelvo a la carga con el tema de los metadatos. Ya prometí en su día «embeberme» de toda esa metacultura y convertirme en un defensor a ultranza de la misma, pero lo cierto es que estoy fracasando en el intento. Otro día podré contar una «meta-experiencia» que estamos «meta-viviendo» en estas fechas y lo cierto es que no es para repetirla, pero vamos en la vida todo es posible, así que a esperar. Pues bien, ahora más en serio, ayer en la web Google Dirson posteaban lo siguiente:

¿Seguirán funcionando los tags en un futuro?

«[05-12-2005] Muchos servicios que almacenan información de diferentes tipos, como Flickr (fotografías), Technorati (posts de blogs), ‘del.icio.us’ (enlaces) o YouTube (vídeos), utilizan los populares ‘tags’ (‘etiquetas’) para intentar ordenar los contenidos y conseguir que los elementos sean fácilmente localizables.

Por ejemplo, podemos encontrar fotos sobre Paris en Flickr (utilizando el tag ‘paris’), posts que hablen sobre la Xbox en Technorati (con el tag ‘xbox’), vídeos de skate en YouTube (tag ‘skateboard’), o incluso cuáles son los tags más populares en ‘del.icio.us’ que da una idea de qué temas interesan más en la WWW.

Sin embargo, ¿por qué deben los usuarios perder unos segundos escribiendo unas palabras sobre las que tratan sus contenidos? ¿Y si no las escriben todas? ¿Y si las escriben mal? Por ejemplo, si buscamos ‘surf’ en Flick, no aparecen muchas de las fotografías que se muestran si buscamos ‘surfers’, cuando la temática es la misma. La tecnología de los tags es similar a la que utilizaban aquellos ‘viejos buscadores’ que nos pedían que insertásemos «cinco palabras clave separadas por comas» cuando queríamos dar de alta nuestra URL.

¿No puede ser el propio servicio el que determine los temas que contiene la fotografía, vídeo, post, etc? Quizá nos falten algunos años de investigación tecnológica (ya hemos hablado sobre las búsquedas de ‘tercera generación’ o sobre herramientas como Riya que reconocen elementos dentro de las imágenes), pero -como dice John Battelle en este artículo- las tags no son el futuro.»

Imagino que la frase «las tags no son el futuro» quiere decir que los autores de las páginas web seguiremos sin hacer uso de las metaetiquetas, que los metadatos tendrán que formar parte de los recursos electrónicos en otra parte del documento y finalmente, que los metadatos por supuesto se generarán solitos ya que los autores no están muy «por perder unos segundos» de sus atareadas y globalizadas vidas.

Aunque el panorama es triste, peor lo pone la frase, porque si uno la lee del tirón y no reflexiona, puede llegar a pensar que no podremos implantar un metadato Dublin Core en las páginas web porque van a desaparecer las tags («etiquetas»). Con esa forma de expresión y con el contenido de la misma, no es de extrañar que los motores de búsquedas «pasen literalmente» de los metadatos. 

Características de la web española (por Chato Castillo).

Siguiendo la línea emprendida ayer de hacer más participativo este blog (incluyendo como posts algunos de los comentarios que recibo), hoy me decido a hacer caso a Álvaro Roldán quien me remite el siguiente mensaje:

«Como sé que tienes una pasión inconfesable que se llama Ricardo Baeza-Yates y he visto que ha escrito un artículo en Cybermetrics, me he decidido a mandarte un enlace del mismo por si aun no habías tenido noticias de él: ‘Characteristics of the Web of Spain‘».

Lo cierto es que me parece recordar que Juan Carlos me lo envió hace algún tiempo y que precisamente ayer entré en esta revista y vi el trabajo, donde firman también Carlos Castillo y de Vicente López. No he tenido aún tiempo material para leerlo, aunque teniendo la autoría que tiene y visto el interés que está despertando entre los asiduos a este humilde blog, lo menos que puedo hacer es recomendarlo.

Para finalizar, ayer entraba en esa revista tras comprobar que es la revista española de más impacto, según los datos del proyecto IN-RECS dirigido por el compañero Emilio Delgado de la Universidad de Granada. Lo cierto es que trabajos como el desarrollado por Emilio y su equipo son muy necesarios.

Ya tengo un PURL

esquema de un identificador PURL

Hace un poco más de un año, leyendo el trabajo de José Merlo y Eva Méndez titulado «Localización, identicación y descripción de recursos web: tentativas hacia la normalización» tuve ocasión de conocer la existencia de un conjunto de siglas vinculadas a las direcciones de las páginas web y que realmente pasan algo desconocidas para la mayor parte de los usuarios. Este conjunto lo formaban (además del conocido sistema URL), los sistemas URIURNPURLDOI y otras propuestas prácticamente desconocidas.

Algunas de estas propuestas, especialmente URN y PURL (siglas de ‘Persistent URL‘), hacían especial hincapié en la palabra «persistencia» (según la RAE «acción y efecto de persistir»), dejando claro que uno de los principales problemas de la recuperación de la información en la web es la volatilidad de las páginas que, en algunos casos, es más concretamente la volatilidad de la dirección de la página.

Si bien las propuestas son parecidas, parece que está más desarrollada la segunda de ellas, el sistema PURL, que los autores presentan como «método desarrollado por OCLC partiendo de los mismos objetivos que el sistema URN. De hecho OCLC está trabajando también en el establecimiento del sistema URN. Partiendo del protocolo HTTP, realiza una base de datos de URLs en la que se identifican los nombres de los documentos y los servidores que los albergan. En el momento en que un documento cambie de dirección bastará con indicarlo en la base de datos, de tal manera que se produzca el redireccionamiento de forma automática. Formalmente un PURL es una URL, ya que su estructura es idéntica. En realidad se trata de un intermediario entre la dirección antigua de un documento web y su nueva dirección. A diferencia del sistema URN, éste ya está operativo en el servicio OCLC PURL» (Merlo y Méndez, 2000).

En realidad, PURL no inventa nada, es una especie de registro de la propiedad para las páginas web, que en lugar de anotar los préstamos y cargas que gravan a una vivienda (en teoría nuestra, en realidad de los bancos), anota en qué sitio de la web se encuentra la página web que tiene almacenada de forma «persistente». Para dar de alta nuestra página en este servicio, OCLC (no sabía yo hasta qué punto están metidos estos bibliotecarios en la red), habilita el sistema ‘The OCLC PURL Service‘ donde Stuart Weibel presenta el sistema y comenta cómo conseguir una PURL para una página (tienes que registrarte como colaborador y luego puedes dar de alta la página en el servicio).

esquema de un identificador PURL

 

 

Yo ya he creado una para mi página personal de la Universidad de Murcia, es http://purl.oclc.org/NET/javima.

Qué chachi, ¿no?. La verdad es que me pregunto qué pasaría si creo una página, la publico, la anoto en el sistema PURL y luego la doy de baja en el sitio web, ¿evitamos así el #error404 del HTTP cuando un motor de búsqueda nos mande a ella?. En fin, tiempo al tiempo, de momento yo ya tengo PURL.