Uncategorized

El primer método de evaluación de los buscadores web

tabla de comparativa de la efectividad de dos buscadores web

Three Web search engines, namely, Alta Vista, Excite, and Lycos, were compared and evaluated in terms of their search capabilities (e.g., Boolean logic, truncation, field search, word and phrase search) and retrieval performances (i.e., precision and response time) using sample queries drawn from real reference questions. Recall, the other evaluation criterion of information retrieval, is deliberately omitted from this study because it is impossible to assume how many relevant items there are for a particular query in the huge and ever changing Web system. The authors of this study found that Alta Vista outperformed Excite and Lycos in both search facilities and retrieval performance although Lycos had the largest coverage of Web resources among the three Web search engines examined. As a result of this research, we also proposed a methodology for evaluating other Web search engines not included in the current study.
Seguir leyendo…

Sistemas de recuperación de información desarrollados a partir del conjunto de datos CORD-19

logo del conjunto de datos CORD19

Aquí os dejo enlace al artículo «Vista de Sistemas de recuperación de información implementados a partir de CORD-19: herramientas clave en la gestión de la información sobre COVID-19» que he publicado con Rosana López Carreño en la Revista Española de Documentación Científica (número de diciembre de 2020). 

La investigación sobre el coronavirus ha generado una producción de documentos científicos extraordinaria. Su tratamiento y asimilación por parte de la comunidad científica ha necesitado de la ayuda de sistemas de recuperación de información diseñados de forma específica para esta cuestión. Algunas de las principales instituciones mundiales dedicadas a la lucha contra la pandemia han desarrollado el conjunto de datos CORD-19 que destaca sobre otros proyectos de similar naturaleza.

Los documentos recopilados en esta fuente han sido procesados por distintas herramientas de recuperación de información, a veces prototipos o sistemas que ya estaban implementados. Se ha analizado la tipología y características principales de estos sistemas concluyendo que hay tres grandes categorías no excluyentes entre ellas: búsqueda terminológica, visualización de información y procesamiento de lenguaje natural. En el artículo podemos ver que la gran mayoría de ellos emplean preferentemente tecnologías de búsqueda semántica con el objeto de facilitar la adquisición de conocimiento s los investigadores y ayudarlas en su ingente tarea.

Concluimos convencidos de que la crisis provocada por la pandemia ha sido aprovechada por los buscadores semánticos para encontrar su sitio. Y seguramente para no abandonarlo.

logo del conjunto de datos CORD19

Berners-Lee propone un «contrato para la web».

fragmento del contrato para la web de Sir Tim Berners Lee

fragmento del contrato para la web de Sir Tim Berners Lee

«La Web se diseñó para unir a la gente y hacer que el conocimiento fuese accesible para todos y todas. Ha cambiado el mundo para bien y ha mejorado la vida de miles de millones de personas. Sin embargo, todavía hay muchas personas que no pueden acceder a sus ventajas y muchas otras para las que la Web supone un coste demasiado elevado.

Todos tenemos un papel que cumplir a la hora de salvaguardar el futuro de la Web. Los representantes de más de 80 organizaciones redactaron el Contrato para la Web en nombre de gobiernos, empresas y la sociedad civil. En él se establecen los compromisos que deben guiar las políticas digitales. Con el fin de alcanzar los objetivos del Contrato, los gobiernos, las empresas, la sociedad civil y las personas deben comprometerse con el desarrollo sostenido de dichas políticas, así como con la defensa y la implementación de este texto».

Así presenta Sir Tim Berners-Lee, el inventor de la web, su nueva iniciativa que ha llamado «Contrato para la Web«. El objeto de la misma es garantizar que todos tenemos acceso a ella, no solo las personas que viven en países donde el nivel de vida lo permita y gobernados por sistemas democráticos. La idea de Berners-Lee va en la línea de conseguir el verdadero acceso universal a «su criatura», la que propuso casi de escondidas a sus jefes del CERN hace ya 30 años. 

Este contrato se estructura en 9 principios básicos, los presentamos de forma resumida:

  1. Asegurarse de que todo el mundo pueda conectarse a internet para que cualquier persona, independientemente de quién sea o dónde viva, pueda participar de forma activa en la red.
  2. Hacer que la totalidad de internet esté disponible en todo momento para que a nadie se le niegue el derecho a disfrutar de un acceso completo a la red.
  3. Respetar y proteger los derechos básicos de las personas sobre sus datos y su privacidad en la red para que todo el mundo pueda usar Internet libremente de forma segura y sin miedo.
  4. Hacer que el acceso a internet sea asequible y accesible para todo el mundo para que nadie quede excluido del uso y el desarrollo de la web.
  5. Respetar y proteger la privacidad y los datos personales, con el fin de generar confianza en la red para que las personas tengan el control sobre sus vidas en Internet y que cuenten con opciones claras y relevantes en lo relativo a sus datos y su privacidad. 
  6. Desarrollar tecnologías que promuevan lo mejor de la humanidad y contribuyan a mitigar lo peor para que la web sea realmente un bien público en donde prevalezca el interés de las personas.
  7. Crear y colaborar en la web para que la web tenga un contenido rico y relevante para todos.
  8. Construir comunidades sólidas que respeten el discurso civil y la dignidad humana para que todo el mundo se sienta seguro y bienvenido en la red.
  9. Luchar por la web para que siga siendo abierta y un recurso público global para las personas de todo el mundo, ahora y en el futuro. 

Estos principios afectan (son reclamaciones más bien) a gobiernos, empresas y ciudadanos. Eso quiere decir que están dirigidos a gran parte (a lo mejor a toda) de la sociedad actual. Asegurar que la red tenga infraestructura suficiente, que el acceso sea lo más barato posible, que se respeten los derechos de los usuarios y que su uso esté dirigido a mejorar a las personas, son causas por las que vale la pena postularse, más allá de rellenar el formulario de adhesión y hacer clic con el dedo en la pantalla del teléfono.

A por ello ….

El «cuadrante mágico» de Gartner de la gestión de contenidos.

cuadrante mágico de Gartner de la gestión de contenidos 2019

Este post puede parecer contradictorio con el anterior dedicado al liderazgo de WordPress en el mundo de los CMS, pero no lo es tanto. Comentamos el ya clásico estudio de Gartner Group sobre lo que ellos llaman «plataformas de gestión de contenidos» si bien emplean en inglés el acrónimo WCM (‘web content management’) que es abreviatura de WCMS de donde «sale» el más utilizado CMS.
Seguir leyendo…

El liderazgo de WordPress en el mundo de los CMS

logo wordpress

logo wordpressLlevo varios años mostrando a mis estudiantes de la asignatura Construcción de Servicios de Información Digital (4º curso del Grado de Información y Documentación de la Universidad de Murcia) las estadísticas que recopilan en la web w3techs.com sobre el uso de los CMS. Basta mirar la imagen para comprobar que WordPress es el campeón de la competición y va camino de quedar a «jugar solo».

 

estadísiticas de uso de los CMS en la web

En la última de la imagen aparece un comentario que llama mucho la atención. El 56,4% de los sitios visitados sí usan un CMS para gestionar su sitio web, eso implica que un 43,6% todavía no los emplea, algo que me parece inaudito (aunque no conozco la muestra analizada y puede ser que en ella abunden los sitios web personales o «casi» personales). Eso sí, la tendencia es claramente al alza en el uso de los CMS, ha ganado casi 14 puntos porcentuales en los últimos 4 años y se le ha dado «la vuelta a la tortilla» (hay más sitios web con CMS que no).

De ese 56,4% de sitios que emplean CMS, el 34,7% han optado por WordPress, repartiéndose el 19,7% restante de los sitios visitados el resto de los gestores de contenido. El predominio es absoluto y por ello la cuota de mercado (columnas de la derecha) de este gestor es del 61,5%. Todos los demás gestores, algunos conocidos y con comunidades de usuarios de cierta consideración como son Drupal o Joomla obtienen unos valores bajos (3,1% y 4,9% respectivamente) pero que son altos en comparación con el resto.

En la tabla de este año he incluido los gestores Shopify (comercio electrónico), Squarespace y Wix (gestorespara construir páginas y sitios web generalistas). Estos tres CMS han desplazado hacia abajo a Magento (comercio electrónico) y al veterano Blogger (gestor de blogs).

También anualmente actualizo la gráfica de búsquedas realizadas en todo el mundo en Google utilizando los nombres de los principales CMS. Esta información la obtenemos de Google Trends

 

análisis en Google trends de búsquedas sobre CmsSin necesidad de comparar datos, la gráfica certifica el predominio de WordPress, el CMS que además tiene la comunidad de soporte más grande. Es el campeón.  

 

El índice de concordancia: ¿origen de las humanidades digitales?.

El Padre Busa trabajando con ordenadores IBM

​​​​Bravo Ramón recuerda que una de las primeras manifestaciones de las humanidades digitales ocurrió en 1949, cuando el sacerdote Busa pidió ayuda a IBM, para elaborar un índice de concordancia (lista ordenada y clasificada por frecuencia de los términos que aparecen en un corpus de obras) de las obras completas de Santo Tomás de Aquino (más de 11 millones de palabras). Este índice se denomina ‘Index Thomisticus’.
Seguir leyendo…

No todo es Shangai en el mundo de los rankings

logos de los principales rankings de universidades

logos de los principales rankings de universidadesEn las primeras semanas de las elecciones a Rector en la Universidad de Murcia celebradas hace unos meses, el tema de moda era la repetida frase de uno de los candidatos sobre la necesidad de situar a nuestra institución en los 500 primeros puestos del mediático Ranking de Shangai (ARWU). Fue tal la pasión que se puso en el tema que creemos se está llegando a producir un cierto efecto rebote sobre esta cuestión, comenzando a generar rechazo hacia los rankings entre los miembros de la comunidad universitaria (muchos de ellos reacios a cualquier tipo de evaluación y/o comparación de su actividad).

Suele ser habitual leer de vez en cuando la necesidad de situar a una universidad en los 500 primeros puestos del mediático Ranking de Shangai (ARWU). Es un anhelo de una parte de la comunidad universitaria y además se ha convertido en una herramienta para criticarnos por parte de algunos sectores de la sociedad (produciendo un cierto efecto rebote sobre esta cuestión y comenzando a generar rechazo hacia los rankings entre los miembros de las universidades, algunos de ellos reacios a cualquier tipo de evaluación y/o comparación de su actividad).

Lo cierto es que el citado ranking no entró bien en el mundo universitario porque vino de la mano de uno de los peores ministros que este país ha tenido (hasta hace poco vivió en un exilio dorado de embajador en París). Es por ello que suele citarse normalmente en tono despectivo y no muy bien valorado entre los universitarios, si bien ha conseguido situarse en el centro de todas las conversaciones sobre el tema y no se mencionan habitualmente a otros rankings que sí pretenden reflejar con más cercanía a nuestro mundo el estado la cuestión.

Los compañeros Teodoro Luque-Martínez, Nina Faraoni y Luis Doña-Toledo (profesores de mi segunda alma mater, la Universidad de Granada), acaban de publicar el artículo «Meta-ranking de universidades. Posicionamiento de las universidades españolas» en la Revista Española de Documentación Científica. En este trabajo los autores proponen la elaboración de un meta-ranking que recoge a las 14 universidades españolas que aparecen en al menos cuatro de los cinco rankings globales considerados de reconocida notoriedad internacional (considerando tanto datos bibliométricos como otros aspectos y otras formas de recabar datos a partir de encuestas) y en el que recogen datos de cuatro rankings más (Shangai aparte). Las universidades españolas alcanzan mejores posiciones en los primeros que en los segundos poniéndose de relieve una debilidad mayor en la internacionalización, la reputación o el ratio estudiante-profesor que en los indicadores de investigación. Representan una loable excepción las universidades que destacan en las dos dimensiones. A la vista de estas conclusiones resulta evidente la necesidad de profundizar en una mayor internacionalización, en mejorar la reputación y mejorar la visibilidad internacional de la universidad española.

Los rankings utilizados con fuente en esta investigación son:

  1. University Ranking by Academic Performance (URAP): http://www.urapcenter.org
  2. Academic Ranking of World Universities (ARWU); http://www.shanghairanking.com
  3. National Taiwan University (NTU): http://nturanking.lis.ntu.edu.tw/
  4. Times Higher Education (THE): https://www.timeshighereducation.com/world-university-rankings
  5. Quacquarelli Symonds-QS ranking (QS): http://www.topuniversities.com/university-rankings

Los tres primeros utilizan básicamente indicadores bibliométricos especialmente referidos a investigación, mientras que los otros dos (THE y QS) además de algún indicador de esta naturaleza (principalmente citas), también utilizan otros ( internacionalización, reputación, ratio estudiantes por profesor o ingresos por investigación, por ejemplo) y alguno de ellos se obtiene mediante encuestas, como los referidos a la reputación, ya sea académica o de investigación. Estos rankings están entre los más conocidos y gozan de gran notoriedad en la comunidad universitaria internacional, se publican desde hace años y sus puntuaciones son accesibles en sus páginas web. Cada uno recoge datos con matices diferentes, por ello es interesante condensarlos para llegar a generar un meta-ranking. Y una vez elaborado, aplicarlo a las universidades españolas, representándolas y consiguiendo el posicionamiento de las diferentes universidades en dicho meta-ranking.

Las universidades españolas que han sido analizadas en este estudio son las siguientes: Barcelona, Autónomas de Madrid y de Barcelona, Pompeu Fabra, Complutense, Valencia, Granada, Politécnicas de Cataluña y de Valencia, Santiago, País Vasco, Zaragoza, Sevilla y Salamanca. 

En los resultados destacan dos aspectos fundamentalmente, el alto grado de correlación existente entre los rankings y que en los rankings que consideran datos de investigación principalmente, hay 7 universidades por encima de la media. La situación empeora al considerar otros indicadores basados en encuestas y no exclusivamente relacionados con investigación, puesto que solamente la Autónoma de Barcelona está por encima de la media. Dicha universidad es la única que aparece por encima de la media en las dos dimensiones. Siempre hablando en términos comparativos con el resto de las universidades analizadas para esta solución de dos dimensiones, hay que añadir que muchas universidades que tienen un buen desempeño en investigación (Valencia, Granada, Sevilla y Zaragoza), lo tienen claramente menor en la segunda dimensión analizada.

Esperemos que dentro de pocos años, si se repite este estudio o se desarrolla otro similar, haya una décimoquinta universidad en el mismo y que sea la nuestra (más que un deseo debería de ser una obligación para nosotros).

1989-2014: WWW, de una propuesta de gestión de información a un universo de información por descubrir.

logo de la WWW

Se puede pensar que la confluencia entre la Gestión de Información y la World Wide Web es un fenómeno contemporáneo (algo lógico tras ver la idea de Berners-Lee y su tremendo éxito), pero sus orígenes son algo más lejanos en el tiempo. Por un lado está el cambio de paradigma en la gestión documental auspiciado por los profesionales de los archivos federales norteamericanos a partir de la teoría del ‘Records Management’ de principios de los años cincuenta (Llansó i Sanjuan, 1993, p.73), algo que derivó en la necesaria reforma en los métodos de trabajo y, por otro lado, encontramos la corriente de pensamiento que surge alrededor de la idea del hipertexto concebida por Vannevar Bush (‘As we may think’, 1945), justo al final de la II Guerra Mundial y que desarrollan posteriormente otros investigadores, destacando entre todos ellos T.H. Nelson (‘http://u-tx.net/ccritics/literary-machines.html’. 1981) con su proyecto de sistema de gestión de la literatura universal Xanadú y Douglas Engelbart con el desarrollo de los primeros interfaces gráficos de usuario y los dispositivos que los hacían posible, como el primer mouse o ratón (Cantos et. al., 1994).
Seguir leyendo…

El contenido de poco valor termina «destrozando» un sitio web

problemas con el contenido

El contenido es el hecho diferencial entre un sitio web de éxito y un sitio web normal. También hemos recogido alguna vez el lema «Content is king» (que siempre había pensado que era uno de los lemas de Google y resulta que es una frase de Bill Gates). Es un hecho que necesita poca justificación, si uno accede a un portal web para recuperar información, le valdrá aquel portal que mas calidad de contenido disponga para sus usuarios, no el que menos (por muy bonito que sea el diseño de la hoja de estilo, algo que, obviamente también hay que cuidar pero que no debe ser el criterio decisivo).
Seguir leyendo…

Microdatos en páginas estáticas.

microdatos en páginas web - rich snnipets

El anterior post estuvo dedicado al enriquecimiento de los sitios web con microdatos y, si bien pienso que creo quedó completo, también es verdad que quedó algo teórico. Vamos a iniciar una pequeña serie de posts orientada a mostrar (o a intentarlo al menos) algunas aplicaciones prácticas. Lo primero que vamos a hacer es recordar qué es un ‘Rich Snippet‘. En la jerga de la web un ‘snippet‘ es el pequeño resumen informativo que aparece en un motor de búsqueda cuando se localiza una página web. Cuando «delegamos» en el motor la tarea de elaborar ese resumen de forma automática suele incluir las primeras palabras que encuentra en la página y lo cierto es que no suelen quedar muy bien, que digamos, Por ello, existe la posibilidad de personalizar de alguna manera esa presentación informativa aportando nosotros los datos, es decir, aportando microdatos.

microdatos en páginas web - rich snnipets

Si tomamos como punto de partida mi página web académica en la Universidad de Murcia , el ‘snippet’ que ofrece Google es el siguiente:

datos estructurados Microdatos snippets Google

En estos resultados observamos que Google ha elegido algunas palabras de la presentación de esta página como las más representativas para diseñar el ‘snippet’. Esto se debe a que no ha encontrado texto enriquecido que el administrador de la misma haya querido destacar de alguna manera para que aparezca resaltado en la presentación de la misma por parte del motor de búsqueda. De hecho, si usamos la herramienta ‘Testing Tool’ de Google para verificar la presencia de microdatos, éste sería el resultado:

datos estructurados Microdatos snippets Google

Continuando con la tecnología que ofrece Google para trabajar con datos estructurados, encontramos un asistente para introducir este tipo de código en las páginas. Una vez hemos accedido a esta página nos encontramos con un pequeño inconveniente, el asistente solicita la URL (o el fragmento de texto) a enriquecer y el tipo de página web que queremos enriquecer (si se trata de una página de negocio local, de serie de televisión, de películas o de eventos, entre otras limitadas opciones que ofrece la iniciativa schema.org). Podemos entonces hacer dos cosas, incluir nosotros los microdatos directamente como hicimos en el post anterior (algo lento y farragoso), o bien intentar adaptarnos a lo más parecido de la «oferta» que disponemos. En nuestro caso vamos a optar por lo segundo y elegimos «Negocio local».

datos estructurados Microdatos snippets Google

Aparecen dos subventanas, una es la página a enriquecer con microdatos, la otra es el asistente con los elementos de descripción previsto para «Empresa o Negocio local». De lo que se trata ahora es de ir marcando textos o imágenes en la subventana de la izquierda e ir asignándole elementos (marcas) en la subventana de la derecha, de la manera que se ve en la siguiente imagen:

datos estructurados Microdatos snippets Google

En la imagen anterior se observa que hemos asignado marcas a textos e imágenes de la página objeto de mejora. El siguiente paso es generar ese texto enriquecido (parte del mismo se resalta en la imagen siguiente en la subventana de la derecha).

datos estructurados Microdatos snippets Google

Lo siguiente que hemos de hacer es descargar ese texto y usarlo para sustituir el de la página original (la que no tiene datos estructurados). Transferir esa nueva página  a la web académica de la Universidad de Murcia y dejar al motor Google un tiempo prudencial para que la reindexe y podamos comprobar si hay algún efecto sobre el ‘snippet’.