admin

DORA: Declaración de San Francisco sobre la evaluación de la investigación.

Logotipo de la declaración DORADe largo existe un amplio debate sobre la necesidad de mejorar la forma en que las agencias de financiación, las instituciones académicas y otros grupos de interés evalúan la investigación científica. Para abordar este tema, en diciembre del año 2012, un grupo de editores de revistas científicas se reunió en San Francisco aprovechando el encuentro anual de la American Society for Cell Biology (ASCB). Este grupo desarrolló una serie de recomendaciones, conocidas como la Declaración de San Francisco sobre la Evaluación de la Investigación, invitando a los grupos de investigación interesados de todas las disciplinas científicas a mostrar su apoyo añadiendo su nombre a esta declaración.

Como todos sabemos, los productos de la investigación científica son muchos y variados, e incluyen: artículos científicos que informan de los avances de la ciencia y de la generación de nuevos conocimientos, datos, reactivos y software; propiedad intelectual y también sirven para conocer el trabajo de jóvenes científicos capacitados. Las agencias financiadoras, las instituciones que emplean a los científicos y ellos mismos, tienen la necesidad de evaluar la calidad y el impacto de los resultados de sus investigaciones. Y siempre ha existido una discusión permanente sobre si el método tradicional de evaluación (basado fundamentalmente en el factor de impacto de la revista científica donde se publica nuestros trabajo) representa de verdad la calidad del mismo. En estos momentos ya es imperativo que la producción científica se mida con precisión y prudencia.

Entrada al Instituto de Información de Filadelfia, donde se creó el Factor de Impacto.
Entrada al Instituto de Información de Filadelfia

El factor de impacto se utiliza con frecuencia como parámetro principal con el que comparar la producción científica de individuos e instituciones. Este factor fue calculado, en un principio por Eugene Gardfield en el Instituto de Información de Filadelfia, luego Thomson Reuters y ahora por Clarivate Analytics, se creó originalmente como una herramienta para ayudar a los bibliotecarios a identificar las mejores revistas para completar las colecciones de sus instituciones, no como indicador de la calidad científica de un artículo. Teniendo esto en cuenta, es fundamental comprender que el factor de impacto tiene una serie de deficiencias bien documentadas como herramienta para la evaluación de la investigación.

Estas limitaciones incluyen:

  1. Las distribuciones de citas dentro de las revistas son muy sesgadas (Adler, Ewing y Taylor, 2008).
  2. Las propiedades del factor de impacto son específicas de cada campo: es un compuesto de múltiples tipos de artículos altamente diversos, incluyendo trabajos de investigación primaria y revisiones (Vanclay, (2012).
  3. Los factores de impacto pueden ser manipulados (o evaluados) por la política editorial (The PLoS Medicine Editors, 2006), y
  4. los datos utilizados para calcular el factor de impacto no son transparentes ni están abiertamente disponibles para el público [4, 6, 7]. (Vanclay, (2012), (Rossner et al., 2007) y (2008).

Recomendaciones

El grupo de trabajo reunido en San Francisco elaboró un conjunto de recomendaciones para mejorar la forma en la que se evalúa la calidad de la producción científica. Los productos que no sean artículos científicos crecerán en importancia a la hora de evaluar la eficacia de la investigación en el futuro, pero el documento por excelencia de la comunicación de los avances en la investigación revisado por pares seguirá siendo primordial para la evaluación de la investigación. Por lo tanto, estas recomendaciones se centran en las prácticas relacionadas con los artículos científicos publicados en revistas revisadas por pares, pero se puede y se debe ampliar su alcance recogiendo elementos adicionales, como los conjuntos de datos, ya que son productos de investigación importantes. Las recomendaciones se dirigen a las agencias financiadoras, instituciones académicas, revistas, organizaciones que proporcionan métricas e investigadores individuales y cubren:

  • La necesidad de eliminar el uso de métricas basadas en revistas, tales como el factor de impacto, en consideraciones de financiamiento, nombramiento y promoción,
  • La necesidad de evaluar la investigación por sus propios méritos (del autor o autores) en lugar de basarse en la revista en la que se publica la investigación, y …
  • … la necesidad de capitalizar las oportunidades que ofrece la publicación en línea (como flexibilizar los límites innecesarios en el número de palabras, figuras y referencias en los artículos, y explorar nuevos indicadores de importancia e impacto).

Hay que reconocer que bastante agencias financiadoras, instituciones, editores e investigadores ya están fomentando mejores prácticas en la evaluación de la investigación. Dichos pasos están comenzando a aumentar el impulso hacia enfoques más sofisticados y significativos para la evaluación de la investigación que ahora pueden ser desarrollados y adoptados por todas las partes clave involucradas.

Los signatarios de la Declaración de San Francisco sobre la Evaluación de la Investigación apoyan la adopción de las siguientes prácticas en la evaluación de la investigación.

Recomendación general

  1. No utilice métricas basadas en revistas, como el factor de impacto, como una medida sustituta de la calidad de los artículos de investigación individuales, para evaluar las contribuciones de un científico individual, o en las decisiones de contratación, promoción o financiación.

Para las agencias de financiación

  1. Sea explícito sobre los criterios utilizados para evaluar la productividad científica de los solicitantes de fondos de investigación, especialmente para los investigadores que están iniciando su carrera investigadora, que el contenido científico de un artículo es mucho más importante que las métricas de publicación o la identidad de la revista en la que fue publicado.
  2. Con el fin de evaluar la investigación, considere el valor y el impacto de todos los resultados de la investigación (incluidos los conjuntos de datos y el software) además de las publicaciones de investigación, y considere una amplia gama de medidas de impacto que incluyan indicadores cualitativos, como la influencia sobre la política y prácticas científicas.

Para las instituciones

  1. Sea explícito sobre los criterios utilizados para realizar decisiones de contratación, permanencia y promoción, destacando, especialmente para los investigadores que están iniciando su carrera investigadora, que el contenido científico de un trabajo es mucho más importante que las métricas de publicación o la identidad de la revista en la que fue publicado.
  2. Con el fin de evaluar la investigación, considere el valor y el impacto de todos resultados de la investigación (incluidos los conjuntos de datos y el software) además de las publicaciones de investigación, y considere una amplia gama de medidas de impacto, incluidos los indicadores cualitativos del impacto de la investigación, como la influencia sobre la política y prácticas científicas (el mismo consejo que se le ha dato a las agencias).

Para las editoriales

  1. Reducir profundamente el énfasis en el factor de impacto como herramienta promocional, idealmente dejando de promover su uso o presentando la métrica en el contexto de una variedad de métricas basadas en revistas (por ejemplo, factor de impacto de 5 años, EigenFactor, SCImago, el índice h, tiempo editorial y de publicación, etc.) que proporcionan una visión más amplia del rendimiento de la revista.
  2. Poner a disposición una variedad de métricas a nivel de artículo para alentar un cambio hacia la evaluación basada en el contenido científico de un artículo en lugar de las métricas de publicación de la revista en la que se publicó.
  3. Fomentar las prácticas de la autoría responsable y la provisión de información sobre las contribuciones específicas de cada autor.
  4. Independientemente de que una revista sea de acceso abierto o basada en suscripciones, se deben eliminar todas las limitaciones de reutilización de las listas de referencias en los artículos de investigación y procurar que estén disponibles bajo la dedicación de dominio público de Creative Commons.
  5. Eliminar o reducir las restricciones al número de referencias en los artículos de investigación y, cuando corresponda, ordene la citación de la literatura primaria a favor de las revisiones para dar crédito al grupo o los grupos que primero informaron de un hallazgo.

Para las organizaciones que proporcionan métricas

  1. Ser abiertos y transparentes al proporcionar datos y métodos utilizados para calcular las métricas.
  2. Proporcionar los datos bajo una licencia que permita la reutilización sin restricciones y proporcione acceso computacional a los datos, cuando sea posible.
  3. Especificar que no se tolerará la manipulación inapropiada de las métricas; sea explícito sobre lo que constituye una manipulación inapropiada y qué medidas se tomarán para combatirla.
  4. Tener en cuenta la variación en los tipos de artículos (por ejemplo, revisiones frente a artículos de investigación) y en las diferentes áreas temáticas al utilizar, agregar o comparar métricas.

Para los investigadores

  1. Cuando se participe en comités que toman decisiones sobre financiación, contratación, permanencia o promoción, se deben realizar evaluaciones basadas en el contenido científico en lugar de en métricas de publicación.
  2. Cuando sea apropiado, se debe citar literatura primaria en que las observaciones son referidas primero, en lugar de revisiones para dar crédito donde debe darse.
  3. Utilizar una gama de métricas e indicadores basadas en declaraciones personales y de apoyo, como evidencia del impacto de artículos individuales publicados y otros resultados de investigación.
  4. Impugnar las prácticas de evaluación que dependan indebidamente del factor de impacto y promover y transmitir prácticas que se centren en el valor y la influencia de los resultados de investigación específicos.
El factor de impacto, atrayente de masas
«No caigas en el lado oscuro, es fuete y poderoso»

Google dedica al cambio climático el ‘doodle’ del 22 de abril – Día de la Tierra

El buscador Google quiere llamar la atención sobre los devastadores efectos del cambio climático acelerado que estamos viviendo y que todavía hay gente que lo niega. Para ello, dedica su ‘doodle‘ de hoy a una animación que destaca imágenes reales del paso del tiempo en determinadas zonas del planeta desde 1986 a 2020.

'doodle' de Google en formato animación con imágenes de los efectos del cambio climático

Para las Naciones Unidas (ONU), la celebración de este día aspira a recordar la necesidad de «avanzar hacia una economía más sostenible que funcione tanto para las personas como para el planeta”.

Precisamente hoy, y en la sede central de esta organización, se celebra el evento ‘Dialogue on Harmony with Nature‘ en el que están invitados a participar Teresa Vicente y Eduardo Salazar, profesores de la Universidad de Murcia, quien con Mario Cervera, alcalde del municipio de Los Alcázares, expondrán en tan destacado foto, la propuesta de iniciativa legislativa popular impulsada desde la Clínica Jurídica de la Facultad de Derecho y que se encuentra en trámite en el Congreso de los Diputados, tras recoger 639.000 firmas de apoyo de ciudadanos y ciudadanas.

Efectos de la anoxia en el Mar Menor en el verano de 2021. 16 toneladas de peces muertos.

El evento se podría seguir en streaming desde la dirección https://media.un.org/en/webtv/ y desde la página principal de la Universidad de Murcia.

Cartel del Día de la Madre Naturaleza de Naciones Unidad, año 2022

Open Science Manifesto

En el año 2017, OCSDNet llevó a cabo una consulta participativa con científicos, profesionales del desarrollo y activistas de 26 países de América Latina, África, Oriente Medio y Asia para comprender cuáles eran para ellos son los valores fundamentales de la ciencia abierta. El resultado de esta consulta es que no existe una forma correcta de hacer ciencia abierta. Requiere una negociación y una reflexión constante, y el proceso siempre será diferente según el contexto. Pero también se pudo encontrar un conjunto de siete valores y principios en el centro de su visión de una ciencia abierta y más inclusiva que se recoge en este video subtitulado en español:

De esta forma, se establecen los siguientes SIETE principios de la ciencia abierta y colaborativa.

  1. Permite un conocimiento común en el que cada individuo decide cómo se gobierna y gestiona su conocimiento para abordar sus necesidades (si tiene los medios para ello).
  2. Reconoce la justicia cognitiva, la necesidad de diversas comprensiones de la toma de conocimiento para coexistir en la producción científica.
  3. Practica la apertura situada al abordar las formas en que el contexto, el poder y la desigualdad condicionan la investigación científica.
  4. Defiende el derecho de cada individuo a la investigación y permite diferentes formas de participación en todas las etapas del proceso de investigación.
  5. Fomenta la colaboración equitativa entre científicos y actores sociales y cultiva la cocreación y la innovación social en la sociedad.
  6. Incentiva las infraestructuras inclusivas que empoderan a las personas con todas las capacidades para crear y utilizar tecnologías accesibles de código abierto.
  7. Y finalmente, ciencia abierta y colaborativa: Se esfuerza por utilizar el conocimiento como un camino hacia el desarrollo sostenible, equipando a cada individuo para mejorar el bienestar de nuestra sociedad y el planeta.

Berners-Lee vende una copia digital del código original del primer navegador web por más de 5 millones de dólares.

Tim Berners Lee

Tim Berners Lee

Tim Berners Lee creó la WWW en 1989, conectando diferentes piezas de información en internet a través de hipervínculos. Para ello construyó el primer navegador y servidor web, y siempre se negó a patentar su invención porque quería garantizar el acceso universal a este nuevo sistema. En el año 1993, el CERN (la organización de investigación para la que trabajaba) renunció a todos sus derechos sobre la tecnología y la puso en el dominio abierto.

Hace unos días se anunció la subasta de una copia de ese código original (y de una carta firmada digitalemente por Berners-Lee y alguna otra fruslería) en Sotheby’s, pero en forma de una NFT (‘Tokens no fungibles’, por sus siglas en inglés, archivos digitales que se basan en la misma tecnología que sustenta las criptomonedas para crear un registro inalterable de una creación digital, que no puede ser modificado o copiado sin perder su firma criptográfica original). La recaudación iba a ser íntegramente donada con fines sociales.

Berners-Lee dijo al diario inglés ‘The Guardian‘ que «los códigos y protocolos centrales en la web están libres de regalías, como siempre lo han sido». Y no estaba «vendiendo la web«, y no habrá que empezar a pagar dinero para seguir enlaces porque “no estoy vendiendo el código fuente, vendo una imagen que hice, con un programa escrito en Python que escribí yo mismo, de cómo se vería el código fuente si estuviera pegado en la pared y firmado por mí».

Sotheby’s describió el lote como «la única copia firmada del código del primer navegador web existente«, comparando su venta con la de los documentos manuscritos de una figura histórica. Las NFT han sido criticadas por su impacto en el medio ambiente, ya que la cadena de bloques, donde los registros de propiedad se almacenan en un libro de contabilidad digital, requiere grandes cantidades de energía para funcionar. Sotheby’s dijo que pagaría una compensación de carbono por los «costos de acuñación y transacción de la venta».

Si quieres «revivir» cómo funcionaba ese primer navegador web hace algo más de 30 años, el CERN ha preparado un enlace para ello.

HyperMedia browser/editor. El primer navegador web que utilizó Berners-Lee para crear la web.
HyperMedia browser/editor. El primer navegador web que utilizó Berners-Lee para crear la web.

El primer método de evaluación de los buscadores web

tabla de comparativa de la efectividad de dos buscadores web

Three Web search engines, namely, Alta Vista, Excite, and Lycos, were compared and evaluated in terms of their search capabilities (e.g., Boolean logic, truncation, field search, word and phrase search) and retrieval performances (i.e., precision and response time) using sample queries drawn from real reference questions. Recall, the other evaluation criterion of information retrieval, is deliberately omitted from this study because it is impossible to assume how many relevant items there are for a particular query in the huge and ever changing Web system. The authors of this study found that Alta Vista outperformed Excite and Lycos in both search facilities and retrieval performance although Lycos had the largest coverage of Web resources among the three Web search engines examined. As a result of this research, we also proposed a methodology for evaluating other Web search engines not included in the current study.
Seguir leyendo…

The Conversation: CORD-19: corpus semántico de información científica para hacer frente a la pandemia

En diciembre de 2021 publiqué con mi compañera y amiga Rosana López Carreño, el artículo «Vista de sistemas de recuperación de información implementados a partir de CORD-19: herramientas clave en la gestión de la información sobre COVID-19» en la Revista Española de Documentación (número de 1 de diciembre de 2020). Al poco tiempo, los editores de esa revista científica nos recomendaban publicar un resumen del trabajo en el portal The Conversation (proyecto auspiciado por la CRUE y en el que participan bastantes universidades españolas).

Les hicimos caso, fruto de esa idea es la entrada en este portal titulada «CORD-19: Buscador semántico de información científica para hacer frente a la pandemia» que copiamos a continuación en este blog (siguiendo también recomendaciones de los editores del portal).

Shutterstock / PopTika

Francisco-Javier Martinez-Mendez, Universidad de Murcia y Rosana López-Carreño, Universidad de Murcia

Vivimos una pandemia de origen y alcance sin determinar que requiere de grandes esfuerzos para frenar sus efectos. La coordinación de científicos, políticos y ciudadanía, con el apoyo de muchas empresas tecnológicas, es un hecho singular que afecta positivamente a la investigación científica en un espacio muy breve de tiempo, generando herramientas de búsqueda basadas, muchas de ellas, en tecnologías semánticas.

La descripción de la documentación científica, la normalización terminológica vía tesauros y facetas, la minería de datos y el desarrollo de sistemas interoperables han permitido, en un tiempo récord, generar una amplia variedad de fuentes de información alrededor del coronavirus (artículos, casos clínicos, datos epidemiológicos, evidencias o patentes).

La reacción en cadena de editoriales, universidades, centros de investigación y empresas tecnológicas ha propiciado una diseminación de la información científica sobre la COVID-19, paralela al ritmo de contagio del propio virus, que algunos autores califican de “revolución”.

Buscadores de información

Revistas biomédicas como New England Journal of Medicine, Lancet, Nature, Science o British Medical Journal han publicado abundante material bibliográfico en abierto. Además, las editoriales han creado espacios de información con búsquedas predefinidas por los principales tópicos (Cambridge Core Coronavirus Free Access Collection, EBSCO Covid-19, Elsevier Coronavirus Research Repository, etc.).

Por otra parte, los repositorios temáticos ofrecen artículos y ‘preprints’. Entre ellos podemos encontrar MedRxiv, Biorxiv o Pubmed. Esta última, por ejemplo, ha añadido publicaciones relacionadas diariamente desde principios de enero, con un pico de 300 artículos en un solo día.

Las grandes plataformas bibliográficas y los buscadores académicos también permiten acceder a los documentos mediante búsquedas predeterminadas, filtros y conjuntos de datos estructurados (Dimensions, Kaggle, Google Dataset Search, Semantic Scholar, etc.). También están involucrados el buscador de patentes Lens (patentes) y el de casos clínicos, Kahun.

Las autoridades sanitarias, universidades, sociedades científicas y centros de investigación han desarrollado servicios informativos: National Institutes of Health, Centers for Disease Control and Prevention, Organización Mundial de la Salud y el Centro de Recursos de Coronavirus de la Universidad Johns Hopkins, el punto informativo más conocido.

La emergencia informativa no solo recae en el ámbito científico, sino también en el político y social. Ello propicia una enorme proliferación de datos de distinto tipo, estructura, formato y cobertura, saturando su localización y gestión.

Centro de Recursos del Coronavirus de la Universidad Johns Hopkins. Johns Hopkins University

¿Cuántos tipos de buscadores existen?

Es preciso diferenciar entre ellos. Podemos encontrar los estadísticos (epidemiológicos), terminológicos (semánticos) y bibliográficos. Los primeros se nutren de las series estadísticas aportadas por las administraciones e instituciones sanitarias. Esta información no suele disponerse en formatos y estructuras limpias para su reutilización. Además, necesita del desarrollo de herramientas de visualización y actualización para la toma de decisiones y para su difusión en medios de comunicación.

Para ello, se suele utilizar infografías y visualizaciones de datos, donde destacan ‘Information is beautiful’ y el mapa de la Universidad Johns Hopkins, enlazado a más de 200 000 sitios web y referente de los medios de comunicación.

Por su parte, los conjuntos de datos terminológicos son fundamentales en la gestión de información. Por ejemplo, hay distintos lenguajes controlados, como MESH o DeCS, que poseen un valor equiparable a la propia producción científica porque aumentan la precisión al recuperar información.

Al mismo tiempo, los conjuntos de datos bibliográficos recogen datos estructurados de investigación y agregan contenido desde otras fuentes. Además, es la base para el desarrollo de buscadores basados en conceptos y mapas de relaciones.

Sin embargo, la sobrecarga informativa producida por la vasta producción científica es más un problema que una ayuda si no se dispone de sistemas de recuperación de información adecuados. Los buscadores web convencionales no sirven para cribar la información útil.

Por ello, ha rebrotado la importancia de la descripción documental en estos conjuntos de datos y se apuesta claramente por la inteligencia artificial y la minería de datos, poniéndose a disposición de los investigadores prototipos que no habían tenido suficiente audiencia e interés hasta ahora.

Se precisa un nuevo paradigma para recuperar información que filtre entre la inmensa plétora de resultados. El reto es tremendo por el volumen y por trabajar al unísono con artículos revisados, ‘preprints’ y una heterogénea colección de fuentes oficiales. Es un verdadero desafío para la recuperación de información y, además, hay una gran urgencia en disponer de la misma.

CORD-19: Recopilación de datos sobre SARS-CoV-2

Por eso, en respuesta a esta gran cantidad de datos, el Instituto Allen y la Oficina de Política de Ciencia y Tecnología de Estados Unidos pusieron en marcha un recurso de libre acceso para la comunidad investigadora, llamado CORD-19, que engloba datos de investigación abierta sobre covid-19. Cuenta con 280 000 artículos académicos, incluyendo más de 150 000 con texto completo, sobre covid-19, SARS-CoV-2 y coronavirus relacionados.

Este recurso se puso en marcha el 16 de marzo de 2020 y participaron también la Biblioteca Nacional de Medicina (NLM), la iniciativa Chan Zuckerberg, Microsoft Research Asia y el contenedor de datos Kaggle, coordinado por el Centro de Seguridad y Tecnologías Emergentes de la Universidad de Georgetown.

CORD-19 agrega información semanalmente desde los repositorios PubMed, MedRxiv y OMS. Además, existe una gran sinergia entre el repositorio y el buscador semántico académico Semantic Scholar, por lo que permite la descarga del conjunto de datos. Es, sin duda alguna, el referente informativo para los investigadores durante esta pandemia, ya que Google Scholar no ha llevado a cabo algo parecido.

El esfuerzo desarrollado por la comunidad científica no tiene precedentes en volumen de su producción y en la velocidad de su transmisión. El volumen de información a manejar es ingente, el ‘big data’ ayuda a los virólogos y a otros expertos en el manejo de la información estadística y en la identificación de posibles patrones de comportamiento de la pandemia.

Información científica clasificada

A partir de CORD-19, hemos identificado más de 40 fuentes (13 conjuntos de datos y 27 buscadores) sobre la pandemia que podemos clasificar en tres categorías:

  1. Buscadores convencionales. Similares a los sistemas de búsqueda de las plataformas bibliográficas. Estos alinean la respuesta según la relevancia, con filtrado de documentos por fuente (Elsevier, biorxiv, WHO/OMS, etc.), revista, autor y fecha de publicación. También localizan información por términos o por frase exacta.
  2. “Visualizadores” de la información. Además de la búsqueda convencional localizan documentos gracias a tesauros, frecuencia de uso, proximidad de términos en las frases y expresiones regulares. Suelen complementarse con herramientas de visualización de las asociaciones entre estos conceptos (genes, productos químicos, fármacos, mutaciones, líneas celulares, especies y enfermedades). También muestran los resultados mediante nubes de etiquetas.
  3. Inteligencia artificial. Son herramientas de última generación que aplican modelos de redes neuronales para mejorar la calidad de la información recuperada. Pretenden ayudar a la toma de decisiones basadas en evidencias y en generación de ideas. También es posible la navegación por facetas y otros sistemas se apoyan en la idea del ‘chatbot’. Hay sistemas que aplican el modelado de temas para descubrir ideas subyacentes. Otros sistemas entregan como respuesta informes con asociaciones entre conceptos, filtrado por fuentes, edad de los pacientes, género, tipo de publicaciones, características del trastorno, tratamientos aplicados y resultados, palabras clave más relacionadas con el concepto, fechas de publicación y autores más influyentes en el campo de la consulta.

Es muy significativo, y digno de elogio, el esfuerzo de empresas e instituciones que han desarrollado servicios de consulta y los han puesto a disposición de la comunidad científica.

Resulta claro que la lucha contra la pandemia ha disparado el uso de buscadores semánticos por la necesidad de filtrar los resultados de las búsquedas por tres razones. La primera es la enorme producción científica que puede “infoxicar”, algo consustancial al tiempo presente. La segunda es la necesidad de recuperar por facetas o conceptos más que por coincidencia de términos. La última es la imposibilidad material de emplear el impacto como referencia para elegir un artículo.

Queda ahora verificar si este avance de la tecnología de búsqueda semántica se va a quedar circunscrito a la lucha contra la pandemia o si se va a ampliar a otros sistemas de información. Lo lógico (y deseable) es que así sea.

Una versión más ampliada de este artículo está accesible en acceso abierto en la Revista Española de Documentación Científica, editada por el CSIC.The Conversation

Francisco-Javier Martinez-Mendez, Profesor Titular de Biblioteconomía y Documentación, Universidad de Murcia y Rosana López-Carreño, Profesora de Fuentes de Información y Documentación Científica, Universidad de Murcia

Este artículo fue publicado originalmente en The Conversation. Lea el original.

Sistemas de recuperación de información desarrollados a partir del conjunto de datos CORD-19

logo del conjunto de datos CORD19

Aquí os dejo enlace al artículo «Vista de Sistemas de recuperación de información implementados a partir de CORD-19: herramientas clave en la gestión de la información sobre COVID-19» que he publicado con Rosana López Carreño en la Revista Española de Documentación Científica (número de diciembre de 2020). 

La investigación sobre el coronavirus ha generado una producción de documentos científicos extraordinaria. Su tratamiento y asimilación por parte de la comunidad científica ha necesitado de la ayuda de sistemas de recuperación de información diseñados de forma específica para esta cuestión. Algunas de las principales instituciones mundiales dedicadas a la lucha contra la pandemia han desarrollado el conjunto de datos CORD-19 que destaca sobre otros proyectos de similar naturaleza.

Los documentos recopilados en esta fuente han sido procesados por distintas herramientas de recuperación de información, a veces prototipos o sistemas que ya estaban implementados. Se ha analizado la tipología y características principales de estos sistemas concluyendo que hay tres grandes categorías no excluyentes entre ellas: búsqueda terminológica, visualización de información y procesamiento de lenguaje natural. En el artículo podemos ver que la gran mayoría de ellos emplean preferentemente tecnologías de búsqueda semántica con el objeto de facilitar la adquisición de conocimiento s los investigadores y ayudarlas en su ingente tarea.

Concluimos convencidos de que la crisis provocada por la pandemia ha sido aprovechada por los buscadores semánticos para encontrar su sitio. Y seguramente para no abandonarlo.

logo del conjunto de datos CORD19

El origen de la palabra «ordenador».

IBM 650, finales de los años 50

Tanto la palabra «ordenador» como la palabra «informática» son de origen francés y ambas comparten una misma idea, que las máquinas que se estaban desarrollando de forma frenética en los años 60 servían para algo más que para contar, tal como hacían las calculadoras (concepto más cercano a la idea de ‘computer’ que había en esos tiempos).

Por esta razón, cuando la empresa IBM quiso introducir en Francia su equipo 650 en el año 1955, su responsable de publicidad en este país, François Girard, insistió en buscar una palabra más familiar en su lengua y para ello recurrió (hizo bien sin duda alguna) a un antiguo profesor de filología en la Sorbona. Jacques Perretquien «le puso en la pista» sugiriendo la palabra ‘ordonnateur‘ («alguien que lo pone todo en orden») que provenía del latín ‘ordinare’.

IBM 650, finales de los años 50

Finalmente, IBM no terminó de hacer caso del todo a las sugerencias del antiguo profesor e introdujo la palabra ‘ordinateurque termina introduciéndose como término de normal uso en francés y se «traslada» a otras muchas lenguas, como el español que usamos en Europa (porque en América se sigue usando «computador» o «computadora» de forma masiva).

Berners-Lee propone un «contrato para la web».

fragmento del contrato para la web de Sir Tim Berners Lee

fragmento del contrato para la web de Sir Tim Berners Lee

«La Web se diseñó para unir a la gente y hacer que el conocimiento fuese accesible para todos y todas. Ha cambiado el mundo para bien y ha mejorado la vida de miles de millones de personas. Sin embargo, todavía hay muchas personas que no pueden acceder a sus ventajas y muchas otras para las que la Web supone un coste demasiado elevado.

Todos tenemos un papel que cumplir a la hora de salvaguardar el futuro de la Web. Los representantes de más de 80 organizaciones redactaron el Contrato para la Web en nombre de gobiernos, empresas y la sociedad civil. En él se establecen los compromisos que deben guiar las políticas digitales. Con el fin de alcanzar los objetivos del Contrato, los gobiernos, las empresas, la sociedad civil y las personas deben comprometerse con el desarrollo sostenido de dichas políticas, así como con la defensa y la implementación de este texto».

Así presenta Sir Tim Berners-Lee, el inventor de la web, su nueva iniciativa que ha llamado «Contrato para la Web«. El objeto de la misma es garantizar que todos tenemos acceso a ella, no solo las personas que viven en países donde el nivel de vida lo permita y gobernados por sistemas democráticos. La idea de Berners-Lee va en la línea de conseguir el verdadero acceso universal a «su criatura», la que propuso casi de escondidas a sus jefes del CERN hace ya 30 años. 

Este contrato se estructura en 9 principios básicos, los presentamos de forma resumida:

  1. Asegurarse de que todo el mundo pueda conectarse a internet para que cualquier persona, independientemente de quién sea o dónde viva, pueda participar de forma activa en la red.
  2. Hacer que la totalidad de internet esté disponible en todo momento para que a nadie se le niegue el derecho a disfrutar de un acceso completo a la red.
  3. Respetar y proteger los derechos básicos de las personas sobre sus datos y su privacidad en la red para que todo el mundo pueda usar Internet libremente de forma segura y sin miedo.
  4. Hacer que el acceso a internet sea asequible y accesible para todo el mundo para que nadie quede excluido del uso y el desarrollo de la web.
  5. Respetar y proteger la privacidad y los datos personales, con el fin de generar confianza en la red para que las personas tengan el control sobre sus vidas en Internet y que cuenten con opciones claras y relevantes en lo relativo a sus datos y su privacidad. 
  6. Desarrollar tecnologías que promuevan lo mejor de la humanidad y contribuyan a mitigar lo peor para que la web sea realmente un bien público en donde prevalezca el interés de las personas.
  7. Crear y colaborar en la web para que la web tenga un contenido rico y relevante para todos.
  8. Construir comunidades sólidas que respeten el discurso civil y la dignidad humana para que todo el mundo se sienta seguro y bienvenido en la red.
  9. Luchar por la web para que siga siendo abierta y un recurso público global para las personas de todo el mundo, ahora y en el futuro. 

Estos principios afectan (son reclamaciones más bien) a gobiernos, empresas y ciudadanos. Eso quiere decir que están dirigidos a gran parte (a lo mejor a toda) de la sociedad actual. Asegurar que la red tenga infraestructura suficiente, que el acceso sea lo más barato posible, que se respeten los derechos de los usuarios y que su uso esté dirigido a mejorar a las personas, son causas por las que vale la pena postularse, más allá de rellenar el formulario de adhesión y hacer clic con el dedo en la pantalla del teléfono.

A por ello ….

El «cuadrante mágico» de Gartner de la gestión de contenidos.

cuadrante mágico de Gartner de la gestión de contenidos 2019

Este post puede parecer contradictorio con el anterior dedicado al liderazgo de WordPress en el mundo de los CMS, pero no lo es tanto. Comentamos el ya clásico estudio de Gartner Group sobre lo que ellos llaman «plataformas de gestión de contenidos» si bien emplean en inglés el acrónimo WCM (‘web content management’) que es abreviatura de WCMS de donde «sale» el más utilizado CMS.
Seguir leyendo…