Google

Microdatos en páginas estáticas.

microdatos en páginas web - rich snnipets

El anterior post estuvo dedicado al enriquecimiento de los sitios web con microdatos y, si bien pienso que creo quedó completo, también es verdad que quedó algo teórico. Vamos a iniciar una pequeña serie de posts orientada a mostrar (o a intentarlo al menos) algunas aplicaciones prácticas. Lo primero que vamos a hacer es recordar qué es un ‘Rich Snippet‘. En la jerga de la web un ‘snippet‘ es el pequeño resumen informativo que aparece en un motor de búsqueda cuando se localiza una página web. Cuando «delegamos» en el motor la tarea de elaborar ese resumen de forma automática suele incluir las primeras palabras que encuentra en la página y lo cierto es que no suelen quedar muy bien, que digamos, Por ello, existe la posibilidad de personalizar de alguna manera esa presentación informativa aportando nosotros los datos, es decir, aportando microdatos.

microdatos en páginas web - rich snnipets

Si tomamos como punto de partida mi página web académica en la Universidad de Murcia , el ‘snippet’ que ofrece Google es el siguiente:

datos estructurados Microdatos snippets Google

En estos resultados observamos que Google ha elegido algunas palabras de la presentación de esta página como las más representativas para diseñar el ‘snippet’. Esto se debe a que no ha encontrado texto enriquecido que el administrador de la misma haya querido destacar de alguna manera para que aparezca resaltado en la presentación de la misma por parte del motor de búsqueda. De hecho, si usamos la herramienta ‘Testing Tool’ de Google para verificar la presencia de microdatos, éste sería el resultado:

datos estructurados Microdatos snippets Google

Continuando con la tecnología que ofrece Google para trabajar con datos estructurados, encontramos un asistente para introducir este tipo de código en las páginas. Una vez hemos accedido a esta página nos encontramos con un pequeño inconveniente, el asistente solicita la URL (o el fragmento de texto) a enriquecer y el tipo de página web que queremos enriquecer (si se trata de una página de negocio local, de serie de televisión, de películas o de eventos, entre otras limitadas opciones que ofrece la iniciativa schema.org). Podemos entonces hacer dos cosas, incluir nosotros los microdatos directamente como hicimos en el post anterior (algo lento y farragoso), o bien intentar adaptarnos a lo más parecido de la «oferta» que disponemos. En nuestro caso vamos a optar por lo segundo y elegimos «Negocio local».

datos estructurados Microdatos snippets Google

Aparecen dos subventanas, una es la página a enriquecer con microdatos, la otra es el asistente con los elementos de descripción previsto para «Empresa o Negocio local». De lo que se trata ahora es de ir marcando textos o imágenes en la subventana de la izquierda e ir asignándole elementos (marcas) en la subventana de la derecha, de la manera que se ve en la siguiente imagen:

datos estructurados Microdatos snippets Google

En la imagen anterior se observa que hemos asignado marcas a textos e imágenes de la página objeto de mejora. El siguiente paso es generar ese texto enriquecido (parte del mismo se resalta en la imagen siguiente en la subventana de la derecha).

datos estructurados Microdatos snippets Google

Lo siguiente que hemos de hacer es descargar ese texto y usarlo para sustituir el de la página original (la que no tiene datos estructurados). Transferir esa nueva página  a la web académica de la Universidad de Murcia y dejar al motor Google un tiempo prudencial para que la reindexe y podamos comprobar si hay algún efecto sobre el ‘snippet’.

Arquitectura de un sitio web y su importancia en la «tabla periódica» del SEO

logo de duplicación de las direcciones web

Rosenfeld y Morville establecieron su visión de la Arquitectura de Información para la Web a partir de cómo se podían organizar los siguientes elementos componentes de un sitio web;

  • Esquemas de organización del contenido.
  • Sistemas de navegación.
  • Sistemas de rotulación.
  • Sistemas de búsqueda, tesauros y vocabularios controlados

Ac: «recopilabilidad» del sitio web (‘site crawlability‘). Sabido es que los motores de búsqueda recopilan sitios web a partir de una serie de direcciones «semillas» desde las cuales inician sus rastreos e indexan todo el contenido de estas páginas, además de ir anotando todos los enlaces que en ellas vayan encontrando, tanto a efectos de mejor posicionamiento como para aumentar el tamaño de la colección del índice de los motores. Es uno de los factores más considerados, de hecho se le ha asignado un valor de +3 en la tabla. Si se desea atraer tráfico a un sitio web es fundamental (e incluso vital) que los elementos que forman parte del mismo no generen problemas a estos módulos recopiladores (los robots o ‘crawlers’ de los motores de búsqueda). La mayoría de los sitios en general no tienen problemas de rastreo, pero siempre hay cosas que pueden causar problemas y que, muchas veces nos pasan desapercibidas. Por ejemplo, el uso de las tecnologías JavaScript o Flash potencialmente pueden hacer invisible para los robots los vínculos presentes en las páginas y así haremos más complicado un rastreo profundo de nuestro sitio web. Cada sitio Web se beneficia de un presupuesto de rastreo, es decir, de una cantidad aproximada de tiempo o número de páginas que un motor de búsqueda rastreará cada día: Ese presupuesto será de mayor valor cuanta más confianza y autoridad reconocida tenga en nuestro sitio (y los elementos del diseño influyen en ello decisivamente). Los sitios más grandes pueden tratar de mejorar su eficiencia de rastreo para garantizar que las páginas «correctas» están siendo rastreadas con mayor frecuencia. El uso de robots.txt , estructuras de enlace internos e indicar de forma explícita a los motores de búsqueda no rastrear páginas con ciertos parámetros de URL, por ejemplo, pueden mejorar la eficiencia del rastreo. En la mayor parte de las ocasiones, los problemas de rastreo se pueden evitar fácilmente, destacando especialmente el uso de sitemaps porque tanto  HTML como XML lo aprovechan para hacer más fácil a los motores de búsqueda el rastreo.

logo de duplicación de las direcciones webAd: Duplicación / Canonicalización (‘Duplication / Canonicalization‘). A veces, el índice del motor de búsqueda se complica especialmente cuando, tras una operación de selección de información, se localiza un conjunto de páginas con contenido prácticamente similar (algo desgraciadamente frecuente en los blogs con un alto índice de copia directa de contenidos) y el algoritmo de ranking se encuentra con problemas para discernir cuál de esas muchas páginas es la más relevante para la necesidad de información planteada. Esto no es bueno (y ya hemos visto en este blog que, por ejemplo Google, lo penaliza por la vía de sus algoritmos Penguin y Panda).  

logo imagen AS DuplicationAs: Velocidad de descarga (‘site speed’). El interés por la velocidad de acceso al contenido de un sitio web es tal que Google ha declarado que aquellos sitios más rápidos tendrán una pequeña ventaja en su algoritmo de alineamiento (si bien será uno más de los muchos factores que emplea Google) Eso sí, cuando diseñamos una página pensando en su velocidad de descarga, también estamos mejorando de forma indirecta otros factores que contribuirán, sin duda alguna, a mejorar el posicionamiento de la misma. Por tanto, es algo importante a tener en cuenta. 

logo Imagen AU oro duplicateAu: URL descriptiva. Si bien no es un factor decisivo, desde siempre se ha recomendado que en la dirección del sitio web (URL) aparezcan la palabra o las palabras que mejor lo representan (por ejemplo, un blog sobre turismo en Tarifa podría tener una URL como turismoentarifa.com). Eso siempre ayuda y además, parece que a los usuarios de la web les aportan más confianzas estas URLs tan «concretas» en lugar de algunas algo más «difuminadas». También es conveniente que la URL indique el objeto principal del sitio web a la hora de presentar los datos estructurados en los resultados de la búsqueda, tal como hacen los motores.

Por lo tanto, observamos que guardar siempre una serie de buenos hábitos sobre la arquitectura del contenido de nuestro sitio web es positivo (y nunca negativo como dirían seguramente Van Gaal y un innombrable ex-entrenador del Real Madrid) para nuestro posicionamiento. Son pequeños detalles que siempre ayudan. El gusto por la vida, ya se sabe, es cuestión de detalles ..

TrustRank o la lucha ‘anti spam’

TrustRank de google, lucha contra el webspamming

La idea fundamental de este algoritmo la comentaban sucinta y claramente en alt64: «Google desea que en las primeras posiciones de los resultados de búsqueda encontremos páginas de cierta relevancia y que estén siendo recomendadas por otras páginas que a su vez también tengan relevancia. Para determinar el PageRank, Google analiza el número de enlaces que provienen de otras páginas web y su PageRank. El Trust Rank, parte de la misma base. Pero en lugar de valorar la importancia de una recomendación en función del PageRank de la página que recomienda, lo hace a partir de una serie de páginas web que han sido consideradas importantes por humanos en lugar de por algoritmos.
Seguir leyendo…

Anatomía de un motor de búsqueda a gran escala

google en 1997

google en 1997

En el año 1997, dos estudiantes (desconocidos en ese momento) Sergey Brin y Larry Page escribieron el artículo ‘The Anatomy of a Large-Scale Hypertextual Web Search Engine‘ en el que nos presentaban a toda la comunidad científica cómo funcionaba un «juguetito» que habían diseñado en la Universidad de Stanford al que pusieron de nombre Google. Este artículo es básico para todos aquellos que quieran iniciarse en el estudio de los sistemas de recuperación de información en la web pero, tal como les he comentado varias veces a mis alumnos, el mismo se hace un poco complicado de leer, no solo porque esté en Inglés sino también por la amplia profusión de términos y vocablos muy técnicos (muy de ‘tecnojerga’ vamos).

Por ello aplaudo con alegría y alborozo el esfuerzo de José Dueñas, quien en su blog ha publicado una traducción (aún parcial) de este histórico documento a español.

¿Influye el Pagerank de Google en el posicionamiento de Yahoo!?

google y yahoo search, logos

google y yahoo search, logos

Lo normal sería contestar que no a esa pregunta, pero tras leer el trabajo ‘The ranking algorithm of Yahoo‘ en el sitio web A promotion guide, comienzo a tener mis dudas (más o menos las mismas que tiene el autor del trabajo). En el artículo se recoge un pequeño experimento conducente a intentar establecer cuáles de los parámetros que normalmente afectan al posicionamiento son verdaderamente empleados por Yahoo Search!. Ya en el planteamiento del trabajo el autor presenta la posibilidad de que este buscador use el algoritmo Pagerank de una página como elemento del posicionamiento.

El secreto de Google y el Álgebra Lineal

google y el álgebra lineal

google y el álgebra lineal

La base matemática subyace en el algoritmo de alineamiento de Google (Pagerank en un principio, ahora podríamos hablar de ese algoritmo y múltiples extensiones). El algoritmo lleva a cabo una serie de cálculos recursivos que dificultan su entendimiento y que precisa de simplificaciones matemáticas. Una de ellas es el trabajo «El secreto de Google y el Álgebra Lineal» de Pablo Fernández Gallardo, profesor de la Universidad Autónoma de Madrid que le sirvió al autor para obtener el quinto Premio SEMA a la Divulgación en Matemática Aplicada, otorgado por la Sociedad Española de Matemática Aplicada en septiembre de 2004. Ha sido publicado en el Boletín de la Sociedad Española de Matemática Aplicada 30 (2004), 115-141. En enlace anterior podemos ver la versión en formato de diapositivas y haciendo clic sobre la imagen de la diapositiva accedemos al texto del artículo.. .

‘Google bombing’

bombardeo a google - google bombing

bombardeo a google - google bombingEn los últimos meses hemos asistido al nacimiento de un nuevo término conocido como ‘Google bombing‘ (expresión que se puede traducir como «bombardeo a Google»). Este «bombardeo» consiste en introducir enlaces (ojo, de forma coordinada) a un mismo sitio web dentro de varias páginas que gozan de cierta popularidad en el buscador (páginas con Page Rank alto o relativamente alto), con el objeto de que ese sitio web aparezca en los primeros lugares de la respuesta del motor, ya que Google clasifica los documentos devueltos según su «popularidad», y si páginas que gozan de cierta popularidad recomiendan en bloque una misma página, pues esta última se convierte (por propiedad «multi-transitiva» podríamos decir) en una nueva página popular.

Espero que hayas seguido leyendo hasta aquí y que no te duela la cabeza mucho, básicamente porque ahora llega lo mejor. Si bien puede parecer normal que varios administradores de sitios web recomienden una misma página, lo que caracteriza a este fenómeno (al «bombardeo») es que ese enlace al unísono se lleva a cabo por medio de la inserción de una frase escrita en tono de broma en la página que recomienda, empleándose ese texto para enlazar hacia la otra página. ¿Qué hay de raro en ello?, pues, por ejemplo, puedes poner en tu página personal, al final y escrito de forma más o menos disimulada para no mezclar este enlace con el resto del contenido de la página, un texto que diga «Obviously, I think too that George Bush is a miserable failure» (parafraseando lo que dijo hace tiempo el candidato demócrata John Kerry sobre el POTUS). Este texto «casi oculto» te traslada a la biografía de George W. Bush, 43º Presidente de los Estados Unidos de América, uno de los peores de la historia.

La gracia del «bombardeo» reside precisamente en que si vamos a Google e insertamos la búsqueda «miserable failure«, la primera página devuelta es esa biografía. Y lo más chocante a primera vista es que en esa página no aparece ni por asomo esa expresión (que podría traducirse como «miserable fracasado», más concretamente en política exterior, tal como decía Kerry). ¿Qué está pasando? ¿Falla Google? ¿Se ha descubierto la manera de enturbiar la gloriosa vida de este buscador?. En realidad no pasa nada más que lo que tenía que pasar, Google es capaz de recomendar la visita a sitios que ni siquiera ha visitado o que no poseen los términos de la ecuación planteada (a la vista está). ¿Por qué se atreve a hacerlo?, básicamente porque el buscador confía en la credibilidad de los administradores de sitios que llevan a cabo estos enlaces y si los mismos deciden «engañarle», pues el motor cae en la trampa sin ningún pudor y de forma irremediable.

Pero la gracia del «bombardeo» no se queda ahí. En este caso, la contribución de mi página es escasa y tardía a este «bombing». Ha habido otros antes, uno famoso dedicado a un «hacker sin futuro ni imaginación» que terminó recibiendo una vista del FBI y, como no podía ser de otro modo, a Bill Gates a quien enlazaban desde el texto de una archiconocida canción de los Rolling Stones), porque ya se encargaron los administradores de sitios webs mucho más populares (el cineasta Michael Moore a la cabeza), de provocarlo. Posteriormente, alguno de estos famosos personajes deja «caer» esta noticia a un periodista y rápidamente todas las televisiones del mundo lo están emitiendo, ante el gran impacto mediático que tiene este buscador y las personas involucradas.

¿Qué hacer al respecto? Mi opinión personal es que nada debe hacerse y que Google no debe corregir su algoritmo para evitar este problema, entre otras muchas razones porque ¿alguien en su sano juicio piensa que George W. Bush no es un pobre FRACASADO miserable? No obstante, se trata de una moda, y como tal desaparecerá y dejará sitio a otra nueva, ya sabemos que el tiempo en la red es cuestión de eso, de poco tiempo. Otro día hablaremos de Page Rank y de toda la serie de trucos que se vienen llevando a cabo para ganar «popularidad» ante este algoritmo, eso ya es otro cantar.