SEO

Escribir en la web «para» las gramáticas generativas LLM: el paradigma GEO

¿Por qué GEO?

Hace unos días escuché a unas de las personas que se presenta a las elecciones al rectorado de la Universidad de Murcia comentar en una entrevista en un podcast que quizá estábamos escribiendo páginas web bajo el paradigma equivocado porque son muchos los usuarios que emplean las gramáticas generativas IA tipo chatGPT, Gemini, Claude, Perplexity, etc. para recuperar información en lugar de los motores de búsqueda tradicionales y podemos preparar nuestras entradas de forma optimizada para esta nueva tecnología, avanzando desde el SEO hasta el GEO (siglas de ‘Generative Engine Optimization‘).

Desde entonces vengo preguntándome sobre esta cuestión y voy a decicar algunas entradas (redactadas en el formato «tradicional» de este blog, pero intentando tomar nota de algunas de las recomendaciones que he encontrado al respecto) a esta cuestión.

Claves del cambio de paradigma

Sabemos que los buscadores tradicional devuelven listas de enlaces a partir de palabras clave y la correspondencia entre esas palabras y el contenido de las páginas web. Una gramática generativa LLM devuelve respuestas construidas a partir de fragmentos de información. Esta diferencia es substancial y deja claro que estamos comparando tecnologías diferentes. Ahora, sin dejar de conferir importancia a la entrada en sí misma como unidad, para las gramáticas generativas resulta más trascendente que el contenido pueda ser reutilizado como una unidad de conocimiento.

1. Credibilidad: si no es verificable, no sirve.

Los modelos generativos priorizan contenidos en los que se puede “confiar”, prefieren textos con fuentes identificables, contenidos con datos concretos y de autoría clara, como se comprueba en esta búsqueda en el modo IA de Google:

Ejemplo de búsqueda en el "modo IA" de Google.
Ejemplo de búsqueda en el «modo IA» de Google.

Además de elaborar un resumen para responder a la cuestión, muestra en la parte derecha de la pantalla las fuentes de información que le sirven de soporte. Entre los criterios que necesitamos los autores para ganarnos esa «confianza» destacan:

  • citar informes, artículos o datasets
  • incluir cifras, porcentajes o resultados medibles
  • indicar quién escribe y cuándo

Está claro que cuanto más verificable sea nuestro contenido, más probable es que sea reutilizado. Esto es algo habitual en el mundo científico al escribir un artículo, el mismo debe apoyarse en fuentes de autoridad contrastada que terminan confiriéndole a nuestro trabajo la calidad suficiente para ganar calidad en el seno de la comunidad científica. Esto no es frecuente en la web actual. Por cierto, he usado viñetas en lugar de escribir en un párrafo los criterios «de confianza» para las gramáticas LLM, lo he hecho porque esa forma de exponer el contenido también les parece interesante.

2. Estructura: escribir pensando en fragmentos, no en páginas.

Las gramáticas generativas no “leen artículos”, trabajan con fragmentos (‘chunks‘). Los autores podemos, fácilmente, ayudar a ello usando los encabezados (H1, H2, H3, …) de una forma clara y consistente (de hecho, cualquiera que siga este blog verá que hay más encabezados que de costumbre, antes no hacía tanto uso de ellos). Dividir el contenido en bloques pequeños y evitar referirnos a esos bloques (párrafos) con expresiones ambiguas del estilo de “esto último permite” o “lo anterior indica” servirá para aumentar el interés de esas gramáticas hacia nuestra entrada web, esto no contradice para nada lo que hemos venido haciendo hasta ahora. La novedad fundamental reside en estructurar en formato pregunta–respuesta estos fragmentos de información, por ejemplo:

Formato de redacción "pregunta-respuesta" en una entrada web.
Formato de redacción «pregunta-respuesta» en una entrada web.

Este tipo de bloques de contenido encaja perfectamente con cómo funcionan los sistemas RAG (Retrieval-Augmented Generation), técnica que mejora la precisión de los modelos LLM en la consulta de fuentes de datos externos.

3. Claridad: menos retórica, más información.

Para un lector humano, cierto grado de estilo es positivo, aunque siempre se ha comentado que la web no es el lugar para perífrasis y circunloquios. Para una gramática generativa LLM lo importante es encontrar contenidos con:

  • frases claras
  • conceptos explícitos
  • poca ambigüedad

Asím funciona mejor la frase «Un eclipse solar ocurre cuando la Luna bloquea la luz del Sol desde la Tierra” que el texto «Este fenómeno sucede cuando se alinean ciertos cuerpos celestes”. Redactar sencillo genera contenido de fácil comprensión y mayor reutilización. La clave es la densidad informativa (cuánta información útil y concreta hay en una frase o texto en relación con su longitud).

4. Metadatos para ayudar a las máquinas a entender el contenido.

Si bien no es obligatorio, añadir metadatos estructurados, lo cierto es que ayuda bastante. Aquí entramos en el territorio de Schema.org y de los datos estructurados que sirven para indicar (entre otras cosas):

  • tipo de contenido (artículo, dataset, etc.)
  • autor
  • fecha
  • tema

Este enriquecimiento de los sitios web con microdatos reduce la ambigüedad del texto y mejora la interoperabilidad con sistemas externos. En este caso, esto es positivo tanto para las gramáticas generativas como para la recuperación de información tradicional.

5. Pensar en RAG: cómo “leen” realmente estos sistemas.

Muchos sistemas actuales combinan modelos de lenguaje con recuperación de información RAG. Esto implica:

  1. el contenido se fragmenta
  2. el contenido se convierte en vectores (‘embeddings‘)
  3. del contenido se van a recuperar los fragmentos más relevantes
  4. el modelo genera la respuesta

Lo cierto es que los autores no podemos controlar este proceso, pero sí facilitarlo por medio de:

  • bloques de contenido de tamaño medio (ni demasiado largos ni demasiado cortos)
  • repetir ligeramente conceptos clave (sin forzar)
  • responder preguntas que el usuario realmente haría

Lo cierto es que las dos primeras recomendaciones también son válidas para la recuperación de información tradicional, es la tercera (que ya hemos adelantado) la que representa una novedad: escribir pensando en preguntas concretas.

6. Qué ya no funciona (o funciona peor)

Algunas prácticas del SEO clásico pierden sentido aquí:

  • keyword stuffing (uso excesivo de palabras clave) → irrelevante o incluso perjudicial
  • textos largos sin estructura → difíciles de reutilizar
  • contenido genérico sin datos → baja probabilidad de uso

Tanto el exceso de palabras clave como la desestructuración de los textos sabemos desde hace tiempo que estaba penalizado en la recuperación de información clásica. En el contexto GEO podemos considerar su abolición como una premisa. En GEO, más no es mejor: mejor es mejor.

Resumiendo …

Todo esto se puede resumir así en una frase corta: «No escribas páginas. Diseña unidades de conocimiento«. Para ello, debemos seguir, como mínimo, esta serie de pasos:

  1. Hacer el contenido verificable (fuentes, datos, autoría).Q
  2. Estructurar el texto en bloques claros (mejor si son preguntas y respuestas).
  3. Escribir de forma explícita y sin ambigüedades.
  4. Facilitar la fragmentación del contenido (‘chunking’).

La optimización del contenido para las gramáticas generativas no sustituye completamente al SEO, lo que hace es añadir una nueva capa.

Para finalizar, le he pedido a Google Notebook LLM que prepare un pequeño vídeo para mostrar la transición del SEo al nuevo paradigma GEO a `partir de algunas de las fuentes que hemos empleado para preparar esta entrada. Creo que ha quedado interesante.

Del SEO al GEO: algunas pistas básicas.

Factores «clave» del contenido web para el ranking de Google

La web Backlinko dedica una página informativa sobre los factores de alineamiento de Google ofreciendo una guía exhaustiva de más de 200 elementos que influyen en el algoritmo. Su propósito es «educar» a las personas que administran sitios web y a profesionales del SEO sobre cómo mejorar la posición de sus páginas en los resultados de búsqueda. En este análisis dividen los factores en categorías clave, como la calidad del contenido, ‘backlinks‘ y la experiencia del usuario (UX) y aspectos técnicos tales como la velocidad de carga y la optimización para el escosistema móvil. También se analizan señales de comportamiento del usuario y actualizaciones constantes del algoritmo.

Imagen inspirada en el ranking de Google creada con Delle - 3, la IA para gráficos de chatgpt
El ranking de Google dibunado por Delle – 3

En la siguiente tabla recogemos una síntesis de los once (como si fuera una alineación de un equipo de fútbol) factores que más se destacan en este artículo.

FactorDescripciónEjemplo
Calidad del ContenidoGoogle prioriza contenido de alta calidad, informativo y relevante.Un artículo detallado y bien investigado sobre un tema específico que responde completamente a las preguntas de los usuarios.
Backlinks‘ (enlaces entrantes)Los enlaces de otros sitios web actúan como votos de confianza. Cuantos más enlaces de entrada de alta calidad tenga tu sitio, mejor se posicionará.Un sitio web que recibe enlaces de universidades y sitios de noticias reconocidos.
SEO TécnicoAspectos técnicos del sitio web, como la velocidad de carga, la compatibilidad con dispositivos móviles y la capacidad de rastreo.Un sitio web optimizado para cargar rápidamente en dispositivos móviles y que utiliza un archivo robots.txt adecuado para permitir el rastreo de los motores de búsqueda.
Optimización de palabras claveUso de palabras clave relevantes en el contenido del sitio web para ayudar a los motores de búsqueda a entender de qué trata el sitio.Un blog de recetas que utiliza palabras clave como “recetas saludables” y “comida vegana” en sus artículos.
Experiencia del usuario (UX)Medida de lo fácil y agradable que es para los usuarios utilizar el sitio web. Google prefiere sitios que proporcionan una buena experiencia de usuario.Un sitio web con una navegación intuitiva, tiempos de carga rápidos y diseño responsive.
Marcado de esquema (Schema Markup)Datos estructurados que se pueden añadir al sitio web para ayudar a los motores de búsqueda a entender mejor el contenido.Un sitio de comercio electrónico que utiliza marcado de esquema para mostrar reseñas de productos y precios directamente en los resultados de búsqueda.
Señales socialesInteracciones sociales como “me gusta”, “compartir” y otros. Aunque no son un factor directo, pueden influir en la visibilidad del contenido.Un artículo que recibe muchas comparticiones en redes sociales como Facebook y Twitter.
Señales de marcaLa percepción general de la marca en línea. Google favorece marcas bien conocidas y respetadas.Un sitio web de una marca reconocida que recibe menciones en medios de comunicación y tiene una fuerte presencia en redes sociales.
Edad del dominioLos dominios más antiguos pueden tener una ligera ventaja, ya que se consideran más confiables.Un sitio web que ha estado activo durante más de 10 años y ha mantenido un historial constante de contenido de calidad.
Velocidad de carga del sitioLa rapidez con la que se carga un sitio web es un factor importante, especialmente en dispositivos móviles.Un sitio web que utiliza técnicas de optimización como la compresión de imágenes y el almacenamiento en caché para mejorar los tiempos de carga.
Intención de búsquedaLa capacidad del contenido para satisfacer la intención del usuario en el momento de la búsqueda.Un artículo que proporciona una guía completa y detallada sobre “cómo plantar un jardín de hierbas” cuando los usuarios buscan información sobre jardinería.
RTabla resumen de los 11 factores más importantes en el ranking de Google. Fuente: Backlinko

Como pasa con las selecciones de fútbol donde cualquier aficionado o aficionada tiene su propio «once«, si buscamos en otras páginas web es más que seguro que algunas de estas características no sean consideradas por sus autores e incluyan otras que hemos dejado fuera. Es ley de vida.

Evan Bailyn, CEO de la empresa de SEOFirst Page Sage‘, escribió en diciembre de 2021 un artículo en Linkedln una nota informatica titulada ‘The 2022 Google Algorithm Ranking Factors‘ donde presentaba los factores ordenados a partir de su «peso» en la fórmula final del algoritmo de ranking, que podemos visualizar en el siguiente diagrama circular.

peso de los distintos factores del algoritmo de ranking de Google en 2022

Como se observa, un 26% de la fórmula final se debe al contenido de calidad (de alto nivel se menciona), un 17% se le asigna a las metaetiquetas del título de la página, los enlaces de entrada (‘backlinks‘) tienen un peso del 15% (con Pagerank era el factor clave, desde 2018 ha descencido mucho en importancia). También tiene importancia la presencia de esa página entre lo que se considera «nichos de expertos» (13%) y la involucración de los usuarios (fidelidad) que alcanza el 11%. Entre estos cinco factores suman un poco más del 75% del peso de la fóruma final según Evan Bailyn. Aquí va la tabla completa.

factores principales del algoritmo de Google según firstpagesage.com

¿Qué es «contenido de calidad» para Google?

Son varios aspectos a considerar:

Se trata de contenido original, único y valioso. Google da preferencia al contenido nuevo y único. Es conveniente crear entradas que respondan a las preguntas de sus lectores, que aporten valor y que sean originales. Como regla general, Google premia el contenido de liderazgo intelectual producido al menos dos veces por semana. Si tu contenido es similar al de otras páginas web, causará un impacto negativo en tu SEO. Para empezar, el motor podría no indexar y clasificar la página y ralentizará la tasa de rastreo de su sitio web (la web se hará “obsoleta”). Por lo tanto, cuando creemos contenido, ha de ser diferente y mejor que el de otros sitios web clasificados para el término de búsqueda. Ya lo avisaba Bill Gates en 1996 en su frase «Content is king» (que viene a ser I Ley Universal de la Gestión de Contenidos en la Web para mis alumnos).

Hay que mantener el contenido fresco y actualizado. Si las publicaciones se actualizan y se añade habitualmente información  nueva, se envía una señal positiva al motor de búsqueda. La frescura del contenido juega un papel importante si en nuestras entradas se tratan noticias o tendencias. En estos casos, Google prefiere las páginas que proporcionan la información más reciente. Por ejemplo, si escribimos sobre la crisis sanitaria mundial, nuestro contenido debe contener noticias e investigaciones recientes. Una forma sencilla de encontrar la información más reciente para mantener tu contenido fresco es utilizar Google Trends.

La longitud del contenido es otro factor clave. Una de las preguntas recurrentes en SEO ha sido siempre si la extensión del contenido forma parte de los factores de clasificación de Google. La respuesta es “”. Según diferentes estudios, los posts con 1.890 palabras de media se sitúan en la primera página de resultados. Dicho esto, no hay una regla rígida por la que debamos ceñirnos a un límite de palabras. Lo mejor es crear contenido con profundidad y que cubra un tema con gran detalle. Google prefiere las páginas que responden completamente a la pregunta del usuario y proporcionan soluciones detalladas.

longitud de entradas en la web y posición en google
Relación entre la longitud de una entrada web y la posición en la respuesta de Google.

La estructura del contenido y su organización también influye en la valoración de su calidad. Las entradas deben estar bien organizadas y estructuradas. Esto facilita a los visitantes la lectura y la búsqueda de soluciones a sus problemas. Para mejorar la estructura y la organización de estos artículos, se pueden utilizar distintos niveles de encabezado (H2, H3, H4, etc.) para agrupar el contenido. Mantener debidamente actualizado el fichero sitemap.xml ayuda también. También podemos utilizar etiquetas HTML para viñetas  y listas numéricas para organizar aún más el contenido. Esto es beneficioso ya que Google recoge estas listas y las muestra como fragmentos destacados para diferentes palabras clave.

La importancia del código HTML entre los factores de éxito de la «tabla periódica» del SEO

texto HTML código fuente
Fragmento del inicio de una página web en HTML

Retomamos el análisis de la «tabla periódica del SEO» que ha elaborado Search Engine Land prestando nuestra atención en el código HTML con el que se elaboran las páginas, factor que siempre ha aparecido como importantes en todas las recomendaciones elaboradas para obtener un buen posicionamiento de nuestro sitio web.

Etiqueta del título y su importancia en la SEO

Ht:la etiqueta del título (<TITLE>): al igual que si escribiéramos 100 libros no le podríamos el mismo título a cada uno de ellos sino que buscaríamos las palabras que mejor describen. el contenido de cada obra, lo mismo hemos de hacer con el título de la página web que estemos editando (tampoco vale asignarle un título vago o genérico, el problema es similar). El contenido de esta etiqueta es tan valorado por los motores de búsqueda que alguno de ellos, Google en concreto, si no lo considera adecuado lo cambia antes de almacenar la página en sus índices. El peso de esta etiqueta es +3 y si alguien quiere profundizar en esta cuestión, puede consultar el tutorial Writing HT;L Title Tags for Humans, Google & Bing elaborado también por Search Engine Land. Su peso es +3.

importancia de las metaetiquetas en el SEO

Hd: la meta-etiqueta de descripción: como pasa con la etiqueta del título es un factor siempre tenido en cuenta a la hora de elaborar recomendaciones para los webmasters. Algunos puristas del SEO pueden decir que esta meta-etiqueta no «describe» propiamente hablando en términos de recuperación de información sino que sirve para «presentar» la información dentro de la lista de sitios recuperados por un motor. Es cierto, lo que no le quita ningún valor a la misma y puede servir para aumentar el número de visitas a la página por la subjetividad del usuario que consulta la lista de respuestas y se puede sentir atraído por una correcta descripción frente a una genérica. Al igual que ocurre con el elemento anterior, los motores de búsqueda pueden llegar a modificarla si lo consideran oportuno. Su peso es +2.

las etiquetas de encabezados en el SEO

Hh: las etiquetas de los encabezados y subencabezados. Otro factor suficientemente conocido y presente en la mayoría de guías y recomendaciones para los diseñadores de sitios web. Además de establecer una secuencia lógica en la estructura de los mismos dentro de una página (es decir, no pasar de un encabezado de nivel a uno de nivel cuatro sin hacer uso del encabezado de nivel 3), estas etiquetas sirven para definir secciones en una página y, por tanto, cumplen una función parecida a la etiqueta del título de la página: «nombran» a la sección de la página. Por ello hay que llevar cuidado especial a la hora de elegir las palabras que representen el contenido de esas secciones. Su peso es algo inferior: +1 

la importancia de los datos estructurados

Hs: datos estructurados: todo lo que tiene que con los microdatos, microformatosschema.org ayuda sin duda alguna, al motor de búsqueda (y a sus usuarios) en el acceso a la información. No está del todo claro si son factores directos de éxito para el posicionamiento pero su importancia está ahí y debe ser tenida en cuenta. Su peso es +1

Arquitectura de un sitio web, su importancia en la «tabla periódica» del SEO

La tabla periódica del SEO
La tabla periódica del SEO

Rosenfeld y Morville establecieron su visión de la Arquitectura de Información para la Web a partir de cómo se podían organizar los siguientes elementos componentes de un sitio web;

  • Esquemas de organización del contenido.
  • Sistemas de navegación.
  • Sistemas de rotulación.
  • Sistemas de búsqueda, tesauros y vocabularios controlados.

Estos «pilares» tienen algunas correspondencias en la Tabla Periódica del SEO, son las siguientes:

Ac: «recopilabilidad» del sitio web (‘site crawlability‘). Sabido es que los motores de búsqueda recopilan sitios web a partir de una serie de direcciones «semillas» desde las cuales inician sus rastreos e indexan todo el contenido de estas páginas, además de ir anotando todos los enlaces que en ellas vayan encontrando, tanto a efectos de mejor posicionamiento como para aumentar el tamaño de la colección del índice de los motores. Es uno de los factores más considerados, de hecho se le ha asignado un valor de +3 en la tabla. Si se desea atraer tráfico a un sitio web es fundamental (e incluso vital) que los elementos que forman parte del mismo no generen problemas a estos módulos recopiladores (los robots o ‘crawlers’ de los motores de búsqueda). La mayoría de los sitios en general no tienen problemas de rastreo, pero siempre hay cosas que pueden causar problemas y que, muchas veces nos pasan desapercibidas. Por ejemplo, el uso de las tecnologías JavaScript o Flash potencialmente pueden hacer invisible para los robots los vínculos presentes en las páginas y así haremos más complicado un rastreo profundo de nuestro sitio web. Cada sitio Web se beneficia de un presupuesto de rastreo, es decir, de una cantidad aproximada de tiempo o número de páginas que un motor de búsqueda rastreará cada día: Ese presupuesto será de mayor valor cuanta más confianza y autoridad reconocida tenga en nuestro sitio (y los elementos del diseño influyen en ello decisivamente). Los sitios más grandes pueden tratar de mejorar su eficiencia de rastreo para garantizar que las páginas «correctas» están siendo rastreadas con mayor frecuencia. El uso de robots.txt , estructuras de enlace internos e indicar de forma explícita a los motores de búsqueda no rastrear páginas con ciertos parámetros de URL, por ejemplo, pueden mejorar la eficiencia del rastreo. En la mayor parte de las ocasiones, los problemas de rastreo se pueden evitar fácilmente, destacando especialmente el uso de sitemaps porque tanto  HTML como XML lo aprovechan para hacer más fácil a los motores de búsqueda el rastreo.

logo de duplicación de las direcciones web

Ad: Duplicación / Canonicalización (‘Duplication / Canonicalization‘). A veces, el índice del motor de búsqueda se complica especialmente cuando, tras una operación de selección de información, se localiza un conjunto de páginas con contenido prácticamente similar (algo desgraciadamente frecuente en los blogs con un alto índice de copia directa de contenidos) y el algoritmo de ranking se encuentra con problemas para discernir cuál de esas muchas páginas es la más relevante para la necesidad de información planteada. Esto no es bueno (y ya hemos visto en este blog que, por ejemplo Google, lo penaliza por la vía de sus algoritmos Penguin y Panda).  

logo imagen AS Duplication

As: Velocidad de descarga (‘site speed’). El interés por la velocidad de acceso al contenido de un sitio web es tal que Google ha declarado que aquellos sitios más rápidos tendrán una pequeña ventaja en su algoritmo de alineamiento (si bien será uno más de los muchos factores que emplea Google) Eso sí, cuando diseñamos una página pensando en su velocidad de descarga, también estamos mejorando de forma indirecta otros factores que contribuirán, sin duda alguna, a mejorar el posicionamiento de la misma. Por tanto, es algo importante a tener en cuenta. 

logo Imagen AU oro duplicate

Au: URL descriptiva. Si bien no es un factor decisivo, desde siempre se ha recomendado que en la dirección del sitio web (URL) aparezcan la palabra o las palabras que mejor lo representan (por ejemplo, un blog sobre turismo en Tarifa podría tener una URL como turismoentarifa.com). Eso siempre ayuda y además, parece que a los usuarios de la web les aportan más confianzas estas URLs tan «concretas» en lugar de algunas algo más «difuminadas». También es conveniente que la URL indique el objeto principal del sitio web a la hora de presentar los datos estructurados en los resultados de la búsqueda, tal como hacen los motores.

Por lo tanto, observamos que guardar siempre una serie de buenos hábitos sobre la arquitectura del contenido de nuestro sitio web es positivo (y nunca negativo como dirían seguramente Van Gaal y un innombrable ex-entrenador del Real Madrid) para nuestro posicionamiento. Son pequeños detalles que siempre ayudan. El gusto por la vida, ya se sabe, es cuestión de detalles ..