Curso de Introducción al SEO

Los motores de búsqueda
Análisis inicial del caso
Auditoría SEO
Optimización
1. Interna
2. Externa
5. Referencias

1. Los motores de búsqueda

1.1 La búsqueda en internet

Hoy en día los motores de búsqueda se han convertido en los sistemas de recuperación de información más importantes que existen. La web no funcionaria de la misma manera que en la actualidad sin el papel que desempeñan estas máquinas, a las que los usuarios recurren constantemente para satisfacer sus necesidades de información.

El problema de la búsqueda en internet es muy complejo debido a la propia naturaleza de la web:

“Internet sería un biblioteca sin bibliotecario, ni dirección centralizada, en la que cualquiera puede dejar o llevarse un libro sin avisar a nadie, y además los usuarios son impacientes y quieren localizar el libro que buscan en muy poco tiempo”

Símil expuesto por Miguel Ángel Martín-Delgado Alcántara en su conferencia “El algoritmo de Google y el futuro cuántico de internet” (Real Academia de las Ciencias, 7/5/2015).

Fig. Estimación del tamaño de internet. Fuente: http://www.worldwidewebsize.com/

Además de todos estos problemas que se dan en esta “gran biblioteca” la labor de recuperación de la información que hacen los buscadores tiene que superar una traba especial de este medio: los intentos de engaño. La “recuperación con adversario” es el término acuñado para describir la paradójica situación de un sistema de información que debe hacer su trabajo considerado que algunos usuarios llevarán a cabo todas las acciones posibles para tratar de engañarlo.

Fig. Dispositivo hardware, desarrollado en España, para tratar de alternar el cálculo de relevancia de los resultados que utiliza Google. Fuente: http://www.seobox.club/

Este es este el contexto en el que los buscadores tienes que llevar a cabo su trabajo.

1.2 Las partes de un buscador

Un motor de búsqueda consta esencialmente de dos grandes sistemas:

Un sistema de rastreo, mediante el que se descubren y exploran las páginas web.
Un sistema de recuperación, que indexa los documentos, proveé de un sistema de consulta para los usuarios, dispone de un mecanismo de cálculo de relevancia y presenta los resultados.

Este esquema general de funcionamiento se aplica a todos los grandes buscadores existentes en internet. En este curso nos referiremos continuamente a Google debido a su gran cuota de mercado en España (94%). No olvidar que existen muchos otros motores de búsqueda en internet:

De páginas web: Bing, Yahoo, Ask, Yandex, Baidú, …
De otros tipos de contenidos: buscador de la App Store, buscador de Youtube, Amazon,…

Fig. Esquema de funcionamiento de un motor de búsqueda. Fuente: Artículo F092. Estructura y funciones de un motor de búsqueda. Lluís Codina. http://masterenbuscadores.com

1.3 Sistema de rastreo

El proceso de rastreo consiste en el descubrimiento de páginas web (y de otros documentos presentes en la red como pdf, jpg, txt,…) y en su descarga para analizarlos e incorporación al índice del buscador.

Se parte de una dirección de una página web (URL inicial a analizar).
Se explora y se descarga esta página web para procesarla posteriormente.
De la página web descargada se obtienen nuevas direcciones de otras páginas webs (URLs) para volver al punto 1 y continuar descargando páginas.

De hacer toda esta labor se encargan los rastreadores, crawler, spider, bots, o robot de los motores de búsqueda.

Los rastreadores actúan con un grado de autonomía muy alto, descubriendo páginas web, descargandolas y extrayendo nuevas URLs que rastrear. Su alta autonomía se ve modulada por el “protocolo de exclusión de robots” que consiste en un conjunto de reglas que permite a un administrador de un sitio web dar instrucciones al robot respecto a qué partes y explorar de su sitio web y cómo hacerlo. https://support.google.com/webmasters/answer/6062608?hl=es, https://es.wikipedia.org/wiki/Est%C3%A1ndar_de_exclusi%C3%B3n_de_robots, http://www.robotstxt.org/.

Las reglas establecidas en este protocolo deben establecerse en el archivo robots.txt que se debe crear en el directorio raíz del sitio web. Ej. https://efmarketingonline.es/robots.txt

Este archivo no es la única forma de dar instrucciones a los robots sobre que rastrear en un sitio web; mediante la meta etiqueta robots de HTML es posible también dar instrucciones a los buscadores respecto a que deben rastrear: <meta name=”robots” content=”noindex, nofollow” />

https://support.google.com/webmasters/answer/93710

Los spider no solo se encargan de descubrir páginas web nuevas y descargarlas; también se ocupan de revisar periódicamente las páginas web que conocen para ver si se han producido cambios y así actualizar los índices..

Desde el punto de vista del SEO se debe considerar:

El sitio web debe ser descubierto y rastreado para que los buscadores lo incorporen a sus índices. Basta con que cualquier enlace lleve al sitio y también se puede dar de alta manualmente. El bot tardará en rastrear el sitio.
El bot vuelve al sitio web frecuentemente a buscar cambios y páginas web nuevas. Cuanto más frecuentemente se actualice el sitio más frecuentemente vuelve la araña.
La araña dedica un tiempo a cada sitio web (en función de la importancia que le concede) es importante que este tiempo se destine a rastrear las páginas importantes.

1.4 Sistema de recuperación

Tiene dos misiones principales:

La indexación de los documentos descargados por los spiders en el buscador.
Proveer de un sistema de consulta para los usuarios.

1.4.1 Sistema de Indexación

Como en cualquier otro sistema de recuperación de información, la creación de índices es lo que permite a los motores de búsqueda dar respuestas a las consultas de los usuarios en un tiempo muy breve.

En el caso de los motores de búsqueda este tipo de índices son indirectos, o invertidos, de forma que para cada palabra que aparece en las páginas web se conoce el número de ocurrencias y la lista de todos los sitios que la contienen.

Fig. Ejemplo de índice invertido. Fuente: http://tomasdelvechio.github.io/slides-jcu-2014/#/

Más adelante veremos que el “vocabulario” de estos índices son las muy famosas “palabras clave” de posicionamiento.

1.4.2 Sistema de consulta

Se ocupa de tres tareas:

Proporcionar un sistema para que el usuario pueda hacer su consulta
Proporciona un sistema para mostrar al usuario los resultados
Ordenar los resultados ofrecidos

Interrogación en buscadores

Los buscadores manejan el lenguaje de recuperación de información similar a la lógica booleana. Además casi todos admiten diferentes comandos y filtros.

En el caso de Google:https://support.google.com/websearch/answer/2466433?hl=es

https://support.google.com/websearch/answer/142143?hl=es

Ejemplos:

Búsqueda frase: “máster en documentación digital”
Búsqueda booleana: receta de turrón (duro OR blando)
Búsqueda con comando: site:apei.es
Búsqueda con filtro: temario oposiciones maestro filetype:pdf

¿Cuántas veces se cita a APEI en La Nueva España? apei site:lne.es

Opss, pero también hay otros APEI: Asociación Profesional de Expertos Inmobiliarios y Asociación Profesional Española de Informadores de Radio y Televisión

apei -inmobiliarios -televisión site:lne.es

Páginas de resultados de búsqueda (SERP)

Las páginas de resultados de búsqueda muestran el listado de sitios web (o documentos) que mejor se entiende que puede satisfacer la búsqueda realizada. La ordenación de resultados y los elementos contenidos en estas páginas es vital para captar el interés del usuario.

Fig. SERP de Google que incluye herramientas y filtros, contador y lista de resultados (título, URL y snippet).

Tradicionalmente cuanto más arriba se encuentra un sitio web más clic recibe.

Fig. Porcentaje de clics esperados en función de ubicación del resultado en las SERP de Google.

Esto sigue siendo básicamente así pero la variabilidad ahora es mucho mayor ya que las SERP son cada vez más variadas:

Anuncios de texto
Anuncios de shopping
Pack local
Perfiles en G+ relacionado
Imágenes
Vídeos
Rich snippets
Horarios de películas
Definiciones
Datos
Knowledge graph google

https://www.google.com/intl/es/insidesearch/

Ejemplos:

https://moz.com/blog/mega-serp-a-visual-guide-to-google

Fig. Triángulo de oro de Google 2005. Fuente: http://www.mediative.com/google-algorithm-search-results-page-changed-2005-2014/

Fig. Triángulo de oro de Google 2014. Fuente: http://www.mediative.com/google-algorithm-search-results-page-changed-2005-2014/

Ordenación de resultados

Los buscadores tratar de dar respuesta a las necesidades de información de los usuarios ordenando los resultados que ofrecen según su relevancia para la consulta efectuada y de acuerdo a la autoridad del sitio que contiene el resultado.

Para realizar este cálculo utilizan complejos algoritmos que tiene en cuenta muchos factores (se especula que entorno a 200) clasificados en dos grandes bloques:

Factores internos (SEO on page) > especial incidencia en la relevancia
Factores externos (SEO off page) > especial incidencia en la autoridad

Entre los factores internos lo más relevante es el propio contenido del sitio web y muy diversos factores técnicos, como su estructura, la velocidad,…

Entre los factores externos el más relevante es, en la mayoría de motores de búsqueda, el número de enlaces que se reciben desde otras páginas web y la importancia de estos enlaces.

Periódicamente se realizan estudios que tratar de correlacionar la posición de los resultados de búsqueda con muy diversos factores. https://moz.com/search-ranking-factors y http://www.searchmetrics.com/knowledge-base/ranking-factors/.

Análisis de enlaces

La ordenación de los resultados de búsqueda es un desafío muy importante en internet (volumen de contenidos, heterogeneidad, recuperación con adversario, falta de supervisión,…).

Analizar factores internos a la propia página es algo que se venía realizando desde el inicio de los buscadores en internet, pero solo estos factores no resultaba suficiente para ofrecer resultados siempre relevantes, y además se trata de factores muy fácilmente manipulables.

La mejor respuesta encontrada hasta ahora a este problema consiste en el análisis de enlaces, una propuesta de Sergei Brin y Larry Page formulada a principios de los años 90. Los fundadores de Google trasladaron a internet un sistema similar al de las citas de los trabajos universitarios; de esta forma se concede más valor a aquellos trabajos que son citados con mayor frecuencia en otros trabajos.

En análisis de enlaces consisten en conceder más relevancia a aquella página web que, en igualdad del resto de factores, recibe más enlaces entrantes desde otras páginas. Las dificultad para implementar este sistema radica en que 1) no todos los enlaces deben valer lo mismo (un enlace desde una página más importante debe tener mayor valor) 2) dado que muchos documentos están enlazados entre sí en internet, en cálculo podría implicar infinitos cálculos.

La solución de Sergei Brin y Larry Page a este problema fue el algoritmo PageRank, un método de análisis de enlaces que con muy pocas interacciones resuelve los problemas anteriores.

Fig. Esquema del principio de funcionamiento del algoritmo PageRank

Hoy en día la autoridad en la web se concibe con dos vertientes:

Autoridad de una página web, de acuerdo al número e importancia de los enlaces que recibe.
Autoridad de un dominio, que tiene en cuenta el conjunto de la autoridad de sus páginas.

Fig. Autoridad de dominio y de página que concede la herramienta Ahrefs a http://apei.es

1.5 Las consultas de búsqueda

Al otro lado de los buscadores se encuentran los usuarios, los cuales manifiestan sus necesidades de información a través de las consultas de búsqueda. Descubrir y estudiar qué tipo de consulta de búsqueda realizan los usuarios puede proporcionar mucha información para el desarrollo de un proyectos web.

Las consultas que los usuarios realizan en los buscadores se clasifican en tres grandes tipos:

Navegacionales, las que tienen por objetivo ir a una sitio web concreto. En lugar de teclear la URL en el navegador buscan el sitio en Google. Este tipo de consultas contienen:
- Nombres de compañías, empresas, organizaciones, marcas o personas.
Transaccionales, consultas que quieren obtener un producto o servicio. Las palabras que suelen incluir estas búsquedas son:
- Comprar, vender, alquilar, precio, barato, gratis,…
- Fabricante, suministrador, empresa de…, proveedor, tienda de….,
- “Descargar” seguido de un nombre de programa, cancion , pelicula,…
- Extensión (jpeg, zip. epub,..) seguido de un nombre de libro, canción,…
Informacionales, consultas que buscan información sobre algún tema. A veces incluyen palabra como:
- Preguntas (cómo, de qué manera, qué, cuánto,….).

De acuerdo con todo esto una página web relevante para una consulta de búsqueda es aquella que está centrada en el interés del usuario manifestado en la consulta de búsqueda. Suponiendo que tenemos un sitio web desarrollado entorno a un topic concreto. Nos interesa averiguar:

Qué interés relativo tiene el topic entre los usuarios de un territorio / idioma concreto.
Qué aspectos o detalles concretos del topic consultan.
Qué volumen de búsquedas genera cada aspecto del topic.
Qué palabras utilizan los usuarios para realizar sus búsquedas en torno al topic.
Cual es la estacionalidad de las búsquedas.
Qué tendencia existen en el tiempo respecto al topic.

Estas cuestiones se responden parcialmente mediante un estudio de palabras clave.

Notar que:

Consulta de búsqueda: las expresiones exactas que los usuarios introducen en los buscadores.
Palabras clave: representación simplificada de estas búsquedas para reducir las infinitas consultas posibles a un número finito de palabras clave.

2. Análisis inicial del caso

2.1 Objetivos del sitio web

Establecer los objetivos del sitio web es una cuestión más cercana a la dirección general de la organización que al SEO. Los objetivos de un sitio web vienen marcados por la propia organización, de acuerdo a su propia idea respecto a lo que pretende conseguir en internet. Habitualmente hay cinco grandes tipos de objetivos:

Vender productos/servicios (ecommerce).
Proporcionar contenidos (entretener/informar/educar).
Dar información o soporte.
Obtener “leads” (personas interesadas en un producto/servicio).
Promover y mejorar la imagen de una marca.

Las acciones que se deben llevar a cabo en cada caso están condicionadas por el objetivo concreto que que se persiga.

2.2 Estudio de palabras clave

Se trata de un trabajo que tiene por objeto descubrir, analizar y elegir las palabras clave que emplean los usuarios en los buscadores entorno a los temas tratados en el sitio web. (Atención el término palabra clave es ambiguo ya que representa una palabra y también a un expresión de varias palabras, que permite representar un conjunto de búsquedas.)

Idealmente debe realizarse antes de desarrollar la web ya que ayuda a determinar la arquitectura de la Información (estructura, clasificación de contenidos y etiquetado interno) y el tipo de contenidos que sería adecuado desarrollar. También se debe realizar al inicio de cualquier campaña de posicionamiento o de mejora en general de un sitio web.

Considerar que en internet triunfan especialmente los sitios web de nicho: sitios cuyos contenidos se centran en una temática concreta. Los sitios con contenidos muy variados y dispersos también tienen plena cabida y oportunidad de posicionarse, si bien requieren un mayor tiempo y esfuerzo.

Teoría del long tail

Antes de empezar a buscar palabras clave para tu sitio debes considerar los dos grandes tipos de palabras clave que existen:

Las generales: Representan un tema sin mucha especificación, suelen tener solamente una o dos palabras, tiene volumen de búsqueda alto, son difíciles de posicionar. Por ejemplo: hotel oviedo.
Las específicas: Representan intereses concretos o muy concretos, suelen tener varios términos, volumen de búsqueda bajo. Ej. hotel 4 estrellas oviedo con niños.

En internet los usuarios suelen transitar en las búsquedas desde las más generales a las más específicas en función:

La tarea de refinamiento de la búsqueda.
La cantidad de resultados disponibles para cada consulta.

Basándose en esta diferencia en 2004 se acuñó la teoría del “long tail”, enunciada por Chris Anderson editor de la revista Wired. De acuerdo a esta teoría menos del 30% de las visitas de buscadores llegan a través de unas pocas palabras clave del tipo genéricas y de gran competencia y el 70% restante llega a través de las búsquedas específicas. Además, las búsquedas más específicas suelen tener un mayor valor comercial y ser menos competidas (esto hay que observarlo con prudencia, la clave es que hay tantas de long-tail que es más probable localizar ahí palabras clave poco competidas que entre las generales).

Fig. Tráfico total que aportan las diferentes palabras según su popularidad.

Fuente: https://moz.com

El tamaño del long tail, y el mayor poder de conversión, justificaría que cualquier campaña de posicionamiento debe analizar y trabajar especialmente este segmento.

Fig. Representación gráfica de la teoría del long tail.

Ej https://docs.google.com/spreadsheets/d/1MpqhCNSkrw__Na6SVD5YizMkrLMVNWVLtjKOsVYxG-c/

También se puede considerar que las palabras de “long tail” tienen pocas búsquedas y que esto las puede hacer poco interesantes, sin embargo suele cumplirse que “muchos pocos hacen más que pocos muchos”: esto implica redactar mucho contenido.

2.3 Pasos para realizar el estudio de palabras clave

Para realizar un estudio de palabra clave de una temática concreta se siguen los siguientes pasos:

Se tratan de localizar todas las palabras clave que emplean los usuarios en los buscadores respecto al tema. En este objetivo se debe utilizar nuestro conocimiento del propio tema muy diversas herramientas que existen para este fin.
Se clasifican las palabras clave por diversos criterios: tipo de búsqueda (intencionalidad), búsquedas geolocalizadas, marcas, interés para el proyecto,…
Se trata de recabar de cada palabra clave todos los parámetros posibles de interés en posicionamiento como por ejemplo el volumen de búsquedas, el índice de dificultad según diversas herramientas,la puja sugerida y el nivel de competencia en SEM,…
Se estudia la estacionalidad y la tendencia de las palabras más significativas del proyecto.
Se seleccionan las palabras clave que se utilizarán para generar contenidos en el sitio web

1) Para identificar las palabras clave entorno a un tema fundamental se utiliza:

Tu conocimiento.
El sitio web.
Los sitios web de la competencia.
Herramientas:
- Google Analytics y Search Console.
- Herramientas específicas de investigación de palabras clave.

Las herramientas específicas de palabras clave más populares son:

Herramienta de palabra clave de AdWords (requiere cuenta de AdWords para lo que se requiere tarjeta de crédito). Google KeyWord Planner
Herramientas gratuitas como keywordshitter.com o Ubersuggest.org
Extensiones cómo keywords everywhere
Herramientas de pago como SemRush, Sistix, Keywordtool.io, Serps.com, kwfinder.com,…

2) Para hacer la clasificación de las palabras lo habitual es comenzar agrupando las palabras clave similares.

Ej. https://docs.google.com/spreadsheets/d/1sn7Ltk7bCfjeMRvlX6bwW7R1chXs0cmXaP6rZtwbnrw/

A continuación se pueden clasificar por muchos criterios:

Genérica o específica
Información, navegacional, transaccional
Número de términos
Interés subjetivo (alto, medio, bajo)
Otras clasificaciones

Fig. Clasificación de palabras clave. Fuente: https://blog.kissmetrics.com/keyword-research-smart-way/

Yo personalmente suele utilizar:

Branding: Incluyen el nombre de una marca. Pueden ser navegacionales o transaccionales.
Genéricas: Son palabras muy generales en las que es difícil denotar intención. No suelen convertir bien. Suelen ser informacionales.
Descriptivas: Incluyen un producto y/o servicio y alguna o varias de sus características. Son las semigenéricas y las de long-tail. Pueden ser informacionales o transaccionales.
Transaccionales: Incluyen el producto y/o servicio y alguna palabra que denota su interés en comprarlo.
Productos: Marca y nombre del producto muy detallado. Es long tail. Pueden ser informacionales o transaccionales.

Tener en cuenta que yo suele trabajar especialmente con sitios web con interés comercial.

3) Las métricas más importantes asociadas a cada palabra clave son el número de búsquedas y la dificultad de posicionamiento. Las búsquedas al mes es una métrica fácil de conseguir en tanto que la dificultad es algo mucho más relativo y cada herramienta aporta su propio índice. También existen métodos más o menos manuales de estimar la dificultad de posicionarse para una determinada palabra clave: usando las extensiones Mozbar y SeoQuake se puede obtener diversas métricas de las páginas web ofrecidas por Google para una determina consulta de búsqueda y esas métricas permiten hacerse una idea de la dificultad que existirá para posicionar una nueva página para esa búsqueda.

4) La estacionalidad de cada palabra clave puede obtenerse de la Herramienta de palabra clave de Google AdWords y las tendencias mediante Google Trends. La estacionalidad se debe tener en cuenta en las estimaciones y especialmente en ecommerce, y en las campañas de SEM. LAs tendencias pueden ser útiles para decantarse por los términos ascendentes y/o adelantarse a los cambios.

5) Toda la información de los puntos anteriores debería permitir hacer una selección inicial con la que trabajar.

Las selección deben servir para:

Escoger las palabras clave que más puedan interesar.
Decidir la ubicación de cada palabra en el sitio web.
Hacer taxonomías y clasificar los contenidos.
Ayudar a escoger las etiquetas.

La clave finalmente para identificar las consultas de búsqueda/palabras clave que nos interesa trabajar es hacer algo tan complejo como tratar de interpretar la intencionalidad del usuario; esto es lo que hacen continuamente los buscadores.

2.4 Estudio de la competencia

Se puede considerar como competencia en posicionamiento aquellos sitios web que aparecen bien posicionados para las consultas de búsqueda que son de nuestro interés, y además dichos sitios comparten nuestros objetivos.

Por ejemplo si somos un sitio que proporciona información, Wikipedia será un competidor duro para nosotros en muchas consultas de búsqueda. Sin embargo si somos un ecommerce que Wikipedia aparezca mejor posicionado será un problema menor.

Es interesante localizar y analizar la competencia para:

Estudiar el tipo de marketing que está haciendo
Conocer los contenido que genera
Copiar sus mejores prácticas
Estudiar por qué palabras claves está posicionándose
Conocer qué enlaces entrantes recibe

También puede ser interesante tener localizados otros sitios web que, que sin ser competencia directa, aparecen para las mismas consultas de búsqueda. Cualquier de estos sitios puede ser interesante para analizar su contenido, colaborar, explorar sus enlaces entrantes,…

La forma más sencilla de obtener un listado de todos los sitios competidores es realizar las consultas de búsqueda más importante localizadas en el estudio de palabra clave y anotar en cada caso qué sitios web aparecen mejor posicionados. La extensión SEOQuake puede ayudar mucho en esta tarea.

Es útil hacer una categorización de estos sitios y anotar el número de palabras clave que tiene en el top10 de Google; esto nos permitirá analizar su evolución. Además de estos datos es útil anotar las principales métricas del dominio:

Dominio	Tipo	Kw en Top10	DA	PA	Pag.index.	Año	Dominios enlazan	SemRush Rank
www.xdff..	Blog	21	41	23	1.790	2001	34	800.000
www.fsdfsdf	Blog	10	54	17	2.200	2010	54	652.300
…

Otra información de la competencia que suele ser útil estudiar es el tipo de tecnología que utilizan Builtwidth, Wappalyzer, WordPress Theme Search, Wpthemedetector.

3. Auditoría SEO

3.1 Auditoría de indexabilidad

Ya hemos visto que previamente a que una página web pueda alcanzar algún tipo de posicionamiento debe ser rastreada por las arañas de los buscadores y posteriormente indexada. En la práctica este proceso supone que el spider recorra todas y cada una de las páginas del sitio web, siguiendo los enlaces que las vinculan, y permitiendo de esta forma que el buscador conozca la totalidad de páginas web que componen el sitio.Sin embargo en ocasiones se encuentran dificultades para llevar a cabo este proceso; existen diversos motivos por lo que las arañas no pueden recorrer completamente el sitio web, y por este motivo el primer paso de una auditoría SEO consiste en auditar la indexabilidad del sitio.

Una auditoría de indexabilidad consiste en una revisión sistemática de todos los problemas que pueden existir de acceso al sitio web por parte de los buscadores.

Considerar que en los sitios web con cierta antigüedad, cuando las costumbres y métodos de desarrollo eran diferentes, pueden existir problemas de bloqueos muy obvios.
Por el contrario, en los sitios webs modernos es más frecuente que se produzca el caso contrario: exceso de URLs. Cada contenido debe ser indexado por el buscador en una URL concreta, pero muchos CMS modernos generar varias URLs para un mismo contenido.

¿Qué puede indexar un buscador?

Los buscadores llegan básicamente a las páginas web que tiene una URL fija y son accesibles mediante un enlace convencional. Además no deben existir barreras de acceso para las arañas: JavaScript, Flash, AJAX… suelen ser algunas barreras habituales.

¿Cuáles son entonces la principales limitaciones?

Falta de ruta de acceso (contenido tras formulario, AJAX,..): Algunos sistemas web conforman sus páginas en tiempo real como respuesta a una consulta efectuada a través de un formulario. Los buscadores no pueden emular este funcionamiento y por tanto no puede indexar el contenido. Algunas bases de datos públicas tienen este problema. En la misma línea una mala implementación con JavaScript o AJAX puede impedir el rastreo del sitio web o de parte de sus contenidos.
Contenidos bloqueados por el administrador: Tanto a través de etiquetas en la cabecera de los archivos HTML como mediante el fichero robots.txt, es posible indicar al buscador que no indexe determinados contenidos. Este tipo de bloqueos deliberados puede responder a errores, al interés de la propia organización que los crea o también a mandatos legales que afectan a ciertas informaciones que no se deben indexar.
Contenidos protegidos con contraseña: Existen muchos sitios web a cuyos contenidos solamente se accede previa suscripción o registro, o simplemente solo son accesibles para la propia organización que los crea. Información privada de empresas, intranets, servicios de pago,…
Contenidos textuales no HTML: El texto contenido en imágenes (por ejemplo en algunos boletines oficiales) o en archivos comprimidos, no puede ser leído y por tanto tratado por lo buscadores.
Contenidos de las redes sociales: En el caso de muchas redes sociales existen limitaciones técnicas para acceder al contenido (no todas las páginas tiene una URL propia y estática) y también se dan situaciones de bloqueo deliberado de acceso a los buscadores. Estos bloqueos pueden ser fruto de la competencia entre empresas o mecanismos para respetar las preferencias de privacidad de los usuarios.

Fig. Web visible y web invisible. Fuente:

http://www.telenocheonline.com/sociedad/%C2%BFque-son-y-para-que-sirven-la-deep-y-dark-web.html

Contenidos no enlazados o muy profundos: Una página web aislada, sin ningún hipervínculo que le apunte, no puede ser descubierta por los buscadores a no ser que manualmente se fuerce su rastreo. Lo mismo sucede con los contenidos ubicados en subniveles muy profundos de un sitio web; los buscadores dentro de un dominio siguen los enlaces solo hasta cierto nivel de profundidad.
Contenidos que cambian muy rápido: Los buscadores necesitan un tiempo para acceder a cada sitio web, rastrearlo, e indexar sus contenidos. Una frecuencia de cambio muy rápida de una página web hará que las base de datos de los buscadores reflejen un contenido desfasado. Algunas redes sociales pueden presentar este problema, como por ejemplo sucede con las Fan Page de Facebook.

Los pasos a seguir para realizar una auditoría de indexación de un sitio son sencillos:

Conocer el estado de indexación actual.
Detectar los puntos críticos, los bloqueos o los excesos.
Proponer soluciones alternativas compatibles con el SEO.

1) Para conocer el estado de indexación de un sitio podemos recurrir a Google Search Console, si tenemos acceso como webmaster o utilizar el comando “site”, que restringe una búsqueda a un sitio web concreto:

site:midominio.com (páginas totales indexadas del dominio midominio.com)
site:blog.midominio.com (páginas totales indexadas del subdomnio blog.midominio.com)
site:midominio.com -blog (páginas totales indexadas del dominio midominio.com menos las del subdominio blog.midominio.com)

Al utilizar estos comandos también podemos revisar los resultados de búsqueda para tener información sobre qué contenidos concretos están indexados.

Una vez conocida la cantidad de páginas que Google ha indexado podemos compararlo con el número esperado de acuerdo a nuestro conocimiento del sitio web, pudiendo darse entonces dos situaciones:

Menos páginas indexadas de las previstas: posiblemente problemas de acceso a algún punto de la web.
Más páginas indexadas de las previstas: posiblemente contenido duplicado y/o autogenerado.

2) Detectar los bloqueos consiste en revisar los puntos vistos anteriormente vistos que habitualmente son problemáticos. Examinar el sitio web desde la caché de Google nos permitirá verlo tal y como lo hacen los spiders.

Fig. Acceso a una página desde la caché de Google

Otra opción muy interesante es utilizar un emulador de araña.

En línea, gratis: Website Crawler Tool, Website Crawler
De escritorio, gratis: Xenu, WildShark SEO Spider
De escritorio, de pago: Screaming Frog

Con estas herramientas también pueden ayudar a detectar el exceso de contenidos: cuando hay contenido duplicado y/o autogenerado.

3) En el caso de existencia de bloqueos a la indexación la posible solución estará íntimamente ligada a la causa del problema. Contenido tras formulario, AJAX o JavaScript no indexable suele requerir intervenciones técnicas en la web. Contenido en imagen o en Pop-Up debe suministrarse de una forma convencional. Los errores en el archivo robots.txt o en el meta robots deben corregirse manualmente.

Un elemento que puede ayudar mucho al buscador a conocer y rastrear completamente el sitio es un archivo sitemap. Se trata de un fichero en formato XML que se ubica habitualmente en el directorio raíz del dominio y que declara todas las URLs del sitio web que deben explorarse. Crear y mantener actualizado un fichero sitemap del sitio es siempre interesante existan o no problemas de bloqueo. En este último caso además puede ayudar a reducir su impacto.

Ej. https://efmarketingonline.es/sitemap.xml

El sitemap se debe declarar en el archivo robots.txt y además es muy conveniente darlo de alta en Google Search Console.

En el caso de exceso de contenido, cuando el sitio web genera más de una URL para contenido único la solución más habitual es utilizar URLs canónicas https://support.google.com/webmasters/answer/139066?hl=es

3.2 Factores internos (“on page”)

3.2.1 Dominio

El nombre de dominio es importante en SEO. Un proyecto debe tener un nombre único, mantenido en el tiempo, que acumule la mayor cantidad de contenidos genuino y de valor posible y que recibe todos los enlaces entrantes de valor que se pueda. Errores comunes:

Mantener múltiples dominios. Algún proyecto/organización de tamaño muy grande puede requerir más de un dominio, pero en general es dividir esfuerzos. Intentan mantener un solo dominio y poner todo el esfuerzo en él.
Mantener múltiples subdominios. No es tan grave como el caso anterior pero guarda similitudes. Google considera a los subdominios casi como webs independientes (no transfiere apenas autoridad entre ellos) por lo que crear muchos subdominios es dividir esfuerzos. Solo se justifica si existe un volumen de contenidos muy amplio de una temática específica.
Elegir nombres de dominio raros: no guiones bajos, no dobles vocales, no eñes, no números, lo más cortos posibles,…

Respecto al dominio considerar también que:

Cuando la palabra clave de interés está contenida en el dominio se consigue posicionarse más fácilmente por ella. En algunos casos puede venir bien utilizar este efecto. (Exact Match Domain).
Se debe elegir si se va a trabajar con las www o sin ellas y redirigir la alternativa no usada.
La antigüedad del dominio tiene influencia en el posicionamiento; además se ha observado que un dominio nuevo necesita un periodo mínimo desde creación (Google Sandbox) para comenzar a aparecer en los resultados de búsqueda en posiciones relevantes.
En el caso de un dominio existente es importante anotar sus principales métricas .periódicamente para seguir su evolución. Por ejemplo: Domain Authority y Page Authority (MOZ) , Trust Flow y Citation Flow (Majestic SEO), y Domain Rank (Ahrefs ).

3.2.2 URLs

URL significa “Uniform Resource Locator”. Cada recurso en la web debe tener una URL única y siempre la misma. Por recurso se entiende una página HTML, una imagen, un PDF,…

Las URL incluyen: protocolo, subdominio, dominio, TLD, subcarpeta, página o slug y en ocasiones etiquetas y/o parámetros.

Las etiquetas van precedidas un símbolo de almohadilla # y los parámetros de un interrogante; si hay más de un parámetro se separan entre sí por el símbolo &.

Fig. Anatomía de una URL: Protocolo, dominio, tld, carpeta, página, etiqueta,…

En relación al SEO debemos considerar que:

Mejor que sean cortas, no más de 115 caracteres si es posible.
Deben estar conformadas por palabras clave: ser amigables para las personas y aprovechables en posicionamiento.
Las palabras clave cuando primero aparezcan mejor.
Si incluyen subdirectorios considerar que se entiende que agrupan contenidos relacionados, igual que las carpetas de un ordenador.
Los nombre de los subdirectorios también deben incluir palabras clave; evitar cosas como /pages/ /content/, /cms_root/,…
No guión bajo, no doble guión, no ñ, no acentos, no caracteres especiales.
Si incluyen parámetros tener en cuenta que pueden generar contenido duplicado. O se declara y se explica a Google (en Search Console) cuales son los parámetros o se utiliza el meta rel canonical para indicar cual es el contenido canónico.
Las URLs se mantiene siempre, no se alteran JAMÁS ( a no ser una migración o un cambio importante en el sitio). Si se altera una URL debe ser para ganar algo, para mejorar, no se cambian porque sí. Si se altera una URL es imprescindible utilizar una redirección a nivel del servidor para indicar el cambio.

Ej. Redirect 301 URL-vieja URL-nueva

La forma más sencilla de revisar todas las URLs de un sitio web puede ser utilizar un emulador de araña como los vistos anteriormente. En caso de que haya muchas URL que cambiar debe pensarse y planificarse muy bien esta acción.

En línea, gratis: Website Crawler Tool, Website Crawler
De escritorio, gratis: Xenu (tutorial en vídeo), WildShark SEO Spider
De escritorio, de pago: Screaming Frog (tutorial en vídeo)

Lógicamente todas estas actuaciones sobre las URLs se efectúan sobre las URLs internas del sitio. Sobre las URLs externas (enlaces o recursos embebidos) no se puede actuar.

3.2.3 Códigos de estado

Una verificación importante que es preciso realizar con todas las URLs del sitio es ver sus códigos de estado. Los códigos de estado son muy importantes en SEO para conocer la situación de cada recurso, de cada URL.

Por ejemplo un código de estado 200 indica que la petición es correcta y el recurso existe, 301 que el recurso ha sido movido permanentemente y 404 que el recurso solicitado no se ha encontrado.

Fig. Códigos de estado http. Fuente: https://moz.com/learn/seo/http-status-codes

Para comprobar los códigos de estado de tu sitio web puedes utilizar:

Los emuladores de araña vistos
La herramienta en línea Httpstatus.io que muestra los códigos de estados para una o varias URLs, hasta 100 y permite exportar los resultados.
Extensiones de navegador como Link Redirect Trace o Live HTTP Headers.

Lo ideal sería que el sitio web tuvieses solo URLs con códigos de estado 200:

Los 30x (301 o 302) son redirecciones que lo ideal sería reemplazar por el destino.
Los 40x (típico 404) son recursos que no existen que hay que reemplazar.
Los 50x (típico 500 y 503) son problemas a nivel de servidor.

Para caso particular de los enlaces rotos se utilizan en ocasiones herramientas específicas de chequeo ya que es habitual que un sitio web, especialmente con el tiempo ,acumule errores de este tipo. Para este tipo de chequeos concretos se puede utilizar:

La herramienta en línea Online Broken Link Checker (Tutorial en vídeo)
La extensión para Chrome Check My Links (Chrome) (Tutorial en vídeo)
La extensión para Firefox Link Checker (Firefox)

La primera de estas herramientas buscar recursivamente en todo un sitio web en tanto que las extensiones revisan solamente la página que se esté visualizando.

3.2.4 Rendimiento (wpo)

WPO significa “Web Performance Optimization”, esto es optimización del rendimiento del sitio web. Se trata de conseguir que la web funciones lo más rápidamente posible ya que este es un factor muy demandado por los usuarios; Google lo conoce y lo tiene en cuenta en SEO.

Se trata de un factor que se especula que ha ganado mucho peso en los últimos años especialmente por el uso masivo de los dispositivos móviles para navegar por la web.

Desde una perspectiva práctica se trata de:

Optimizar el sitio web para que sea lo más rápido posible
Implica habitualmente actuar tanto a nivel del servidor como en la propia web
Se debe revisar en sitio al completo, o al menos una muestra de páginas, no solo la home
El impacto del rendimiento de la web es muy importante en la experiencia de usuario

Como herramientas para verificar el WPO de de un web puedes utilizar:

Google PageSpeed, GTMetrix, WebPageTest. Las tres efectúan un cheque puntual de la URL que se indique. La última de las herramienta es interesante que permite elegir la ubicación del servidor para hacer el chequeo.
Google Analytics incluye un apartado específico. En este caso se acumulan el dato del rendimiento a lo largo de los días, lo que es muy útil para ver el desempeño general del sitio en el tiempo y no puntualmente.

Optimizar el WPO es una tarea que suele requerir conocimientos técnicos avanzados. Suele ser prioritario:

Activar Keep-Alive para permitir al navegador descargar más de un fichero a la vez.
Optimizar tamaño de imágenes, usar formato adecuado y activar la compresión a nivel del servidor.
Cachear elementos.
Minimizar y combinar js y css

3.2.5 Arquitectura de la información

Desde el punto del SEO lo más importante en relación a la arquitectura de la información de un sitio web sería:

Los niveles de profundidad: cuanto más profundo está un contenido (más clics hacen falta para llegar a él) más relevancia piede; “recibe menos fuerza” de los enlaces entrantes (link juice).

Fig. Simulación de cómo funciona dentro de un sitio la popularidad que proporcionan los enlaces entrantes. Fuente: blackboxsocialmedia.com

Llegados al extremo, un contenido muy profundo puede que no llegue a indexarse; se especula que por debajo del nivel cinco o seis de profundidad google-bot no llega.

Etiquetado: Las etiquetas que se utilizan en la AI de un sitio tiene muchas relevancia en SEO ya que son términos que aparecen muchas veces y además suelen utilizarse en los enlaces internos, por lo que conviene elegir bien las etiquetas de acuerdo al estudio de palabra clave.

3.2.6 Optimización de página/código

La realización técnica del sitio es muy importante en SEO. Lógicamente los errores y problemas en este punto deben ser resueltos por personal especializado, pero en una auditoría SEO debemos ser al menos capaces de localizarlos.

Que debemos revisar como mínimo:

El código no debe contente muchos HTML y CSS. (W3C Markup Validation Service, W3C Servicio de Validación de CSS). Algún error es habitual, y realmente es un factor que el SEO hoy por hoy no tiene influencia, pero no se descarta que en el futuro la tenga y en general crear código sin errores tiene muchas otras ventajas.
Que el diseño sea responsive o exista una versión alternativa multidispositivo. (Prueba de optimización para móviles, mobiReady, Mobile SEO).
Que no haya enlaces rotos (aunque esto ya lo habíamos chequeado al ver los códigos de estado) (Online Broken Link Checker, Check My Links, Link Checker).
Que el ratio texto/html sea razonable. Valores por encima del 15 % son ya admisibles.
Que las etiquetas que marcar jerarquía en HTML se estén utilizando correctamente. Principalmente considerar las etiquetas de títulos Hx y las etiquetas semánticas de HTML5.
- Las etiquetas Hx se pueden verificar de forma simple con extensiones como SEO Meta in 1 click. Recordar que típicamente una página web tiene una y solo etiqueta H1, una o varias etiquetas H2, dentro de etiquetas H2 una o varias H3,….
- Las etiquetas con interés semántico en HTML5 son especialmente header, nav, article, section, aside y footer. No es una gran solución pero puede verificarse con HTML5 Outliner.

Fig. Estructura de un documento HTML antes de HTML5 y ahora

3.2.7 Optimización de contenidos

Un sitio web debe tener contenidos en cantidad, calidad y extensión adecuada a su sector de mercado e interés en posicionamiento. Una web con pocas páginas es muy difícil que compita por ningún ninguna palabra clave relevante; posiblemente solo conseguirá posicionarse por su propio nombre de marca y/o de dominio. Cuanto más competido sea el nicho más cantidad y calidad de contenido suele ser necesario.

En general los buscadores solo son capaces de trabajar con texto, pero algunos contenidos que retienen a los usuarios y que acumulan muchos enlaces pueden obtener un buen posicionamiento a pesar de contener poco texto:

Un vídeo
Una aplicación de cálculo
Un juego
Un simulador
Una infografía
…

Es estudio de palabra clave puede ayudar a orientar qué tipos de contenidos sería interesante crear. Además ayuda a optimizar el uso de las palabras clave en los contenidos:

Primero la estrategia de contenidos luego optimiza su difusión con SEO. El SEO está al servicio de los contenidos, no al revés.
Orientar cada contenido a una temática concreta para una consulta de búsqueda.
Elige para cada contenido una o varias palabras clave y ubícalas en aquellos en los que los buscadores se fijan espacialmente: URL, Hx, strong, anchor text, Alt, title,…. y en el propio contenido.**
No colocar la misma palabra en todos los sitios ni repetirla sin sentido. Utilizar variaciones y sinónimos; Google cada vez tiene mayor capacidad para relacionar. No hacer keyword stuffing.
Las imágenes son contenidos y también se optimizan: el nombre de archivo de la imagen debe ser corto, y contener palabras clave separadas por guiones medios. El atributo Alt debe incluirse para todas las imágenes proporcionando una descripción alternativa.
Los enlaces y las imágenes pueden incluir el atributo title.

(**) Explicación:

URL ya vistas y conocidas
Hx ya vistos y conocidos
Strong, son las negritas
Anchor text, el texto ancla de los enlaces, el texto visible en el que se hace clic
Alt, la descripción alternativa de las imágenes

Otro aspecto importante en los contenidos de una página web son las meta etiquetas. Se trata de un aspecto a medio camino entre el código y los contenidos:

Las meta etiquetas son una forma de introducir metadatos al inicio de una página web, en la sección head. Esta información en general no se muestra al usuario.
Ya hemos hablado del meta robots y del meta canonical.
En SEO son importantes además los meta Title y Description y también el Author, el Publisher y el Lang (idioma).
- Title y description se utilizan para conformar los “snippets” (el título y descripción que aparece en el las SERP) por lo que son importantes para conseguir el clic del usuario. Incluir las palabras clave en estos metas tiene utilidad ya que el buscador las resalta en negrita en la página de resultados de búsqueda y eso hace que se consigan más clics de los usuarios. Recordar que title debe estar entre 30 y 65 caracteres y description entre 120 y 156 caracteres.
- Author y Publisher permiten declarar quien ha hecho el contenido y quien lo publica, relacionando esto último con un perfil en Google +.
Hay muchas más meta etiquetas que conocer (http://deteresa.com/etiquetas-meta/).

El último punto de atención en relación a los contenidos estaría en detectar y evitar el contenido duplicado. Este contenidos puede ser de dos tipos:

Interno. Suele aparecer cuando es posible acceder al mismo contenido desde diferentes URLs. También es muy habitual que aparezca contenido duplicado en listados que se conforman a partir de otras páginas del propio sitio. Por ejemplo las categorías de un blog.
Externo: Aparece cuando has copiado el contenido de otro sitio o te lo han copiado el contenido.

Cierto porcentaje de contenido duplicado en un sitio es más o menos admisible (menos del 15% por ejemplo ¿?). Un gran porcentaje sería causa de penalización (algoritmo Panda).

¿Qué herramientas pueden ayudar a revisar los contenidos)

Search Console
Los emuladores de araña como Screaming Frog
Las extensiones Meta SEO Inspector, SEO Meta in 1 click o SenSEO
El sitio en línea SEO Book. Keyword Density Analysis para analizar la densidad de kw
El sitio en línea Image Analyser para las imágenes
El sitio en línea Siteliner, para buscar contenido duplicado interno.
Los sitios Similar Page Checker, Coyscape o Plagium para detectar contenido duplicado externo. La búsqueda exacta en Google (entrecomillado) también puede servir puntualmente.
Los sitios Snippetoptimizer, Serpsimulator para optimizar los snippets (metas title y description).

En el contenido del sitio web también se debe chequear la posible presencia de código spam, especialmente si se detectan problemas y/o después de instalar algún plugin. Search engine SPAM detector, Sucuri.

En un plano más técnico un punto final más sería necesario para optimizar bien los contenidos: incluir datos estructurados. Los esquemas de marcado cómo schema.org son cada vez más usados. Otros esquemas como Open Graph usado por Facebook o Twitter Card de Twitter también están muy extendidos.

3.3 Factores externos (“off page”)

3.3.1 Visibilidad y tráfico

En el marco de la auditoría inicial de un trabajo de mejora del posicionamiento es anotar el estado inicial de visibilidad del sitio web: averiguar qué posiciones actuales obtiene web para cada consulta de búsqueda, en cada buscador de interés, y con qué página se posiciona.

Algunas herramientas que podemos usar en esta tarea son:

Search Console.
Gratuitas o fremium: SERPLAB, Free Keyword Rank Checker, Keyword Battle
De pago: Wincher, SemRush, Advanced Web Ranking

La mayoría de estas herramienta no muestra datos del pasado, por lo que deberás crear un hoja de cálculo para anotar manualmente esta información y repetir periódicamente la tarea. Search Console por ejemplo acumula datos de posicionamiento y clics de los últimos 90 días.

Kw	Ene 17	Feb 17	Mar 17	Página
palabra 1	4			http://midominio.com/pagina1
palabra2	24			http://midominio.com/pagina2

Tener en cuenta que los datos de ranking pueden variar si:

Se utilizan diferentes dispositivos.
Se realiza la búsqueda desde diferentes lugares.
Se está o no logueado en Google.
El caché del navegador.

Respecto al tráfico que recibe el sitio web al inicio de la tarea de posicionamiento, la herramienta más habitual es Google Analytics. Se puede utilizar un segmento para seleccionar solo el tráfico de origen orgánico y analizar todas sus características: audiencia, adquisición, comportamiento y conversión. Google Analytics almacena los datos del sitio web en línea por lo que no es necesario extraer periódicamente los datos.

Algunas herramientas cómo SemRush o Sistrix permite estimar el tráfico propio y de la competencia lo que permite hacerse una idea del tamaño relativo de cada actor para el nicho de interés.

3.3.2 Enlaces entrantes y menciones sociales

Igual que en el caso anterior, al inicio de la campaña de posicionamiento también es preciso conocer la cantidad y calidad de los enlaces externos que se reciben. Algunas de las métricas que sería necesario conocer de cada enlace son:

URL de origen
URL de destino
Anchor text
Follow/No follow
Fecha de detección
Métricas de la URL de origen

Todo esta información es muy difícil de obtener y manejar sin herramientas como:

Gratuitas, pero muy incompletas: Search Console, Openlinkprofiler
De pago: Majestic Seo, Ahrefs

Igual que en el caso del tráfico puede resultar interesante analizar esta información para el sitio web propio y para los principales competidores.

Además de la labor de registro conviene hacer un análisis inicial del perfil de enlaces:

¿Proceden de países lógicos de acuerdo al idioma y tema del sitio?
¿Los anchor text son variados? ¿Predominan los anchor text con nombre de marca o de dominio?
¿El ritmo de obtención de enlaces es estable?
¿Los tipos de enlaces son variados?
¿Los dominios de origen de los enlaces tienen buena reputación?

De forma similar al registro de enlaces entrantes puede interesar registrar las menciones sociales de las principales páginas del sitio. Una página más compartida en redes sociales recibirá más tráfico entrante y es susceptible de obntener también más enlaces entrantes desde otros sitios webs. Para este fin se puede utilizar herramientas gratuitas cómo Sharedcount o ShareMetric o las habituales de pago: SemRush o Ahrefs.

3.3.3 Penalizaciones

En el caso de que el sitio web haya sufrido un descenso importantes de tráfico, o si no se consiguen posiciones significativas en el tiempo a pesar de tener buen contenido, es necesario verificar que no se es objeto de ningún tipo de penalización.

Las penalizaciones de Google son descensos significativos y generalizados del posicionamiento de un sitio web como resultado de la detección del inclumplimiento de las Directrices de Calidad. https://support.google.com/webmasters/answer/35769?hl=es

Para detectar si se es objeto de una penalización:

Revisar los avisos de Search Console
Usar herramientas como Barracuda, Website Penalty Indicator

Fig. Comparación de los datos de analítica con las fecha de actuación de las principales penalizaciones

3.4 Herramientas de diagnóstico vertical

Una última ayuda en el diagnóstico del estado de optimización SEO de un sitio web lo pueden proporcionar los servicios en línea que realizan análisis globales, revisando muy diversos aspectos, aportando múltiples métricas, y formulando recomendaciones de mejora.

La mayoría de estas herramientas son de tipo freemium:

Mucha prudencia con este tipo de análisis. Aportan métricas interesantes, detectan problemas de forma rápida pero finalmente son análisis automáticos que pueden llevar a interpretaciones erróneas.

4. Optimización

4.1 Interna

Tras el diagnóstico de los puntos optimizables en el sitio web viene la intervención, pero esto puede variar mucho en función de la tecnología y características de cada sitio. Revisemos uno por uno los puntos vistos aportando algunas soluciones posibles habituales, especialmente el caso de los sistemas desarrollados en WordPress.

4.1.1 Problemas en la indexación

Si la indexación es <100%:

Revisar el archivo robots.txt.
Revisar la etiqueta meta robots de las páginas no indexadas.
Revisar el fichero sitemap.xml, si existe, y comparar con los contenidos del sitio.
Asegura que todas las páginas que se deben indexar reciban algún enlace entrante rastreable desde otra página del sitio. Usar un emulador de araña para esto.
Crear el archivo sitemap.xml si no existe y enviarlo a a Search Console.

Si la indexación es >100%:

Revisar si existe contenido duplicado y/o contenido autogenerado. En ocasiones la simple inspección de las SERP con el comando site para el sitio ya lo revela. En otros casos puede ser útil verificar si hay muchos meta tilte y meta description duplicados, ya que esto suele ser indicativo de contenido duplicado.
Solucionar problemas de enlaces o contenidos no rastreables suele requerir intervención técnica.
Solucionar problemas de contenido duplicado suele requerir intervención técnica, por ejemplo Implementando la meta etiqueta canonical.
También se puede utilizar el robots.txt o la meta etiqueta robots para no indexar el contenido de más.