Sergio Koller
Abr 27, 2020 | 15 min de lectura

Alguna vez te has preguntado, ¿cómo los sitios web llegan a los resultados del motor de búsqueda? y, ¿cómo logran los motores de búsqueda mostrarnos toneladas de información en tan solo unos segundos?

El secreto de este trabajo tan veloz está en el índice de búsqueda. Se puede comparar como un directorio de archivos enorme y perfectamente ordenado de todas las páginas web. Centrándonos en el índice, esto significa que el motor de búsqueda vio, calificó y recordó la página. Para finalmente mostrarlo en los resultados de búsqueda.

Es importante comprender el proceso y significado de indexar desde cero para entender cómo los sitios web ingresan a Google, cómo administran este proceso y todo sobre lo que es indexar recursos usando diferentes tecnologías.

¿Qué es el rastreo y la indexación?

El rastreo de páginas web –  es un proceso cuando un motor de búsqueda hace uso de programas especiales (también conocidos como robots de búsqueda, rastreadores, arañas) para recopilar datos de páginas nuevas y modificadas de diferentes sitios web.

Indexación de páginas de un sitio web – la definición de indexar vendría a ser escanear, leer y añadir datos al índice (directorio) mediante robots de búsqueda. El motor de búsqueda utiliza la información recibida para conocer de qué se trata tu sitio y qué hay en sus páginas. Después de eso, el motor puede determinar las palabras clave para cada página escaneada y guardar copias de ellas en el índice de búsqueda. Para cada página, almacena una URL y la información sobre el contenido.

Como resultado, cuando los usuarios ingresan una consulta de búsqueda en Internet, el motor de búsqueda escanea rápidamente su lista de sitios rastreados y muestra solo las páginas relevantes en los resultados de búsqueda. Es como un bibliotecario que busca los libros que necesita en el catálogo, alfabéticamente, por tema y por nombre exacto.

Qúe es el rastreo y la indexación

La indexación web en diferentes motores de búsqueda tiene un par de matices importantes, pero veamos las principales caracerísticas en el motor de búsqueda más conocido.

Indexar sitios web en Google

Cuando buscamos algo en Google, los sitios no buscan datos en tiempo real, sino el índice de Google, que almacena cientos de miles de millones de páginas. Durante la búsqueda, se tienen en cuenta varios factores: tu ubicación, idioma, tipo de dispositivo, etc.

En 2019, Google cambió su norma principal de indexación de un sitio web: probablemente escuhaste sobre el lanzamiento de Mobile-first. La principal diferencia entre el nuevo método es que ahora el motor de búsqueda almacena la versión móvil de las páginas en el índice. Antes, la versión de escritorio se tenía en cuenta principalmente, ahora el robot de Google para los smartphones llega a tu sitio primero, especialmente si el sitio es nuevo. Todos los demás sitios se están moviendo gradualmente a un nuevo método de indexación, del cual los propietarios aprenderán en Google Search Console.

Algunas características clave de la indexación web en Google:

  • el índice se actualiza constantemente;
  • el proceso de indexación del sitio web puede tomar unos minutos o una semana;
  • a las páginas de baja calidad generalmente se les da un ranking bajo pero no se eliminan del índice.

Todas las páginas escaneadas entran en el índice, pero solo las de la más alta calidad se muestran en los resultados de búsqueda. Antes de mostrar al usuario una página web de acuerdo a su consulta, el motor de búsqueda comprueba su relevancia con más de 200 criterios (factores de clasificación) y selecciona las más adecuadas.

Ya sabemos qué hace el motor de búsqueda en tu sitio web, pero ¿cómo llega allí? Existen varias opciones.

Cómo los robots de búsqueda encuentran tu sitio web

Si se trata de un nuevo recurso que no se ha indexado antes, debes «enviarlo» a los motores de búsqueda. Después de recibir una invitación de tu recurso, los motores de búsqueda enviarán a sus rastreadores a tu sitio para recopilar datos.

Puedes invitar a los bots de búsqueda al sitio si publicas un enlace en un recurso de Internet de terceros. Pero ten en cuenta que para que los motores de búsqueda encuentren tu sitio web, deben rastrear la página en la que se encuentra este enlace. 

También puedes usar una de las siguientes opciones para Google:

Cada especialista en SEO quiere que su sitio se indexe más rápido, alcanzando tantas páginas como sea posible. Pero nadie puede influir en esto, incluso si su mejor amigo trabaja en Google.

La velocidad de rastreo e indexación depende de muchos factores, incluido el número de páginas en el sitio web, la velocidad del sitio, la configuración en webmaster y el presupuesto de rastreo. En pocas palabras, el presupuesto de rastreo (Crawl budget) es la cantidad de URLs en tu sitio web que un robot de búsqueda quiere y puede rastrear.

Y entonces ¿En qué podemos influir en el proceso de indexación? En el plan de rastreo de los robots de búsqueda de nuestro sitio web.

Cómo gestionar un robot de búsqueda

El motor de búsqueda descarga la información del sitio web, considerando el archivo robots.txt y el sitemap. Y es allí donde puedes recomendar al motor de búsqueda qué y cómo descargar o no descargar de tu sitio web.

Archivo Robots.txt

Este es un archivo de texto normal que contiene información básica, por ejemplo, a qué robots de búsqueda nos referimos (User-agent) y qué prohibimos rastrear (Disallow).

Las instrucciones en robots.txt ayudan a los bots de búsqueda a orientarse y no desperdiciar sus recursos rastreando páginas sin importancia (por ejemplo, archivos del sistema, páginas de autorización, contenido del carrito de compra, etc.). Por ejemplo, la línea Disallow:/admin evitará que los robots de búsqueda encuentren páginas cuya URL comience con la palabra admin, y la Disallow:/*.pdf$ bloqueará el acceso a los archivos PDF en el sitio.

Además en el archivo robots.txt es necesario indicar la dirección del mapa del sitio para mostrar su ubicación a los robots de búsqueda.

Para verificar que el archivo robots.txt este correcto, usa las herramientas de Google Search Console.

Archivo Sitemap

Otro archivo que te ayudará a optimizar el proceso de rastreo de un sitio web con robots de búsqueda es un mapa del sitio. En él se muestra cómo está organizado el contenido del sitio, qué páginas están sujetas a indexación y con qué frecuencia se actualiza la información que contienen.

Si hay varias páginas en tu sitio, probablemente el motor de búsqueda las encontrará por si mismo. Pero cuando un sitio tiene millones de páginas, el motor de búsqueda tiene que elegir cuáles rastrear y con qué frecuencia. Es por eso que el mapa del sitio ayuda a priorizar las páginas a rastrear, además de otros factores.

Además, los sitios para los que el contenido multimedia o noticias es muy importante pueden mejorar el proceso de indexación al crear mapas de sitio separados para cada tipo de contenido. Mapas separados para vídeos que también pueden informar a los motores de búsqueda sobre la duración de la secuencia del vídeo, el tipo de archivo y las condiciones de la licencia. Mapas para imágenes, donde detalla lo que se está mostrando, el tipo de archivo, etc. Para noticias, la fecha de publicación, título del artículo y edición.

Para que el robot de búsqueda no pase por alto ni una sola página importante de tu sitio web, la navegación por el menú, las «migas de pan» y los interlinking entran en juego. Pero si tienes una página a la que no conducen enlaces internos ni externos, entonces es el mapa del sitio el que ayudará a encontrarla.

En el Mapa del sitio también se puede especificar:

  • la frecuencia de actualización de una página específica, con la etiqueta <changefreq>;
  • la versión canónica de la página – con el atributo rel=canonical;
  • las versiones de páginas en otros idiomas – con el atributo hreflang.

Un mapa del sitio también ayuda mucho a descubrir por qué existen dificultades al indexar tu web en Google. Por ejemplo, si el sitio es muy grande, entonces se crean muchos mapas del sitio, separados ​​por categoría o tipo de página. Y luego, en la consola, es más fácil entender qué páginas no están indexadas para después modificarlas.

Puedes verificar la exactitud del archivo Sitemap en la Google Search Console de tu sitio web, en la «sección Sitemaps»

Entonces, tu sitio web ya ha sido enviado para la indexación, se comprobó el archivo robots.txt y el mapa del sitio, es hora de saber cómo se indexó el sitio y qué encontró el motor de búsqueda en el recurso.

Cómo verificar la indexación del sitio web

La verificación de la indexación del sitio se realiza de varias maneras:

1. A través del comando de búsqueda site: En Google, este comando no proporciona una lista completa de páginas, pero nos dará una idea general de qué páginas están en el índice. También, proporciona resultados para el dominio principal y los subdominios.

Comprobar indexación de un sitio web

2. A través de Google Search Console. En la consola de tu sitio existe información detallada sobre todas las páginas: cuáles están indexadas, cuáles no y por qué.

3. Usando plugins para el navegador como la barra RDS o herramientas especiales para verificar la indexación. Por ejemplo, puedes conocer qué páginas de tu sitio web están en el índice del motor de búsqueda con la herramienta «Comprobador de Indexación» de SE Ranking.

Comprobador de Indexación» de SE Ranking

Para hacer esto, solo es necesario ingresar el motor de búsqueda indicado (Google,Yahoo, Bing), añadir una lista de URL de sitios web y comenzar a verificar. Para probar el funcionamiento de la herramienta «Comprobador de Indexación», regístrate en la plataforma de SE Ranking de manera gratuita y ve a la sección «Herramientas».

Ahora, puedes estarte preguntando, y «¿Qué pasa si tengo un sitio web en AJAX? ¿Entrará en el índice? Aquí tenemos la respuesta.

Características de la indexación de sitios web con diferentes tecnologías

Ajax

Hoy en día, se encuentran más a menudo los sitios JS con contenido dinámico, estos sitios se cargan rápido y son convenientes para los usuarios. Una de las principales diferencias entre estos sitios en AJAX es que todo el contenido se carga con un script sólido, sin dividirse en páginas con URL. En cambio, las páginas se marcan con hashtag #, y no son indexadas por los motores de búsqueda. Como resultado, en lugar de una URL como https://mywebsite.com/#example, el robot de búsqueda accede a https://mywebsite.com/. Y así, para cada URL que tenga #.

Aquí es donde radica la complejidad para los robots de búsqueda, porque simplemente no pueden «leer» todo el contenido del sitio. Para los motores de búsqueda, un buen sitio, es un texto que pueden rastrear, y no una aplicación web interactiva que ignora la naturaleza de las páginas web con URL a las que estamos acostumbrados.

Hace solo cinco años, los especialistas en SEO solo podían soñar con promocionar un sitio de este tipo en la búsqueda. Pero todo está cambiando. Ahora, la información de referencia de Google contiene datos sobre lo que se necesita para indexar sitios AJAX y cómo evitar errores en este proceso.

Desde 2019, los sitios AJAX son procesados ​​directamente por Google, esto significa que los robots de búsqueda rastrean y procesan #! URL, simulando el comportamiento humano. Por lo tanto, los webmasters ya no necesitan reescribir la versión HTML de la página.

Pero aquí es importante verificar si las secuencias de comandos con estilos en tu archivo robots.txt están cerradas. Si están cerradas, asegúrate de abrirlas para que los robots de búsqueda las puedan indexar. Para esto, añade los siguientes comandos a robots.txt:

User-agent: Googlebot
Allow: /*.js
Allow: /*.css
Allow: /*.jpg
Allow: /*.gif
Allow: /*.png

Contenido Flash

Con la tecnología Flash, la cual pertenece a Adobe, en las páginas de un sitio web se puede crear contenido interactivo con animación y sonido. Pero durante los 20 años de su desarrollo, esta tecnología ha revelado muchas deficiencias, incluida una gran carga al procesador, errores en el trabajo del reproductor flash y errores en la indexación del contenido por parte de los motores de búsqueda.

En 2019, Google dejó de indexar contenido flash, marcando el final de una era.

Por eso, no es una sorpresa que los motores de búsqueda sugieran no usar Flash en tus sitios web. Si el diseño del sitio se realiza utilizando esta tecnología, también deberás hacer una versión de texto del sitio. Será útil tanto para los usuarios que no tienen instalado Flash o tienen el programa de visualización desactualizado, como para los usuarios de dispositivos móviles (estos dispositivos no muestran contenido flash).

Frames

Un frame o marco es un documento HTML que no contiene su propio contenido, sino que consta de diferentes áreas, cada una con una página web separada. También le falta el elemento BODY.

Como resultado, los robots de búsqueda simplemente no tienen dónde buscar contenido útil para rastrear. Las páginas con marcos se indexan muy lentamente y con errores.

Google puede indexar contenido dentro del iframe incorporado. El iframe es compatible con las tecnologías modernas, ya que nos permite incrustar marcos en páginas sin usar la etiqueta <iframe>.

En cambio las etiquetas <frame>, <noframes>, <frameset> ya casi no se usan y no son compatibles con HTML5, por lo que, no se recomienda usarlas en los sitios web. De hecho, incluso si las páginas con marcos están indexadas, no podrás evitar tener dificultades para promocionarlas. 

En conclusión

Los motores de búsqueda están listos para indexar todas las páginas de tu sitio web que sean necesarias. Ten en cuenta que el volumen del índice de Google es mayor a 100 millones de gigabytes; esto es cientos de miles de millones de páginas que son indexadas, cuyo número crece cada día.

Pero que se cumpla con éxito muchas veces depende de ti. Al comprender los principios de indexación de los motores de búsqueda, no dañarás tu sitio con configuraciones incorrectas. Si señalaste correctamente todo en el archivo robots.txt y el mapa del sitio, tuviste en cuenta los requisitos técnicos de los motores de búsqueda y te aseguraste de que exista contenido útil y de calidad, los motores de búsqueda no pasarán por alto tu sitio web.

Recuerda que la indexación no se trata de si tu sitio será mostrado o no en una búsqueda. Es mucho más importante: cuántas y qué páginas aparecerán en el índice, qué contenido se rastreará en ellas y cómo se clasificará en la búsqueda. ¡Y aquí la desicion es tuya!

Post Views: 33
Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

MÁS ARTÍCULOS
INSIGHTS DE SEO
Cómo crear y optimizar un sitio web de una sola página
Oct 12, 2020 26 min de lectura

Un sitio web de una sola página te permite ser creativo en el diseño y atraer visitantes a un CTA en particular, pero puede ser un dolor de cabeza cuando hablamos de SEO. A pesar de las limitaciones, existen técnicas probadas para hacer SEO on-page y off-page en tu sitio de una sola página de manera efectiva.

Sergio Koller
INSIGHTS DE SEO
La mecánica detrás de la agrupación de palabras clave
Oct 07, 2020 19 min de lectura

La agrupación de palabras clave te brinda una imagen más clara de qué contenido crear y cómo organizarlo en las páginas, qué frases posicionar y cómo promover diferentes secciones de tu sitio. Cuando se hace automáticamente en SE Ranking, te ahorra tiempo y te permite agrupar y analizar tu núcleo semantico de manera rápida y eficiente.

Sergio Koller
INSIGHTS DE SEO
Notas de prensa y posicionamiento web, ¿Están relacionados?
Sep 18, 2020 10 min de lectura

En este artículo te quiero contar por qué es tan importante alinear las estrategias de PR y las de SEO. Además, te contaré cuales son algunos de los principales errores que muchas agencias o áreas de PR cometen a la hora de enviar sus notas de prensa. Para mi, la actividad de PR es una de las principales estrategias de posicionamiento web ya que es muy fácil escalarla.

Javier Bellomarcos