Sergio Koller
Nov 10, 2021 | 16min de lectura

Alguna vez te has preguntado, ¿cómo los sitios web llegan a los resultados del motor de búsqueda?, y ¿cómo logran los buscadores mostrarnos toneladas de información en tan solo unos segundos? La respuesta está en la indexación.

El secreto de este trabajo tan veloz está en el índice de búsqueda. 

El índice de búsqueda o index se puede comparar como un directorio de archivos enorme y perfectamente ordenado de todas las páginas web. Esto significa que el motor de búsqueda vio, calificó y clasificó una web, para tenerla en cuenta (o no) cuando ofrezca los resultados de búsqueda. 

Es importante comprender el proceso y significado de indexar desde cero y entender cómo Google trabaja la indexación y gestiona el proceso.

¿Qué es la indexación y el rastreo de un sitio web?

Para entender la definición de este tema y poder comprender mejor el funcionamiento de la indexación de una web, es importante distinguir y profundizar en dos conceptos: 

¿Qué es el rastreo?

El rastreo de páginas web es el proceso en el que un motor de búsqueda hace uso de programas especiales (también conocidos como robots de búsqueda, rastreadores o arañas) para recopilar datos de páginas nuevas y modificadas de diferentes sitios web.

En otras palabras, Google envía a sus robots a rastrear y almacena las URL recopiladas. A continuación, las clasifica y decide qué URL se indexan y cuáles no. 

¿Qué es la Indexación?

La indexación de páginas de un sitio web vendría a ser escanear, leer y añadir datos al índice (directorio) gracias a la inestimable ayuda de los robots de búsqueda. 

El motor de búsqueda utiliza la información recibida para conocer de qué trata una web y qué hay en sus páginas. 

Después de eso, el buscador puede determinar las palabras clave para cada página escaneada y guardar copias de ellas en el índice de búsqueda. Para cada página, almacena una URL y la información sobre el contenido.

Como resultado, cuando los usuarios realizan una consulta en Internet, el buscador escanea rápidamente su lista de sitios rastreados y muestra en los resultados de búsqueda solo las páginas que considera relevantes. 

Es como un bibliotecario que busca los libros que necesita en el catálogo, alfabéticamente, por tema y por nombre exacto.

¿Qué es la indexación y el rastreo?

La indexación web en los diferentes motores de búsqueda tiene sus matices, pero veamos las principales características en el motor de búsqueda más conocido: Google.

¿Cómo saber si un sitio web está indexado en Google?

No todo el contenido indexado aparece en las SERP. De hecho, este el principal caballo de batalla del SEO -aparecer en la primera página. 

Entonces, ¿cómo podemos saber que un sitio web está indexado?

¿Cómo funciona la indexación Indexar en Google?

Cuando buscamos algo en Google, este no te ofrece información a tiempo real, sino que recurre a su index (o base de datos), donde se almacenan cientos de miles de millones de páginas. 

Durante la búsqueda, se tienen en cuenta varios factores: tu ubicación, idioma, tipo de dispositivo, etc.

En 2019, Google cambió su norma principal de indexar un sitio web al aparecer el mobile-first. La principal diferencia entre el nuevo método es que ahora el motor de búsqueda también almacena la versión móvil de las páginas en el índice

Antes, la versión de escritorio era la que se tenía más en cuenta, pero  ahora Google tiene dos tipos de rastreadores: el de ordenadores y el de dispositivos móviles. 

Algunas características clave de la indexación web en Google

  • El index se actualiza constantemente.
  • El proceso de indexación del sitio web puede tomar unos minutos o una semana.
  • A las páginas de baja calidad generalmente se les da un ranking bajo, sin embargo no se eliminan del índice.

Todas las páginas escaneadas entran en el índice, pero solo las de la más alta calidad y las que responden a la intención de búsqueda de los usuarios se muestran en los resultados de búsqueda. 

Antes de mostrar al usuario una página web de acuerdo a su consulta, el motor de búsqueda comprueba su relevancia con más de 200 criterios (factores de clasificación) y selecciona las más adecuadas.

Ya sabemos qué hace el motor de búsqueda en tu sitio web, pero ¿cómo llega hasta ahí? Existen varias opciones.

¿Cómo los robots de búsqueda encuentran tu sitio web?

Si se trata de un nuevo contenido que no se ha indexado antes, debes «enviarlo» a los motores de búsqueda, y estos mandarán a sus rastreadores a tu web para recopilar datos.

También pueden encontrarte a través de enlaces externos que estén apuntando a tu web

Lo recomendable es usar una de las siguientes opciones para “invitar” a Google:

Todo especialista en SEO quiere que su sitio se indexe más rápido, alcanzando tantas páginas como sea posible. Pero nadie puede influir en esto, ni aunque  tu mejor amigo trabajara en Google.

La velocidad de rastreo e indexación depende de muchos factores, incluido el número de páginas en el sitio web, la velocidad del sitio, la configuración en webmaster y el presupuesto de rastreo. 

En pocas palabras, el presupuesto de rastreo (Crawl budget) es el tiempo que pasa un rastreador en tu web, inspeccionando las URL y su contenido. 

Y entonces, ¿hay alguna forma de influir en el proceso de indexación?

 Poniéndoselo fácil a los rastreadores.

¿Cómo gestionar la visita de un robot de Google?

El motor de búsqueda descarga la información del sitio web, teniendo en cuenta el archivo robots.txt y el sitemap. Y es allí donde puedes recomendar al motor de búsqueda qué y cómo descargar o no descargar de tu página.

Archivo Robots.txt

Este es un archivo de texto normal que contiene información básica, por ejemplo, a qué robots de búsqueda nos referimos (User-agent) y qué prohibimos rastrear (Disallow).

Las instrucciones en robots.txt ayudan a los bots de búsqueda a orientarse y no desperdiciar sus recursos rastreando páginas sin importancia (por ejemplo, archivos del sistema, páginas de autorización, contenido del carrito de compra, etc.). 

Por ejemplo, la línea Disallow:/admin evitará que los robots de búsqueda encuentren páginas cuya URL comience con la palabra admin, y la Disallow:/*.pdf$ bloqueará el acceso a los archivos PDF en el sitio.

Además en el archivo robots.txt es necesario indicar la dirección del mapa del sitio para mostrar su ubicación a los robots de búsqueda.

Archivo robots txt.

Para verificar que el archivo robots.txt este correcto, usa las herramientas de Google Search Console.

Archivo Sitemap

El mapa de sitio te ayudará a optimizar el proceso de rastreo de tu web con robots de búsqueda.

En él se muestra cómo está organizado el contenido del sitio, qué páginas están sujetas a indexación y con qué frecuencia se actualiza la información que contienen.

Si hay pocas páginas en tu web, probablemente el motor de búsqueda las encontrará por sí mismo.

Pero cuando un sitio tiene millones de páginas, Google tiene que elegir cuáles rastrear y con qué frecuencia. Es por eso que el mapa del sitio ayuda a priorizar las páginas a rastrear, además de otros factores.

Además, para aquellas páginas webs en las que el contenido multimedia o noticias es muy importante, se puede mejorar el proceso de indexación al crear site maps separados por tipo de contenido:

  • Mapas separados para vídeos que también pueden informar a los motores de búsqueda sobre la duración de la secuencia del vídeo, el tipo de archivo y las condiciones de la licencia. 
  • Mapas para imágenes, donde detalla lo que se está mostrando, el tipo de archivo, etc. 
  • Para noticias, la fecha de publicación, título del artículo y edición.

Para que el robot de búsqueda no pase por alto ni una sola página importante de tu sitio web, la navegación por el menú, las «migas de pan» y los interlinking entran en juego. 

¿Qué otro tipo de información proporciona un sitemap?

En el Mapa del sitio también se puede especificar:

  • La frecuencia de actualización de una página específica, con la etiqueta <changefreq>;
  • La versión canónical de la página – con el atributo rel=canonical;
  • Las versiones de páginas en otros idiomas – con el atributo hreflang.

Un mapa del sitio también ayuda mucho a descubrir por qué existen dificultades al indexar tu web en Google. 

Por ejemplo, si el sitio es muy grande, entonces se crean muchos mapas del sitio, separados ​​por categoría o tipo de página. 

Y luego, en la consola, es más fácil entender qué páginas no están indexadas para después modificarlas.

Puedes verificar la exactitud del archivo Sitemap en la Google Search Console de tu sitio web, en la «sección Sitemaps»

Sitemap en Google Search Console

Una vez que tu sitio web ya ha sido enviado para la indexación, se ha comprobado el archivo robots.txt y el mapa del sitio, es hora de saber si tu página web se ha indexado o no. 

También te puede interesar:

¿Cómo verificar la indexación del sitio web?

La verificación de la indexación del sitio se realiza de varias maneras:

1. Utilizando el comando de búsqueda site: 

En Google, este comando no proporciona una lista completa de páginas, pero nos dará una idea general de qué páginas están en el index

También, proporciona resultados para el dominio principal y los subdominios.

Comprobar indexación de un sitio web

2. Usando Google Search Console 

En Google Search Console encontrarás información detallada sobre todas las páginas: cuáles están indexadas, cuáles no y por qué.

Comprobar URL indexada con Google Search Console

3. Recurriendo a plugins para el navegador o herramientas especiales 

Por ejemplo, puedes conocer qué páginas de tu sitio web están en el índice del motor de búsqueda con la herramienta «Comprobador de Indexación» de SE Ranking.

Comprobador de Indexación» de SE Ranking

Para hacer esto, solo es necesario seleccionar el motor de búsqueda indicado (Google,Yahoo, Bing), añadir una lista de URL de sitios web y comenzar a verificar. 

Para probar el funcionamiento de la herramienta «Comprobador de Indexación», regístrate en la plataforma de SE Ranking de manera gratuita y ve a la sección «Herramientas».

Ahora, puedes estarte preguntando, y «¿Qué pasa si tengo un sitio web en AJAX? ¿Entrará en el índice? Aquí tenemos la respuesta.

¿Cómo influyen las diferentes tecnologías de un sitio web en su indexación?

No todas las tecnologías se llevan bien con Google, por lo que si utilizas alguna de las siguientes, debes comprobar si cuentas con el favor del gran buscador.

Ajax

Cada vez se encuentran más a menudo sitios JS con contenido dinámico, que cargan rápido y ofrecen una buena experiencia de usuario.

Una de las principales diferencias entre estos sitios en AJAX es que todo el contenido se carga con un script sólido, sin dividirse en páginas con URL. 

En cambio, las páginas se marcan con hashtag #, y no son indexadas por los motores de búsqueda. 

Como resultado, en lugar de una URL como https://mywebsite.com/#example, el robot de búsqueda accede a https://mywebsite.com/. Y así, para cada URL que tenga #.

Aquí es donde radica la complejidad para los robots de búsqueda, porque simplemente no pueden «leer» todo el contenido del sitio

Para el buscador, un buen sitio, es un texto que puede rastrear, y no una aplicación web interactiva que ignore la naturaleza de las páginas web con URL a las que estamos acostumbrados.

Google cambia de opinión

Hace solo cinco años, los especialistas en SEO solo podían soñar con promocionar un sitio de este tipo en la búsqueda. Pero todo está cambiando. 

Ahora, la información de referencia de Google contiene datos sobre lo que se necesita para indexar sitios AJAX y cómo evitar errores en este proceso.

Desde 2019, los sitios AJAX son procesados ​​directamente por Google, esto significa que los robots de búsqueda rastrean y procesan #! URL, simulando el comportamiento humano. 

Por lo tanto, los webmasters ya no necesitan reescribir la versión HTML de la página.

Aquí es importante verificar si las secuencias de comandos con estilos en tu archivo robots.txt están cerradas

Si están cerradas, asegúrate de abrirlas para que los robots de búsqueda las puedan indexar. Para esto, añade los siguientes comandos a robots.txt:

User-agent: Googlebot
Allow: /*.js
Allow: /*.css
Allow: /*.jpg
Allow: /*.gif
Allow: /*.png

Contenido Flash

Con la tecnología Flash, la cual pertenece a Adobe, en las páginas de un sitio web se puede crear contenido interactivo con animación y sonido. 

Pero durante los 20 años de su desarrollo, esta tecnología ha revelado muchas deficiencias, incluida una gran carga al procesador, errores en el trabajo del reproductor flash y errores en la indexación del contenido por parte de los motores de búsqueda.

En 2019, Google dejó de indexar contenido flash, marcando el final de una era.

Por eso, no es una sorpresa que los motores de búsqueda sugieren no usar Flash en tus sitios web. 

Si el diseño del sitio se realiza utilizando esta tecnología, también deberás hacer una versión de texto del sitio. 

Será útil tanto para los usuarios que no tienen instalado Flash o tienen el programa de visualización desactualizado, como para los usuarios de dispositivos móviles (estos dispositivos no muestran contenido flash).

Frames

Un frame o marco es un documento HTML que no contiene su propio contenido, sino que consta de diferentes áreas, cada una con una página web separada. También le falta el elemento BODY.

Como resultado, los robots de búsqueda simplemente no tienen dónde buscar contenido útil para rastrear. Las páginas con marcos se indexan muy lentamente y con errores.

Google puede indexar contenido dentro del iframe incorporado. El iframe es compatible con las tecnologías modernas, ya que nos permite incrustar marcos en páginas sin usar la etiqueta <iframe>.

En cambio las etiquetas <frame>, <noframes>, <frameset> ya casi no se usan y no son compatibles con HTML5, por lo que, no se recomienda usarlas en los sitios web

De hecho, incluso si las páginas con marcos están indexadas, tendrás dificultades para promocionarlas. 

Conclusión

Los motores de búsqueda están listos para indexar todas las páginas de tu sitio web que sean necesarias. 

Ten en cuenta que el volumen del índice de Google es mayor a 100 millones de gigabytes; esto es cientos de miles de millones de páginas que son indexadas, cuyo número crece cada día.

Pero que se cumpla con éxito muchas veces depende de ti. 

Si entiendes los principios de indexación de los motores de búsqueda, no dañarás tu sitio con configuraciones incorrectas. 

Si tienes en orden el archivo robots.txt y el mapa del sitio, vigilas los requisitos técnicos y te aseguras de que exista contenido útil y de calidad, los motores de búsqueda no pasarán por alto tu sitio web.

Recuerda que la indexación no se trata de si tu sitio será mostrado o no en una búsqueda. 

Es mucho más importante: cuántas y qué páginas aparecerán en el índice, qué contenido se rastreará en ellas y cómo se clasificará en la búsqueda. 

¿Has comprobado la indexación de tu sitio web con nuestra herramienta SE Ranking? 

Explícanos tu experiencia y la compartiremos con nuestra comunidad.

1098 views
Write a comment

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

MÁS ARTÍCULOS
SEO INSIGHTS
¿Qué es el clickbait? Técnicas habituales y ejemplos
Ene 19, 2022 10 min de lectura

La curiosidad mató al gato y a tu usuario, también. Es lo que pasa con el clickbait. En la carrera por llamar la atención, muchísimas páginas web y perfiles sociales usan indiscriminadamente titulares exagerados y sensacionalistas. De hecho, es muy probable que tú mismo hayas sido víctima de ello. Para ayudarte a conocer en detalle esta técnica de dudosa ética, hemos preparado este post. Conocerás cuál es su propósito, sus ventajas y desventajas y cómo puedes aprovecharla de forma positiva para mejorar tu CTR, porque si sabes usarlo, no tiene por qué ser malo. 

Sergio Koller
SEO INSIGHTS
¿Qué es el NAP y cómo puede ayudarte a mejorar tu SEO local?
Ene 12, 2022 10 min de lectura

Si cuentas con un negocio geolocalizado has de jugar bien tus cartas para que Google te posicione en las búsquedas locales. Y aquí es donde aparece el NAP, una buena baza para ganar la partida al SEO local. En este artículo veremos qué significa este acrónimo, por qué es importante para tu posicionamiento local y cómo exprimirlo al máximo para que triunfes en las búsquedas con geolocalización.

Sergio Koller
SEO INSIGHTS
¿Qué es el PageRank y qué factores influyen en él?
Ene 05, 2022 10 min de lectura

Ya no puedes medirlo ni verlo, pero existe. Es el PageRank, un algoritmo revolucionario que Google introdujo en 1998 para valorar la autoridad de los sitios en función de la cantidad y la calidad de backlinks que tuviera. Hubo un tiempo en que esta métrica fue pública. Hoy es una de las incógnitas que Google que se reserva, pero que debes “tener en cuenta” porque el gran buscador lo sigue utilizando. En este artículo, descubrirás qué es el PageRank, veremos por qué es aún importante para el posicionamiento SEO y qué factores influyen en el mismo.

Sergio Koller