O guia SEO para encontrar todas as páginas de um website
Ao executar um website, os profissionais do SEO e os proprietários dos websites devem estar cientes de todas as páginas que são indexadas pelos motores de pesquisa. Mas apenas esta informação não é suficiente. Também é crítico saber que páginas não estão visíveis. Obter uma lista de todas as páginas de um único website permite que tenha uma visão geral completa deste website, e dá-lhe a capacidade de limpá-lo para melhorar o seu sucesso SEO.
Nesta publicação do blog, vamos ver porque é que precisa de encontrar todas as páginas de um website, como é que pode fazê-lo exatamente, e o que fazer uma vez que tenha a lista de todas as páginas do website.
Porque é que preciso de encontrar todas as páginas?
Os motores de pesquisa estão constantemente a introduzir novos algoritmos e a aplicar penalidades manuais a páginas e websites. Se não tiver um conhecimento aprofundado de todas as páginas do seu website – estará a caminhar num campo minado do SEO.
De forma a evitar um sério retrocesso, deve estar atento a todas as páginas que compõem o seu website. Ao fazê-lo, não só permite que descubra páginas que já conhecia, mas também irá fazer com que encontre páginas esquecidas, páginas que não fazia ideia que existiam e que de outra forma não seria capaz de ver.
Há vários cenários possíveis quando precisa de saber como encontrar todas as páginas de um website, como por exemplo:
- Alterar a arquitectura do website;
- Encontrar e remover páginas duplicadas ou redundantes;
- Mudar o website para um nova estrutura permalink e redirecionar as páginas para novas URLs;
- Verificar a validade de atributos hreflang, e etiquetas canonical e noindex;
- Configurar ligações internas;
- Criar um mapa do site XML ou ficheiro robots.txt, apenas para nomear alguns.
Agora, enquanto obter uma lista de todas as páginas rastreáveis não é uma tarefa muito difícil, obter uma lista das páginas perdidas, esquecidas ou órfãs é outra história, na qual nos vamos focar em profundidade.
Uma página órfã é uma página web sem ligações internas a direcionar para ela. Noutras palavras, este tipo de páginas não tem uma página mãe. E sem uma página mãe, elas não têm qualquer tipo de autoridade e são deixadas sem nenhum tipo de contexto, o que resulta nos motores de pesquisa serem incapazes de as avaliar.
Por exemplo, vamos dizer que estava a redesenhar o seu website e removeu acidentalmente a única ligação para uma página, sem apagar a página. Consequentemente, vai ter uma página que não está ligada ao website e o seu desempenho SEO vai estar altamente comprometido.
Contudo, não estamos apenas à procura de páginas sem ligações internas. Também estamos a rastrear outras páginas, como duplicados, que podem ter escapado a sua atenção de alguma outra forma.
Causas comuns para páginas abandonadas
Vamos dar uma vista de olhos às causas mais comuns pelas quais páginas órfãs, perdidas e esquecidas podem ocorrer no seu site:
- Páginas criadas especificamente para campanhas;
- Páginas criadas para testes;
- Páginas que foram removidas da estrutura interna de ligações, mas não foram apagadas;
- Páginas incluidas no sistema CRM anterior;
- Páginas geradas como resultado do uso incorrecto de um CMS;
- Páginas perdidas durante a migração de um website;
- Páginas de categorias de loja excluídas.
Para além disso, se não usar http ou https, www ou não-www, assim como consistentemente traços em cada página do seu site que foi tornada pública, isto pode levar a novas páginas abandonadas.
Para verificar se tudo está configurado como deveria no seu site, introduza todas as diferentes variações da sua página inicial no seu navegador:
Desde que cada opção redirecione para a mesma URL, está tudo bem.
Mas apenas para estarmos seguros, devemos tentar a mesma tática em várias páginas do mesmo site. Além disso, certifique-se que os redirects do seu site estão bem configurados no seu ficheiro .htaccess.
Se desenhou uma página web com o objetivo de classificá-la organicamente – verifique várias vezes se está corretamente ligada ao seu site para que receba autoridade e tenha uma oportunidade de ser descoberta.
Utilizar ferramentas para encontrar todas as páginas de um website
Agora, quando chega o momento de encontrar todas as páginas que pertencem a um website, vamos utilizar as seguintes ferramentas:
- A ferramenta de Auditoria do Website do SE Ranking para encontrar todas as páginas rastreáveis;
- O Google Analytics para descobrir todas as páginas que foram visitadas desde sempre;
- O Google Search Console para descobrir páginas apenas visíveis para o Google.
Depois, iremos comparar dados destas ferramentas e encontrar incompatibilidades, e identificar todas as páginas do seu site, incluindo aquelas que não estão ligadas ao website, e consequentemente não são descobertas através de pesquisa orgânica.
Encontrar páginas rastreáveis através da ferramenta de Auditoria do Website do SE Ranking
Vamos começar por recolher todas as URLs que tanto as pessoas como os rastreadores dos motores de pesquisa podem visitar através das ligações internas do site. Analisar essas páginas deverá ser o topo das suas prioridades, uma vez que elas recebem praticamente toda a atenção.
Para fazê-lo, primeiro precisamos de acesso ao SE Ranking, adicionar um website ou selecionar um website existente e depois aceder à Auditoria do Website.
Nota: O período de teste gratuito de 14 dias dá-lhe acesso a todas as ferramentas e funcionalidades disponíveis do SE Ranking, incluindo a Auditoria do Website.
De seguida, vamos configurar as definições para certificar que estamos a dizer ao rastreador para analisar as páginas corretas. Aceda a Configurações da auditoria ao website → Origem das páginas para a auditoria do website, e permita ao sistema rastrear as páginas do Site, Subdomínios, mapas do site XML para verificar que só estamos a rastrear o que claramente especificado, e que estão a incluir os subdomínios do site assim como as suas páginas:
Posteriormente, aceda a Regras para rastrear páginas, e permita a opção Considerar as directivas do robots.txt, para dizer ao sistema para seguir as instruções especificadas no ficheiro robots.txt. Clique Aplicar Alterações quando terminar:
Agora, corra a auditoria com as novas configurações aplicadas, através do clique no botão Recomeçar auditoria. Uma vez que a auditoria esteja concluída, aceda a Páginas Rastreadas, para ver uma lista completa de todas as páginas rastreadas:
Mas como apenas queremos ver páginas com estado-de-código 200, ou seja, aquelas que estão a funcionar corretamente, é necessário criar um filtro:
Agora vamos exportar os resultados. A última coisa que precisamos fazer é remover todas as URLs da lista que tenham o valor “Sim” dentro da coluna Meta noindex no Excel. Selecione a coluna correspondente e organize a informação:
Finalmente, e considerando o fato que teremos de comparar informação mais tarde, precisamos de exportar os resultados para um local onde possamos executar essas tarefas. Assim, copie todas as URLs restantes – aquelas com o valor “Não” dentro de Meta noindex – para uma folha de cálculo.
(Note que também pode usar o Excel, mas eu prefiro o Google Sheets.)
Encontrar todas as páginas com visualizações de página através do Google Analytics
Uma vez que os rastreadores são inerentemente desenhados para analisar páginas que são exclusivamente alcançáveis através de ligações internas ou mapas do site – não são capazes de encontrar páginas órfãs.
Por esta razão, deve rastrear essas páginas através do estudo minucioso da informação na sua conta do Google Analytics. Apenas existe uma condição: o seu website deve estar ligado à sua conta do Google Analytics desde o início para que possa recolher os dados. A lógica aqui é simples: se alguém, alguma vez visitou qualquer página do seu website, o Google Analytics terá os dados para prová-lo. E uma vez que estas visitas são feitas por pessoas, devemos garantir que essas páginas servem um distinto propósito de SEO ou marketing.
Comece por aceder a Comportamento → Conteúdo do Site → Todas as páginas. Agora, estamos a olhar para páginas que são difíceis (quase impossíveis) de encontrar através da navegação do site. Como resultado, não terão muitas visualizações de página. Quase nenhum, na verdade.
De seguida, clique em ‘Visualizações de Página’ para obter a seta a apontar para cima e organizar as URLs desde as menos vistas até às mais vistas. Em última análise, as páginas menos visualizadas estarão no topo da lista:
Se o seu site já está operacional há algum tempo, é uma boa ideia definir um período de tempo anterior à conexão ao Google Analytics.
Agora desça até que comece a ver páginas que tenham obtido mais visitas que as suas páginas órfãs, e é aí que deverá parar. Note que desde que organizamos para ver as páginas desde desde o menor até ao maior número de visualizações, todas as páginas órfãs devem estar aqui. Uma vez terminado, exporte os dados para um ficheiro .csv.
Selecionar páginas órfãs
O próximo passo é colocar os dados do SE Ranking e do Google Analytics lado a lado e compará-los para descobrir que páginas não foram rastreadas.
Uma vez que já temos os dados do SE Ranking numa folha de cálculo, copie os dados do ficheiro .csv do Google Analytics e insira-o na coluna C, e aqui está o porquê.
Os dados recolhidos através do Google Analytics não estão num formato URL, pelo que precisamos de solucionar esta situação. Para fazê-lo, comece por inserir a URL da página inicial na coluna B, como mostrado abaixo:
Depois, use a função concatenar () para combinar os valores da coluna B e C na coluna D, arrastando a célula D2 para baixo para gerar a lista completa de URLs:
Esta é a parte entusiasmante: agora precisamos de comparar a coluna do “SE Ranking” com a coluna das “URLs GA”, para encontrar as páginas perdidas e esquecidas.
Obviamente, o exemplo acima é apenas um exemplo. Na realidade, obterá muitas mais páginas para analisar e executar esta tarefa manualmente vai demorar muito tempo.
Felizmente, existe a função Corresp que verifica se cada valor na coluna “URLs GA” está presente na coluna “SE Ranking” também. Para fazer isto, clique na célula E2, introduza a função e arraste a célula até ao seu último valor.
Isto é o que deverá obter:
Como pode observar, a posição no intervalo é retornada na célula caso existam valores correspondentes. Mas não é por esse motivo que estamos aqui – queremos ver se nenhuma correspondência foi encontrada (#N/A), como é o caso da célula E12.
Através do exemplo, é evidente que a célula A12 está vazia, pelo que a célula E12 devolve um erro. Isto significa que encontramos um vencedor: uma página órfã.
Organize a informação na coluna E para recolher todos os erros. Finalmente, pegue na lista de todos os erros, que na realidade são páginas órfãs, e insira-os numa nova folha de cálculo. Agora pode percorrer cada página e decidir como tratá-la.
O que fazer com páginas órfãs
Antes de fazer qualquer outra coisa, deve olhar para cada página órfã e perceber o enquadramento geral – a sua posição no seu website e nos seus esforços de marketing. Dessa forma, poderá decidir o que fazer com ela.
Tem três formas de agir numa situação destas:
- Manter a página adicionando ligações internas para ela e encontrar o lugar adequado para ela no seu website;
- Deixá-la sem alterações se for uma página específica para um campanhã, mas sem etiqueta noindex;
- Apagar a página mas configurar um redirecionamento 301 para ela.
Para ter a certeza que tem todas as suas cobertas, pode voltar a correr o processo novamente usando os dados atualizados.
Encontrar todas as outras páginas através da Google Search Console
Agora que sabe como encontrar e gerir todas as páginas do seu que já tiveram algum visitante humano, vamos dar uma olhadela às páginas que não foram abrangidas nas etapas anteriores – aquelas que apenas estão acessíveis ao Google.
Vamos usar os dados fornecidos pela sua conta Google Search Console para alcançá-lo.
Comece por abrir a sua conta e aceder a Cobertura. Depois, certifique-se que seleciona ‘Todas as páginas conhecidas’ e permita que sejam vistas apenas páginas ‘Válidas’:
Ao fazê-lo, irá obter duas listas de páginas que foram indexadas com sucesso pelo gigante da pesquisa: Indexada, não enviada no sitemap e Enviada e indexada. Clique numa lista para expandi-la e obter a lista completa de páginas que entram dentro de uma destas duas categorias:
Demore o seu tempo para estudar cuidadosamente todas as páginas listadas, para ver se pode encontrar alguma pagina que não tenha sido recolhida nas etapas anteriores. Se existir alguma, certifique-se de verificar se está configurada corretamente no seu site.
Agora, vamos selecionar “Excluídas” para visualizar apenas as páginas que foram intencionalmente não indexadas e que não vão aparecer no Google. Infelizmente, é aqui que terá de arregaçar as mangas e fazer muito trabalho manual. Conforme vai descendo, vai ver várias listas de páginas excluídas:
Pode visualizar páginas com redirecionamento, páginas excluídas através do noindex, páginas bloqueadas pelo robots.txt e muito mais.
Analisar cada uma delas vai dar-lhe acesso direto a cada uma das páginas do seu site. Depois, através da comparação da informação das páginas órfãs com os dados nestas listas, obterá uma visão geral detalhada de todas as páginas do seu site.
Recomendo repetir este processo uma ou duas vezes por ano para descobrir novas páginas que possam ter escapado.
Pensamentos finais
De forma a que um bot de um motor de pesquisa rastreie completamente um website, ele necessita de seguir ligações internas uma a uma. Mas se uma página web não está ligada ao site de nenhuma forma, propositadamente ou sem querer, então nem os motores de pesquisa nem humanos serão capazes de encontrar essa página. E isto não é uma situação ideal para o desempenho SEO de um site.
Como proprietário de um website ou um especialista SEO, ver todas as páginas de um site em particular pode ajudá-lo a descobrir páginas valiosas das quais se pode ter esquecido.
Certificando-se regularmente que está a par de todas as páginas web do seu site, incluindo páginas órfãs, será capaz de estar sempre em cima dos seus esforços de SEO e marketing.