PageRank de Google et évaluation de l’autorité du site Web
Le Web tel que nous le connaissons aujourd’hui n’avait pas la même apparence à ses débuts. L’autorité des pages Web basée sur les liens pointant vers elles est désormais perçue comme la norme. Mais c’était révolutionnaire en 1998, lorsque Google a introduit l’algorithme PageRank pour faire de l’évaluation des liens sortants un facteur de classement valide. Bien que le PageRank ait définitivement joué un rôle crucial dans l’évolution du SEO et de ses techniques, il n’est pas clair s’il compte toujours après 2018, lorsque le brevet original a expiré. Dans cet article, nous examinerons l’historique du PageRank, expliquerons comment calculer pagerank et découvrirons s’il est toujours appliqué aux classements.
Qu’est-ce que le PageRank ?
Le PageRank est un algorithme de classement des pages Web en fonction du nombre et de la qualité des liens pointant vers elles. Il a été développé par les ingénieurs pionniers de Google Larry Page et Sergey Brin en 1998 et a marqué la première tentative réussie d’un moteur de recherche pour évaluer le niveau d’autorité d’une page Web donnée. Fondamentalement, cela signifiait qu’une page obtiendrait un classement plus élevé avec plus de backlinks qu’elle avait.
Comme l’expliquent les ingénieurs dans l’article original, le PageRank visait à “mettre de l’ordre sur le Web” en répartissant les pondérations sur les pages. Ils ont construit l’algorithme sur l’idée d’un internaute aléatoire qui visite une page et accède à d’autres pages en cliquant sur des liens. La probabilité qu’un internaute au hasard atteigne une certaine page est le PageRank de cette page. Le score est calculé sur une échelle logarithmique entre 0 et 10, où 10 représente la source Web la plus fiable qui soit.
Le PageRank est une mesure objective qui correspond aux intentions subjectives des internautes : plus il y a de sources pointant vers une page, plus les informations sur cette page sont précieuses et plus les utilisateurs sont susceptibles de la visiter.
Mais les sources de référence ne sont pas égales – le nombre de pages qui y renvoient est également mesuré : plus une page de référence a de backlinks, plus elle transmet de puissance PageRank sur une page vers laquelle elle renvoie. Explorons-le plus en détail.
Comment calculer le PageRank
Voici la formule originale du PageRank :
PR(A) = (1-d) + d (PR(T1)/C(T1) + … + PR(Tn)/C(Tn))
où
- A est la page analysée
- T1…Tn sont les pages pointant vers la page analysée
- C est le nombre de liens placés sur la page analysée
- d est un facteur d’amortissement qui correspond à la probabilité qu’un utilisateur abandonne une page (généralement fixé à 0,85)
Lorsque des pages votent sur d’autres pages en les citant, elles distribuent leur PageRank. Par exemple, la page A a un score PageRank de 5 et elle renvoie aux pages B et C. Indépendamment des autres liens que les pages B et C pourraient avoir, les pages B et C reçoivent 85 % du score de la page A (4,25) combiné (le score multiplié par le facteur d’amortissement). Si la page B cite la page D, le score PageRank de D inclura 85% du score de B, et ainsi de suite.
Examinons un exemple simple de distribution de PageRank réalisé avec un simulateur de PageRank :
La page 3 ici a le score PageRank le plus élevé car elle est liée au plus. Et parce que la page 3 a le score le plus élevé, le PageRank qu’elle transmet aux pages 4 et 5 est également plus élevé. Naturellement, ce calcul est effectué indépendamment d’un scénario réel, en supposant que seules ces 5 pages existent sur le Web, mais il montre, de manière simplifiée, comment la valeur du PageRank est répartie sur les pages Web.
Le PageRank étant une métrique d’autorité, la puissance transmise par les liens est calculée de façon hiérarchique : une citation d’une page PageRank 8 pèse plus qu’une citation d’une page PageRank 2. Mais votre page peut obtenir une valeur PageRank plus élevée grâce à des liens provenant de pages moins faisant autorité si elles utilisent généralement moins de citations. Supposons que votre page soit référencée à partir d’une source PageRank 7 qui contient 10 liens sortants et également à partir d’une source PageRank 3 qui ne contient que 3 liens. La première source passera la valeur PageRank de 0,105 (0,7 multiplié par le facteur d’amortissement) et la seconde apportera votre page 0,15. Cependant, les pages de haute qualité et populaires ne sont généralement pas liées à de nombreuses autres pages, il est donc toujours préférable de se concentrer sur l’obtention de backlinks à partir des sites les plus fiables.
Barre d’outils PageRank et manipulation des liens
En 2000, Google a rendu le score PageRank de n’importe quel site Web visible publiquement sur la barre d’outils du navigateur. Une telle exposition a conduit à des manipulations de classement appelées sculpture PageRank : les propriétaires de sites Web et les référenceurs se concentraient sur l’obtention de plus de liens à partir de pages à score élevé et des fermes de liens entières ont émergé pour aider les gens à acheter les liens. Une telle compréhension de l’algorithme – qui consistait à obtenir autant de liens que possible à partir de pages avec un score aussi élevé que possible sans tenir compte du contexte des liens et de nombreux autres aspects – n’était pas une pratique de référencement durable.
Google a fait différentes tentatives pour arrêter les manipulations de classement avec PageRank et a finalement cessé la barre d’outils en 2016. Nous pouvons toujours voir des services en ligne qui calculent le score PageRank et proposent des badges PageRank à mettre sur des sites Web, même si c’est une pratique complètement dépassée. L’algorithme est toujours utilisé dans les classements de Google, mais il n’y a aucun moyen de trouver des calculs officiels accessibles au public.
La valeur de non-suivi
Les techniques de manipulation de liens n’étaient pas seulement liées à la barre d’outils PageRank accessible au public. Pour résoudre le problème du spam de commentaires, Google et d’autres moteurs de recherche majeurs ont introduit la valeur nofollow de l’attribut rel en 2005. Cette valeur indique aux robots de recherche de ne pas suivre un lien et empêche la distribution de l’équité du lien. Avant le nofollow, les gens pouvaient inonder Internet de commentaires mentionnant l’adresse de leur site Web et augmenter le score PageRank.
Cette nouvelle valeur d’attribut a stimulé de nouvelles pratiques de manipulation de liens. Étant donné que le poids que PageRank transmet aux pages liées dépend de leur nombre – plus une page contient de liens, moins la partie du PageRank de cette page est distribuée – les référenceurs utiliseraient le nofollow pour diriger le flux de PageRank et transmettre plus de poids via les liens suivis.
Supposons qu’une source avec un score PageRank de 5 ait cité 10 autres pages et marqué 8 de toutes les citations comme non suivies. Avant nofollow, cela signifiait que chaque page citée obtenait un dixième du score de la page de référence (0,425 en ce qui concerne le facteur d’amortissement). Avec le nofollow, seules 2 pages suivies recevraient chacune la moitié du PageRank de la page de référence (2,125). S’agissant d’une technique de manipulation, la situation a changé en 2009 : dans le même scénario, deux pages suivies recevraient un PageRank de 0,425 au lieu de 2,125. Ainsi, le PageRank est réparti de manière égale sur tous les liens d’une page, mais n’est en fait transmis que par les liens marqués par follow.
La valeur UGC
Par rapport aux liens sortants pertinents placés naturellement, les liens de commentaires ne sont le plus souvent pas aussi fiables et il n’est pas juste de leur accorder le même crédit. En 2019, Google a ajouté un nouveau type de valeur de l’attribut rel spécifiquement conçu pour les liens de commentaires : UGC (contenu généré par l’utilisateur). Désormais, de nombreux blogs et forums définissent automatiquement tous les liens placés dans la section des commentaires sur UGC, tandis que le nofollow est utilisé à des fins plus larges.
L’algorithme mis à jour
En 2004, Google a publié le brevet PageRank mis à jour basé sur un « modèle de surfeur raisonnable » où ils ont introduit l’idée que les liens peuvent avoir des valeurs différentes en fonction de leur potentiel à être cliqué. Par exemple, les liens placés en haut de la page ou les liens avec des textes d’ancrage informatifs suffisamment longs sont généralement plus visibles et attrayants pour les utilisateurs. À partir de ce moment, la probabilité d’être cliqué a été prise en compte pour évaluer l’autorité et servir les classements.
En 2006, Google a conçu un nouveau système qui sélectionne quelques sources fiables appelées pages de référence et évalue la qualité des autres pages en fonction des liens provenant des pages de référence. C’était une réponse au fait que le PageRank était vulnérable aux manipulations, et la nouvelle formule ressemblait à ceci :
∀ s je ≠ p ∈ P, R je (p) = ré ∑ q→p R je (q) / q en sortie * w(q→p)
où
- s je suis des pages de semences de haute qualité
- P représente toutes les pages Web
- q out est le degré extérieur d’une page q
- w est un poids du lien (fixé à 1 par défaut)
Google cite le New York Times comme un bon exemple de page de départ, car il est suffisamment diversifié pour couvrir un large éventail de sujets qui intéressent les utilisateurs et propose de nombreux liens sortants utiles. Les pages citées par les graines sont également considérées comme de haute qualité, et plus il est facile d’atteindre une page à partir d’une graine, plus elle est fiable et plus, elle a un score élevé.
Selon ce brevet mis à jour, le processus de classement de la distribution basé sur les liens passe par les étapes suivantes :
- Le système reçoit un ensemble de pages ouvertes à indexer et à classer
- Le système connaît un ensemble de pages de départ qui renvoient à d’autres pages
- Le système calcule à quelle distance des graines se trouvent les pages analysées en fonction des liens entre elles
- Le système détermine les classements en fonction des distances les plus courtes vers les pages de départ
Ce nouvel algorithme qui a remplacé la formule originale du PageRank est plus rapide à calculer car il ne progresse plus d’une itération à l’autre. Et même si le brevet PageRank original a expiré en 2018, cela ne signifie pas que Google ne l’utilise toujours pas. Répondant à un tweet sur l’autorité, l’analyste de Google, John Mueller, a admis qu’ils utilisaient le PageRank “parmi de nombreux autres signaux”.
Facteurs qui influencent le PageRank
Comme nous l’avons mentionné, différents aspects de la création de liens affectent le score PageRank :
- Le nombre de liens
- Attributs de lien
- Texte d’ancrage
- La probabilité d’être cliqué
Voyons comment vous pouvez tirer le meilleur parti des liens que vous placez et de ceux que vous acquérez.
Optimiser le flux d’équité de lien
Obtenir des backlinks pour voter en faveur de votre site Web est toujours l’une des choses les plus importantes pour établir l’autorité sur le Web. Les liens transmettent l’équité des liens aux pages qu’ils citent sous certaines conditions :
- Quand ils sont pertinents. La pertinence est la clé du référencement à bien des égards. Google n’aime pas que les pages soient liées au hasard. Supposons que votre page contenant une recette de cuisine obtienne des liens provenant de pages sur les voitures. Quelle que soit la fiabilité de la source externe, ce type de lien n’améliorera pas le classement de votre page.
- Lorsqu’ils ont un texte d’ancrage naturel. Les textes d’ancrage sans signification comme “cliquez ici” ou ceux sur-optimisés qui contiennent des mots-clés cibles ne sont pas bons pour établir la pertinence. Le texte d’ancrage doit décrire le sujet de la source liée et servir d’indice pour expliquer pourquoi un utilisateur doit suivre le lien.
- Lorsque les sites dont ils proviennent sont fiables. Il est important de vérifier la qualité du domaine et de la page des sources pour obtenir des backlinks et surveiller les liens nuisibles provenant de sources de mauvaise qualité.
- Lorsqu’ils sont explorables. Les liens sont importants si les robots de recherche peuvent les trouver et s’ils ne sont pas bloqués dans robots.txt ou par d’autres méthodes.
- Lorsqu’ils ne déclenchent pas une réponse du serveur d’erreur. Les pages liées et les pages de liaison doivent être ouvertes pour l’indexation. De plus, aucune redirection ne peut dépasser l’équité totale des liens : même si Google a déclaré que tous les types de redirections passent le PageRank, les référenceurs pensent que ce n’est peut-être pas le cas avec les redirections non-301.
- Quand ils sont suivis. Nous avons déjà discuté de la façon dont la valeur nofollow influence la distribution du pouvoir de classement : si votre page est citée mais non suivie, cela ne vous apportera pas beaucoup d’avantages en matière de classement.
- Lorsqu’ils sont visibles sur une page. Les liens cachés peuvent entraîner des pénalités, et plus les liens sont visibles, mieux c’est pour l’UX et le SEO. Cela ne signifie pas que les liens doivent se démarquer nettement : ils doivent être facilement distinguables mais conçus avec des principes communs de visualisation des liens.
Étant donné que PageRank évalue l’autorité sur une page et non sur un site, les liens internes sont aussi importants que les backlinks. Avec un maillage interne approprié, vous pouvez distribuer le flux de liens :
- Plus une page a de liens internes, plus son PageRank est élevé
- Plus il y a de liens placés sur une page, moins ils transmettent de valeur PageRank
- Les liens qui sont facilement cliqués passent un PageRank plus élevé
- Les liens attribués par nofollow ne passent aucun PageRank
En parlant de liens externes, ils n’ont pas d’impact sur le score PageRank des pages sur lesquelles ils sont placés. Ils servent de signaux de pertinence et aident Google à établir des liens entre différentes sources, mais ils n’influencent pas directement les classements des moteurs de recherche.
Métriques d’autorité alternatives
Le PageRank a été la première métrique d’autorité à influencer les pratiques Web et SEO. Il est toujours utilisé parmi les signaux de classement de Google, c’est-à-dire il existe aussi le PageRank de Google, même si on ne sait pas exactement comment. Il est sûr de dire que des liens pertinents provenant de sources de haute qualité sont cruciaux pour les classements et l’établissement de l’autorité.
D’autres métriques SEO visant à évaluer l’autorité du site Web tournent également autour de la quantité et de la qualité des backlinks.
Par exemple, la confiance de domaine et la confiance de page de SE Ranking sont des scores agrégés de qualité de domaine et de page qui sont basés sur le nombre et la qualité des backlinks et des domaines de référence. Vous pouvez vous faire une idée de la qualité d’un site Web en exécutant son analyse dans l’outil de recherche concurrentielle :
Les données DT et PT sont également disponibles dans l’outil Vérificateur de backlinks et Outil de suivi de backlinks, et le score DT est présent dans la vue d’ensemble de l’audit de site Web parmi d’autres métriques de domaine majeures.
Alors, avez-vous besoin de vous soucier du PageRank ?
La valeur des liens a jeté les bases de la formule de classement de Google. Indépendamment des changements dans l’algorithme PageRank (y compris PageRank de Google) et de son importance, les liens ont toujours été et seront probablement un facteur de classement majeur. Dans un Q&A de 2016, les représentants de Google ont révélé que le contenu et les liens sont les deux principaux facteurs influençant le classement, et dans la discussion Twitter de 2020 que nous avons déjà mentionnée, John Mueller a admis que le PageRank est toujours important pour les classements.
Cela signifie que vous devez donner la priorité au travail sur un profil de backlink sûr et peaufiner votre lien interne de temps en temps. Comme le dit Rand Fishkin de Moz, quelle que soit l’ancienneté des théories du PageRank, cela ne fera pas de mal de vérifier vos liens et d’éliminer les déchets. Assurez-vous que la structure de votre site Web facilite la navigation dans les différentes pages et établit des relations de backlink avec des sources faisant autorité qui sont pertinentes pour les sujets que vous ciblez.