SEO : que nous apprend la fuite de données Google ?

Une fuite de 2 500 pages de documents internes de Google révèle des détails sur l'algorithme de recherche, y compris l'utilisation des données de Chrome pour le classement et le fonctionnement de NavBoost.

Une fuite de 2 500 pages de documents internes de Google dévoile des informations liées à l’algorithme de classement des sites. Faisons le point !

Google : 2500 pages de documents internes ont fuité

Le 28 mai 2024, Rand Fishkin, spécialiste du référencement et fondateur de SparkToro, a annoncé avoir reçu, de la part d’une source anonyme, une fuite de 2 500 pages de documents internes à Google. Ces documents proviennent vraisemblablement du Content API Warehouse de l’entreprise et offrent un aperçu du fonctionnement de l’algorithme du moteur de recherche.

Selon ces documents, Google aurait dissimulé certains aspects de son système de référencement, notamment concernant NavBoost, un outil développé pour améliorer la qualité des résultats de recherche grâce aux données de clics, et l’utilisation des données de Google Chrome pour le classement des contenus. Rand Fishkin a consulté des employés de Google ainsi que l’expert technique du référencement, Mike King, pour confirmer la fiabilité des documents. Fishkin affirme qu'il semble s’agir d’un ensemble légitime de documents provenant de la division Recherche de Google, contenant des informations non confirmées auparavant sur le fonctionnement interne de Google.

À ce jour, Google n’a effectué aucune déclaration relative à cette fuite. Cependant, le 30 mai 2024, la firme a confirmé l’authenticité des documents. Davis Thompson, porte-parole de Google, a averti contre les “hypothèses inexactes sur Search basées sur des informations hors contexte, obsolètes ou incomplètes”.

Google leak : les informations contenues dans les documents

Les documents révélés sont de nature technique et fournissent principalement des informations sur les données collectées par Google concernant les pages web et les utilisateurs. Voici certaines informations dévoilées.

Google utilise les données de Chrome :
Google a toujours affirmé ne pas utiliser les flux de clics issus de Chrome pour ses classements, mais les documents suggèrent l’inverse. Selon Rand Fishkin, Google utilise probablement le nombre de clics sur les pages dans les navigateurs Chrome pour déterminer les URL les plus populaires/importantes d’un site, ce qui influe sur les URL à inclure dans la fonctionnalité sitelinks. Fishkin précise que la volonté d’analyser les flux de clics était un des principaux motifs ayant mené à la création de Google Chrome en 2008.

NavBoost utilise des données de clics :
L’existence de NavBoost a été révélée en octobre 2023 par Pandu Nayak, vice-président de la recherche chez Google, lors d’un témoignage devant le département de la Justice des États-Unis. Les documents précisent que NavBoost comptabilise le nombre de clics, analyse le taux de rebond sur les pages et évalue la fiabilité des clics. Google avait jusqu’ici toujours démenti utiliser des signaux utilisateur centrés sur le clic.

Des filtres sont ajoutés sur certains sujets sensibles :
Pour certaines requêtes sensibles, telles que celles liées au COVID ou aux élections, Google a mis en place des “listes blanches” visant à privilégier des sites jugés fiables, tels que des autorités gouvernementales. Cette liste peut également inclure des sites de voyage.

Google identifie les auteurs de contenus :
Le critère E-E-A-T (expérience, expertise, autorité et fiabilité) pourrait “ne pas avoir d’importance aussi directe que certains référenceurs le pensent”, car il n’est mentionné dans aucun des documents divulgués. En revanche, la fuite révèle que Google collecte des données relatives aux auteurs, notamment un champ destiné à identifier si une entité sur la page est l’auteur de celle-ci. Jusqu’à présent, Google affirmait que les pages d’auteurs visaient principalement à améliorer l’expérience des visiteurs, sans influencer le classement.

Les index de liens sont classés selon trois niveaux :
Google classe ses index de liens en trois niveaux : faible, moyen et élevé. Selon le nombre de clics et la source des clics, les liens seront pris en compte ou non dans le classement du site. Rand Fishkin illustre cette information avec un exemple :

"- Si Forbes.com/Cats/ n’a aucun clic, il entre dans l’index de mauvaise qualité et le lien est ignoré,
– Si Forbes.com/Dogs/ enregistre un volume élevé de clics provenant d’appareils vérifiables […], il entre dans l’index de haute qualité et le lien transmet les signaux de classement."

Les liens considérés comme “fiables” peuvent transmettre du PageRank, tandis que ceux de mauvaise qualité sont ignorés et n’affectent donc pas négativement le classement du site.

TAGs
Articles récents