Google Leak : les secrets de l’algorithme SEO révélés !

Il y a des choses qu’on ne vit qu’une fois dans une vie, les éclipses totales, les aurores boréales… et les fuites de l’algorithme de Google ! Et c’est arrivé le 27 mai 2024, Google a confirmé malgré lui le leak de la documentation de l’API Search Content Warehouse, et pour faire simple, a rendu publique tous les critères qui influent sur le référencement d’un site. Je vais tout vous expliquer dans cet article.

Disclaimer de principe

Même si ce leak est complètement fou, il faut garder à l’esprit qu’on n’a pas de contexte sur ce qui a été partagé. En gros, ça pourrait très bien être une API interne qui fonctionne différemment de l’API actuel du moteur de recherche, ou alors une ancienne version qui n’est plus d’actualité, etc.

Toujours est-il que ces informations ont été révélées par Michael King, et authentifiées par d’ex-employés de Google qui ont confirmé que ce qui a été fuité constituait bien des éléments du l’algorithme de Google.

Dans tous les cas, on peut en tirer beaucoup de conclusion pour préparer une stratégie SEO et c’est ce qu’on va voir maintenant. Pour ceux qui le veulent, l’analyse complète traduite en français est dispo ici.

Sinon, le récap’ pratique est dans cet article !

Google a menti ! (sans déc’ ?)

Premièrement, on se rend compte (si on ne l’avait pas déjà compris) qu‘on ne peut pas faire confiance a Google. En 2024 il y a encore des SEOs qui pensent qu’on peut référencer un site simplement en faisant du contenu original et en faisant confiance à Google.

C’est FAUX.

Personne ne rank en se contentant de bêtement “SuivRe LeS ReCoMManDaTions dE GoOGle” (à lire avec une voix d’attardé).

Google leak

Tout simplement parce que sur un mot clé qui rapporte de l’argent, il y a de la concurrence, et cette concurrence à déjà optimisé son contenu pour être bien positionné, parfois au maximum, et donc pour passer devant les concurrents déjà en place, il faudra faire encore mieux qu’eux.

Sauf qu’à un moment, le plafond de verre de la qualité est vite atteint et on ne peut plus se contenter de faire du contenu de qualité, il y a d’autres métriques qui rentrent en compte.

Et ces métriques, ce sont les justement celles dont Google rappelle systématiquement qu’elles n’existent pas. Logique, ils ne veulent pas se cramer.

Que ce soit pour le SEO ou pour le SEA, ne faites JAMAIS confiance à Google. S’ils disent que XX ne marche pas, il y a de forte chance que XX marche, et vice versa.

Du coup, parmi les 2500 documents qui ont été partagés, on apprend que, contrairement à ce que Google affirmait jusqu’à présent :

  • OUI, le Domain Authority existe.
  • OUI, le CTR et les métriques de la SERP sont pris en compte.
  • OUI, la Sandbox existe.

Si ça ne vous parle pas, pas d’inquiétude, je vais tout vous expliquer.

Plus de 14.000 facteurs de ranking

Avant toute chose, on apprend qu’il y a plus de 14 000 critères pris en compte par Google qui influent sur le positionnement d’une page. Beaucoup étaient déjà connus, tous n’ont pas le même poids dans le classement final et beaucoup sont anecdotiques, mais tout de même, 14 000 !

Alors évidemment, je ne vous les présenterais pas tous, ce serait complètement indigeste et inutile, mais on va voir les principaux dans les prochains paragraphes.

L’autorité de site

L’autorité d’un site, c’est une note de pertinence qui ne tient pas compte du contenu de la page positionnée ou autre, simplement une note générale, qui dépend de l’ancienneté du site, la quantité de trafic organique, le nombre de backlinks, etc.

Ce qui fait que pour un même mot clé, les gros sites sont souvent avantagés par rapport aux petits, même si le contenu n’est pas forcément plus pertinent. Google à toujours réfuté l’existence de cette métrique :

Google leak autorité de site

Nous n’avons pas vraiment “d’autorité de domaine”. […]

Gary Illyes

Donc oui, l’autorité de domaine existe bel et bien. Alors eux, ils appellent ça “Site Authority”, mais ça revient au même.

image 43

Ce qui est logique, un site qui a fait ses preuves sera toujours avantagé dans la SERP par rapport à un nouveau site qui n’a jamais généré de trafic.

Cela dit, on ne connait pas la “formule” qui est détermine la note d’autorité. On sait que les backlinks jouent un rôle important, ça a toujours marché et ça marchera toujours, mais il y a sûrement d’autres variables encore inconnues.

D’ailleurs, Google avait déclaré que les backlinks seraient de moins en moins importants à l’avenir… tirez-en les conclusions que vous voulez !

Le comportement utilisateur

Google leak ctr

Nouveau mensonge, les clics, et plus généralement les comportements utilisateurs sont bel et bien pris en compte par Google pour déterminer votre position.

Les comportements utilisateurs regroupent tous les signaux que va renvoyé un utilisateur à Google sur une page de résultat, mais aussi après avoir cliqué sur l’un d’eux. Parmi eux :

Le CTR

Le “Clic To Rate” est le nombre de clics divisé par le nombre d’impressions. En gros, si votre site apparait 100x dans les résultats, mais qu’il est cliqué que 5x, vous avez un CTR de 5%.

Automatiquement, plus un site a une bonne position, plus son CTR est élevé.

Un CTR élevé témoigne d’un intérêt spécifique pour votre site de la part des utilisateurs. Typiquement, si vous êtes en 4e position sur le mot clé “recette tiramisu facile” et que votre CTR est de 10%, alors que le 3e résultat a un CTR de 2%, vous avez de grande chance de lui passer devant, car Google comprendra que les utilisateurs préfèrent votre site à celui qui est au-dessus de vous.

Pour augmenter votre CTR, vous pouvez

  • Optimiser votre meta title
  • Optimiser votre meta description
  • Utiliser les données structurées, comme afficher le nombre d’avis.

Pour les meta title et meta description, la subtilité réside dans le fait de réussi à faire des textes courts, optimisés à la fois pour le SEO avec les bons mots clés, et bien copywrité pour le CTR. Ce n’est pas aussi simple qu’il n’y parait.

Le taux de rebond

Taux de rebond = Durée d’engagement. Plus votre visiteur reste longtemps sur votre page avant de repartir, plus Google comprend que votre contenu est pertinent. À l’inverse, si le visiteur “rebondi” (d’où le nom) rapidement de votre site pour aller voir chez vos concurrents, alors vous perdez des points.

Pour optimiser son taux de rebond, il faut tout simplement donner envie au visiteur de rester. Là on n’est pas tant dans le SEO, mais plus dans le marketing et le copywriting.

Là aussi il y a une subtilité, si ce n’est un casse-tête à résoudre, c’est que d’un côté il faut allonger le taux de rebond pour montrer à Google que le contenu de notre page est pertinent, mais de l’autre, Google référence mieux les contenus qui réponde rapidement à la question de l’internaute, pour améliorer l’expérience utilisateur.

Forcément, on n’a pas envie de se taper un article de 5000 mots pour avoir la réponse quand on a une question simple.

Par exemple, imaginez une recherche “date découverte Amérique“. Quelle est la meilleure façon de procéder ?

  • Répondre rapidement à la question de l’utilisateur dès le début de l’article, quitte à ce que l’utilisateur parte tout de suite après avoir eu sa réponse, pénalisant ainsi votre taux de rebond mais améliorant son expérience.
  • Faire tout un article très long sur la question, pour garder l’utilisateur en haleine tout le long jusqu’à la conclusion, mais en ayant pondu un article chiant et inutile pour une simple question.

Comme vous le voyez, il est difficile d’avoir l’un est l’autre, d’autant plus que sur un article long, vous augmentez vos chances de voir l’utilisateur repartir dans tous les cas, car souvent il aura la flemme de tout lire.

En réalité il existe des techniques pour pallier les 2, comme la pyramide inversée, on en reparlera dans un autre article.

Bref tout ça pour dire que contrairement à ce que disait Google, OUI, ces signaux et d’autres sont bien pris en compte dans le référencement et on en a maintenant la preuve.

Les signaux Google Chrome

Toujours dans les signaux utilisateurs, on sait maintenant que Google utilise les datas des navigateurs Chrome pour nourrir son algorithme.

On n’a pas beaucoup plus d’infos, mais on peut imaginer qu’un utilisateur qui revient régulièrement sur la même page d’un site enverra un signal positif à Google.

Google leak données chrome

… 🤡.

La sandbox

Lorsque vous créez un nouveau site internet, vous êtes mis dans une sandbox, c’est-à-dire que Google vous traitera d’une manière un peu différente des autres sites, c’est pour ça que les nouveaux sites ont du mal à ranker dans les premiers mois. C’est comme une période de test.

Google leak sandbox

Encore un mensonge 🤡.

Je veux bien qu’on traite les nouveaux sites différemment, après tout (et on le sait) certains domaines aussi ont un traitement spécifique de par la nature de leur contenu, comme YouTube, les sites YMYL, les sites de news ou les sites pour adulte. Le problème, c’est qu’ils affirmaient l’inverse.

Qu’on soit clair, c’est normal pour un algorithme aussi important de ne pas dévoiler haut et fort son fonctionnement. Mais il y a une différence entre ne rien dire, garder le secret, et au contraire affirmer qu’un facteur de référencement n’existe pas alors que c’est faux.

L’optimisation des ancres

Dans l’algorithme de Google, il y a un module qui analyse l’optimisation d’ancre des liens (que ce soit pour le maillage interne ou externe).

C’est-à-dire que si l’ancre de votre lien est peu optimisée (par exemple, une ancre générale “cliquez ici” ou le lien brut), il n’aura pas le même poids comparé à une ancre optimisé avec un mot clé, par exemple “cette recette de tiramisu facile”.

Chaque lien a une note, une note de 10/10 aura un impact significatif, une note de 0 n’aura aucun impact. On ne peut pas affirmer avec certitude si les mauvais liens sont juste “ignorés”, ou s’ils sont carrément pénalisants.

On savait que l’optimisation des ancres était une donnée importante, et maintenant on en a la preuve.

Il faut veiller à son ratio d’ancres opti / non opti. Si vous avez 90% d’ancres sur-optimisées, Google vous pénalisera, ou en tout cas, ignorera les liens, car ce n’est pas un ratio naturel.

Le contenu important doit apparaître en priorité

Cette info est très importante, et beaucoup d’agences ou freelances SEO ne l’appliquaient pas jusqu’à présent. Au passage, si vous cherchez un expert en SEO pour améliorer votre référencement, contactez nous pour en discuter.

Pour Google, l’expérience utilisateur est super importante, lorsqu’il propose des résultats sur une recherche, il a intérêt a montrer du contenu pertinent et intéressant, car ces résultats, ce sont justement les produits que propose Google à ses utilisateurs.

Et pour améliorer l’UX, l’utilisateur veut trouver rapidement la réponse à ce qu’il recherche. Et donc lorsque Google va crawler votre page, il ne va pas considérer de la même manière le contenu en haut de page et le contenu en bas de page.

Il ne faut pas oublier la notion de “crawl budget”. Découvrir une page coûte de l’argent à Google, et parfois il va simplement tronquer les documents dans son crawl et ignorer ce qui est trop bas dans une page pour économiser de l’argent.

Le contenu en haut de page est celui qui sera vu en premier par l’utilisateur, il faut donc bien cerner l’intention de recherche de l’utilisateur, et mettre le contenu en haut de page, plutôt que de le cacher en bas.

Imaginez que Google fait un screen shoot du haut de votre page. Si cette partie ne répond pas à l’intention de recherche, vous serez potentiellement pénalisé.

C’est le concept de la pyramide inversée.

Les auteurs ont une importance

Ça faisait débat dans la communauté SEO, mais c’est désormais officiel, l’auteur d’un article à un impact sur le référencement de celui-ci.

Google leak auteur

C’est pour cette raison que vous voyez sur plein de sites (dont celui-ci !) des blocs auteurs sous les articles :

Google leak bloc auteur

À noter que le boost serait encore plus important si l’auteur est dans l’opengraph.

Les facteurs de déclassements

Il y a aussi de nombreux twiddlers (modulateurs) qui viennent apporter une correction à l’algorithme principal. En gros, l’algo de recherche fait le travail, et ensuite les modulateurs viennent ajuster un peu le score des résultats en fonction de certains critères, parmi eux :

  • NavBoost
  • QualityBoost
  • ReaTimeBoost
  • WebimageBoost

On ne va pas s’attarder sur ça, car ça mériterait un article complet, par contre parmi ces twiddlers, certains servent spécifiquement à pénaliser votre page, donc vous faire perdre des points. On va les passer en revue.

Ancre illogique

Si un lien qui pointe d’une page A vers une page B mais que l’ancre n’est pas cohérente (par exemple une ancre “regardez cette recette de tiramisu” qui renvoie sur un site de location immobilière), le lien ne sera pas pris en compte.

Donc on sait maintenant (même si c’était logique) que les services de backlinks de débile qui promettent 3000 backlinks par jour avec des ancres hasardeuses sont une perte de temps et d’argent.

SERP

Selon toute vraisemblance, en fonction de l’UX sur la SERP (et donc des signaux utilisateurs) une page pourra perdre des points par rapport à une autre.

Navigation

Même chose, mais spécifique à la navigation. Par exemple, j’arrive sur une page, puis je commence à naviguer sur le site, regarder les autres pages de ce même site, etc, la page aura un petit boost.

EMD

Pour rappel, un EMD (exact match domain), c’est quand le nom de domaine d’un site correspond exactement à la recherche Google. Par exemple, souvent les marques ont des EMD. Si je tape “Dior” sur Google, dior.com est l’EMD. Ils étaient habituellement privilégiés par rapport aux autres résultats d’une recherche.

Sauf que certains achètent des noms de domaine spécifiquement pour mieux ranker sur une requête cible, par exemple serrurier-paris.fr pour ranker sur le mot clé “serrurier paris”.

Google leak EMD

Et comme on le voit dans cet exemple, “serrurerie paris” n’est pas un nom de marque ou autre, son vrai nom est “Serrurerie Meunier

image 54

Ce faisant, ils bénéficient d’un petit boost (et dans les requêtes concurrentielles comme celle-ci, ce petit boost peut s’avérer très pratique).

Bref, dans les leaks on apprend que les EMD vont perdre un peu de leur boost lorsqu’ils ne correspondent pas à des marques, mais juste à des mots clés.

Les backlinks

La vitesse d’acquisition des backlinks doit être naturelle

Si vous vous lancez dans une campagne d’acquisition de backlinks en masse, comme on voit souvent sur Internet, sachez qu’une bonne partie des liens que vous achèterez seront tout simplement ignorés.

Ce n’est pas naturel d’avoir d’un coup des énormes pics de backlinks avant et/ou après une période de vide. L’acquisition de backlinks doit être régulière et progressive, et c’est pour ça qu’une bonne campagne de netlinking coûte cher :

  • Non seulement il faut acquérir des backlinks de qualité
  • Mais en plus on ne peut pas faire du Oneshoot, ça doit être régulier

Le tout, c’est la cohérence.

Les backlinks ajoutés après la création d’une page sont moins puissants

Lorsque vous ajoutez un backlinks sur une page déjà existante, il aura un peu moins d’impact que s’il avait été ajouté en même temps que la page, ou en tout cas lors du 1er crawl de Google.

C’est bon à savoir pour ceux qui font du ninja linking.

Taille de font des liens

La taille de la police du backlinks a un impact. Plus elle est grande et grosse (je parle bien de la police…) plus elle bénéficiera d’un boost.

À mon avis, c’est surtout pour contre carrer les petits backlinks ajoutés discrètement dans un contenu... un BL intéressant doit être aussi visible que le reste du contenu de la page.

Historique des dernières versions de page

Lorsque Google passe sur votre page, il n’analyse pas seulement sa version actuel, mais il la compare aussi avec les versions précédente pour se faire une idée général de l’évolution de votre page.

Ca signifie que même après avoir retravaillé une page, vous continuerez d’être potentiellement pénalisé par son historique.

Google peut conserver jusqu’à 20 instances d’une page, donc si vous voulez complètement effacé l’impact d’une modification sur une page, vous devrez la modifier 20 fois, en attendant à chaque fois que la nouvelle version soit crawlée.

Google stocke les dates des pages

Google prend en compte les dates des contenus, que ce soit la date de création d’un article, ou sa date de dernière modification… ainsi que toutes les dates de modifications passées.

Le but de Google est de proposer du contenu “frais” et récent au maximum. Les contenus à jour ont un petit bonus de référencement (notamment pour le Google News, j’imagine).

Google garde l’historique des propriétaires des NDD

Tout est dans le titre.

Et il garde aussi les dates d’expiration et de renouvellement des noms de domaine, donc si vous voulez profiter de l’autorité d’un domaine qui sur le point d’expirer pour l’acheter et avoir un bonus de ranking, ça ne marchera que si vous achetez le domaine directement lorsqu’il expire. Si vous attendez 3 mois, vous n’aurez pas le même bonus.

L’autorité de la homepage profite à toutes les pages

Révélation très intéressante :
Peu importe la page de votre site, elle profitera toujours de l’autorité de la page d’accueil, et ce, indépendamment du maillage naturel qui se fait entre la page d’accueil et une page plus profonde.

C’est à dire que même une page pas du tout maillée dans votre site, profitera d’un bonus seulement dû au fait que la home page a une bonne autorité.

C’est bon à savoir dans une stratégie de netlinking, on peut se permettre d’envoyer plus de lien sur la Home, les pages profondes en bénéficieront aussi.

Cela dit, le deeplinking reste très efficace pour pousser les pages profondes et je vous recommande d’en user (et en abuser… dans les limites du raisonnable).

Le title doit être très proche du mot clé ciblé

À votre avis, si je cible le mot clé “meilleure boulangerie paris“, j’ai de meilleure chance de ranker si mon meta title ressemble à :

  • “Classement des meilleures boulangeries à Paris” ?
  • “Excellents artisans boulangers dans la capitale” ?

Selon ce leak, plus le meta title ressemble au mot-clé, plus le résultat sera avantagé.

Google leak title

Ce n’est pas quelque chose d’étonnant, on le savait déjà. Donc c’est “Classement des meilleures boulangeries à Paris” qui gagne, la preuve :

Google leak meta title

D’où l’importance de bien choisir ces mots-clés et de passer par un professionnel pour ça !

En tant que boulanger, vous préférez peut être qu’on vous considère comme un “artisan boulanger” plutôt qu’une banale boulangerie, pour vous différencier des franchises qui n’ont plus rien d’artisanal comme les boulangeries Paul, Marie Blachère, etc.

Et ça s’entend, vous pouvez l’appliquer dans votre communication sur les réseaux sociaux, etc. Mais d’un point de vue SEO, vous feriez mieux de concentrer vos efforts sur ce que les gens recherchent : les boulangeries.

Quelques infos diverses

Contenu rédigé par une IA

Il y a un facteur qui évalue la probabilité que le contenu a été rédigé par un humain ou par un robot. Le contenu généré par IA sera déclassé par rapport aux autres résultats.

Pour que Google remarque qu’un contenu est généré par IA, encore faut-il qu’il puisse le détecter. Il y a des méthodes pour passer à travers cette vérification, on en parlera dans un prochain article.

Les petits sites perso se font défoncer

Les petits blogs perso se font déclasser, probablement parce qu’ils n’apportent que très peu de valeur aux utilisateurs.

Les contenus courts peuvent avoir un boost d’originalité

Je ne sais pas quoi faire de cette info mais je vous la donne quand même. Apparemment, ça n’affecte que les contenus courts.

Ne faites jamais confiance à Google !

C’est le moment de faire le bilan.

Je rappelle ce que j’ai dit en intro, le manque de contexte sur ce leak fait qu’on ne sait pas à quel point c’est d’actualité ou non, mais ça contient dans tous les cas énormément de valeur.

Si il y a une chose dont on peut être certain dorénavant, c’est QU’IL NE FAUT JAMAIS FAIRE CONFIANCE A GOOGLE. Encore une fois, être flou sur le fonctionnement de son algorithme, c’est normal. Ils n’ont pas besoin de communiquer dessus ni de commenter quoi que ce soit.

Par contre, faire des déclarations officielles pour expliquer que quelque chose n’existe pas, alors que si… c’est différent.

Enfin, malgré quelques infos qu’on connaissait déjà / dont on se doutait fortement, il y a quand même pas mal de révélations qui pourront être utilisées pour améliorer le SEO de votre site. Si vous cherchez des professionnels pour améliorer le référencement de votre site sur Google, contactez-nous.