Dernièrement, plusieurs audiences d’anciens ou d’actuels employés de Google nous permettent d’avoir des informations intéressantes.
Que cela soit Pandu Nayak le vice-président de la Recherche chez Google, plus de 18 ans d’expérience au sein de Google, ayant dirigé les équipes « algorithmic and ranking » ou Eric Lehman ayant consacré 17 ans à améliorer la qualité et le système de classement organique des moteurs de recherche.
Nayak est en plus spécialiste de la compréhension du langage appliquée à la recherche et cerise sur le gâteau, a été entendu dans un tribunal le 18 octobre dernier. La retranscription des audiences nous permettent de mieux comprendre comment Google fonctionne réellement et de confirmer certaines informations.
Sommaire
Utilisation des Quality raters
Nayak a abordé les scores de satisfaction de l’information (IS). Ces scores sont attribués par les évaluateurs de qualité de recherche (les fameux Quality Raters de Google), fournissant une évaluation humaine de la pertinence et de la qualité des résultats de recherche. 16 000 humains dans le monde notent les pages web afin d’aider Google à mieux classer les documents dans son classement.
Un point intéressant ici, selon les documents, les quality raters n’évaluent que les pages sur des appareils mobiles.
Test A/B et expérience en direct
Google utilise 2 méthodes (sûrement plus) pour tester la qualité des résultats.
Tout d’abord le test A/B où un évaluateur compare deux pages de résultats de recherche affichées côte à côte afin de comparer leur qualité respective.
Pour ce qui est du « live experiment », Nayak précise que c’est utilisé sur les internautes lorsque certains voient X et d’autres voient Y, et où l’algo de Google évalue si les utilisateurs qui voient l’un ou l’autre obtiennent une meilleure ou une expérience identique. L’évaluation se fait ensuite en fonction des clics pour déterminer les résultats préférés.
IS Score
Il a été montré que Google utilise l’IS score pour développer et ajuster les facteurs que son algorithme considère lors du classement des résultats de recherche et pour surveiller comment les modifications de son algorithme affectent la qualité des résultats de recherche. L’objectif est de tenter de saisir l’intention de l’utilisateur avec eux.
Les évaluateurs humains jouent un rôle crucial dans le développement et l’affinement des produits de recherche de Google. Grâce à leur travail, la métrique connue sous le nom de « IS score » (Score de Satisfaction de l’Information allant de 0 à 100) est générée, dérivée des évaluations des évaluateurs et utilisée comme indicateur principal de la qualité chez Google.
Il est évalué de manière anonyme, les évaluateurs ne sachant pas s’ils testent Google ou Bing, et il est utilisé pour comparer la performance de Google à celle de son principal concurrent.
Ces scores reflètent non seulement la qualité perçue, mais ils sont également utilisés pour former divers modèles au sein du système de recherche de Google, y compris des algorithmes de classification.
En plus de l’IA IS4
Selon les documents, en 2021, ils utilisent IS4. IS4 est considéré comme une approximation de l’utilité pour l’utilisateur et devrait être traité comme tel. Il est décrit comme peut-être la métrique de classement la plus importante, bien qu’ils soulignent que c’est une approximation et sujette à des erreurs.
En effet, les évaluateurs peuvent ne pas saisir les requêtes techniques et manquent de précision dans l’évaluation de la popularité. Dans les évaluations IS, ils accordent parfois peu d’importance à la fraîcheur de la pertinence, entraînant une sous-évaluation des résultats récents pour les requêtes axées sur la fraîcheur.
Le but de cet algo est de trouver la valeur réelle pour l’utilisateur soutenue par une analyse approfondie et d’autres métriques et à priori ne fonctionnerait que pour le top 5 du classement (en prenant en compte les fonctionnalités de recherche telles que les OneBoxes).
Une explication concernant les différents soucis d’indexation
Ces dernières années nous avons connu pas mal de problème d’indexation et de désindexation, que cela soit sur des sites qualitatifs ou non, évidemment à des degrés bien différents. Pour travailler sur différentes typologies de sites, des petits de quelques pages à des gros de plusieurs millions de pages, nous sommes tous confronté à ce problème. Évidemment dans certains cas c’est plus simple que dans d’autres. Évidemment entre un simple WordPress, un gros e-commerce ou la presse en ligne ce ne sera pas pareil.
Toujours d’après Pandu Nayak, augmenter la taille de l’index nécessite un investissement significatif, mais une croissance excessive n’est pas nécessairement bénéfique, car cela pourrait conduire à l’inclusion de pages de faible qualité. Il est essentiel d’investir judicieusement pour déterminer le contenu à inclure, et maintenir la qualité en diminuant la présence de pages indésirables peut être aussi important que l’expansion de la taille globale de l’index.
C’est donc pour économiser des dollars (comme pour la duplication de contenu) et pour améliorer la qualité de l’index que Google fait le ménage.
Utilisation des clics dans les résultats de recherche
Cela a été confirmé par plusieurs sources, que cela soit Eric Lehman ou par Pandu Nayak lorsqu’ils ont répondu aux questions des juges comme nous l’avons vu précédemment.
On en apprend un plus concernant Navboost, dont le rôle est d’analyser divers signaux utilisateur pour déterminer les résultats les plus appropriés, en mettant l’accent sur la pertinence des résultats de navigation. Il analyse des facteurs tels que les taux de clics, le comportement utilisateur, la qualité du site Web, la pertinence et le contexte pour offrir une meilleure expérience de recherche.
Cet algorithme de classement utilise les données de clics sur des requêtes au cours des 13 derniers mois (18 mois avant 2017). Nayak souligne son importance en tant que signal de classement, mettant en lumière son rôle crucial dans le processus d’évaluation et de classement des résultats de recherche.
Il segmente l’information en fonction de la localisation et du type d’appareil (mobile ou bureau), créant ainsi différents ensembles de données pour chaque catégorie en raison des différences d’intention des utilisateurs entre les appareils mobiles et de bureau.
L’un des avantages des données de clic par rapport aux données IS réside dans le fait que les clics donnent une mesure de la performance réelle. Il confirme également la variation des résultats en fonction de la localisation des utilisateurs, soulignant que le sens d’un mot dans une requête peut changer en fonction de l’endroit où l’utilisateur se trouve.
Utilisation de Chrome
Ce n’est plus une surprise pour personne, Chrome récupère énormément d’informations lorsqu’on l’utilise, ce n’est pas pour rien que j’utilise Firefox pour écrire ces lignes !
Mais comme souvent, nous allons détourner cette information pour permettre d’indexer nos pages (c’était d’ailleurs en projet depuis au moins 2016) ou de déclencher Google Discover, mais c’est maintenant officiel de la part de Google et c’est clairement une stratégie payante.
Un besoin de plus de rapidité
Le maintien de la fraîcheur des résultats dans la SERP dépend de la capacité des systèmes d’indexation et de diffusion pour proposer rapidement des documents récents malgré des contraintes techniques et financières. Il existe un risque que le contenu très frais soit sous-estimé en pertinence, tandis que le contenu avec de nombreuses preuves de pertinence pourrait devenir moins pertinent en raison de changements dans les intentions de recherche. La transition de Google Caffeine vers un nouveau système de microservices, tels que Glue (les différentes fonctionnalités d’une SERPs en dehors du listing) ou Tangram (de son ancien nom Tétris, qui a pour rôle d’agencer les différentes fonctionnalités dans la SERPs), offre une flexibilité, une évolutivité et une facilité de mise à jour accrues, comme indiqué plus haut avec « Instant Navboost » en tant que signal de fraîcheur dans les résultats de recherche, en plus des visites sur Chrome.
On note clairement dans l’échange de mail ci-dessous que Chrome existe pour permettre à Google de comprendre ce que veulent les internautes pour mieux leur proposer de la publicité des réponses de qualité.
Mais aussi des différentes interactions dans les pages de résultats
En septembre, Lehman a témoigné lors du procès antitrust que Google utilise les clics dans ses classements depuis des années. Google a publiquement déclaré qu’il utilise les données de clics à partir de ses pages de résultats de recherche (ce que nous pouvons avoir comme données via la Google Search Console) pour l’entraînement, l’évaluation, les expériences contrôlées et la personnalisation.
Mais à priori cela irait plus loin avec des informations comme le temps passé, le fait de faire défiler le contenu (oui j’essaie de tout traduire en français) ou le surlignement d’informations. Comme toujours, notre but est de satisfaire les utilisateurs et de les dissuader de retourner rapidement aux résultats de recherche. Il est donc primordial de comprendre l’intention des utilisateurs et de fournir les contenus attendu sur son site… Le SEO n’est pas une fin en soi, mais un moyen de générer du trafic.
Principaux modèles d’apprentissage profond
Les trois principaux modèles d’apprentissage profond que Google utilise dans le classement sont RankBrain, DeepRank et RankEmbed BERT. Ces trois modèles sont partiellement entraînés sur des données de clics et de requêtes. Par exemple, RankBrain examine les 20 ou 30 premiers documents et peut ajuster leur score initial, mais en raison de son coût élevé, il n’est exécuté que sur les résultats finaux. Il est entraîné sur des requêtes dans toutes les langues et zones géographiques de Google, puis affiné avec des données IS. Cependant, il n’est pas possible de nourrir RankBrain uniquement avec des données d’évaluateurs humains, et à chaque nouvelle formation, il utilise des données fraîches, initialement sur une période de 13 mois. Il doit être entraîné régulièrement car sinon il serait aveugle face aux nouveaux événements. C’est à priori le modèle le plus important.
DeepRank est une application de BERT utilisée pour le classement qui est également formé sur des données utilisateur à travers le monde. Il est utilisé dans la compréhension du langage et la nécessité de connaissances du monde pour classer les liens organiques. Cependant il est complexe de déterminer les connaissances, car cela relève de l’apprentissage implicite du réseau.
RankEmbed BERT a été développé en améliorant RankEmbed avec l’algorithme BERT, ce qui l’a rendu plus efficace dans la compréhension du langage. Il est entraîné sur des données de clics et de requêtes, puis affiné avec des données provenant des évaluateurs IS humains. Il doit être régulièrement re-entraîné pour refléter les événements récents.
D’après Nayak les nouveaux modèles linguistiques tels que MUM ont un énorme potentiel pour transformer la compréhension du langage et de l’information sur le monde, mais ils ne rendent pas obsolètes les systèmes existants. Il souligne que, actuellement, la recherche Google utilise des centaines d’algorithmes et de modèles d’apprentissage automatique, et aucun d’entre eux ne dépend entièrement d’un modèle large et unique. Google n’exécute pas le modèle MUM en production pour chaque requête en temps réel, car il est trop volumineux et lent pour cela. Au lieu de cela, Google utilise des modèles plus petits, comme le classificateur mentionné précédemment, spécialement entraînés à partir du modèle MUM. Ces modèles plus simples et plus rapides sont déployés en production pour répondre aux différents cas d’utilisation, permettant ainsi de gérer les coûts énergétiques et informatiques associés au modèle MUM tout en fournissant des résultats efficaces.
Critères de classement
Enfin il indique que Google utilise plus d’une centaine de signaux, parmi lesquels navboost est l’un d’entre eux. Cela comprend des algorithmes de type information retrieval (IR) qui éliminent la topicalité, c’est-à-dire la pertinence par rapport au sujet, ainsi que des critères tels que la qualité de la page, la fiabilité des résultats et des éléments de localisation. Les algorithmes IR sont conçus pour affiner la pertinence en éliminant les pages qui ne correspondent pas au sujet recherché. Il souligne que, pour la récupération de documents, l’élément le plus crucial est le document lui-même (et en particulier son contenu texte).
Interrogé sur la place de navboost dans cette hiérarchie, il souligne son importance tout en notant que d’autres signaux jouent également un rôle crucial.
Excellent article !
Mais cela est logique que Google prenne en compte les signaux d’utilisateurs soient pris en compte dans le ranking.
Après la vraie question est quelle en est son importance ?
Comme souvent en SEO, cela dépend. 😉
Pour Discover c’est indéniable, pour le Search bien moins, bien que cela puisse faire tomber ou monter une page si les signaux sont forts dans un sens comme dans l’autre.
Mais clairement cela prend de plus en plus de place dans l’algo.