Envoyer un mail à l’auteur
xavier at ultra-fluide.com

Ressources

Combattre le spamdexing avec le TrustRank.

Le TrustRank (indice de confiance) est rapidement devenu un sujet à la mode lorsque la communauté des spécialistes de Google et des webmasters s'est aperçue que Google venait de déposer cette marque en mars 2005. Le vocable avait été introduit une année plus tôt par un article publié à Standford exposant une méthode pour combattre le spamdexing. Certains se sont alors avancés à prédire la mort prochaine du PageRank. En fait cette vision est excessive puisque TrustRank et PageRank apparaissent largement complémentaires.
Nous proposons une traduction française de l'article ainsi qu'un digest des principes du TrustRank. Chacun pourra ainsi se faire une idée d'une future inflexion des algorithmes de classement chez Google pour le cas probable où le TrustRank venait à être exploité.

Cette page présente des notes et analyses du traducteur de l'article. Suivez ce lien si vous souhaitez aller directement à la traduction de l'article de présentation du Trustrank.

Auteurs et traducteur

Publié en mars 2004 par Zoltan Gyöngyi (Stanford University), Hector Garcia-Molina (Stanford University) et Jan Pedersen (Yahoo! Inc.), disponible dans sa version originale sur le site web de l'Université de Stanford.
Traduit en français par Xavier Boully en juillet 2005.

Prérequis technique

L'article expose, dans le cadre de descriptions d'algorithmes, des formulations mathématiques ne pouvant être facilement présentées par les technologies web classiques (HTML, CSS). Nous avons décidé de présenter ces formules avec MathML. Pour bénéficier du contenu complet et d'une présentation agréable il est donc nécessaire de disposer d'un navigateur compatible avec MathML. Les navigateurs construits autour du moteur de rendu Gecko (Firefox, Mozilla, Camino, Galeon...) sont nativement compatibles MathML. Si vous utilisez IE6, il existe un plugin MathML pour ce navigateur. Pour des versions plus anciennes de IE (IE5+) il existe un autre plugin (non testé). A notre connaissance il n'existe pas de support de MathML pour Opera et Safari. Nous n'avons pas d'éléments relativement aux autres navigateurs. Pour information, si votre navigateur ne supporte MathML, sachez que Firefox (disponible sur Linux, Mac OS X, Windows) peut cohabiter avec un autre navigateur, ainsi une installation parallèle de Firefox au coté de votre navigateur usuel pourra satisfaire le besoin.

Résumé de l'article

Le spamdexing fait appel à différentes techniques pour obtenir une amélioration artificielle du positionnement de pages web dans les résultats des moteurs de recherche. Bien que l'intelligence humaine ait la possibilité d'identifier le spam, l'évaluation manuelle qui en résulterait est trop coûteuse pour être appliquée à un grand nombre de pages. Nous proposons donc des techniques semi-automatiques visant à séparer les pages légitimes du spam. Nous sélectionnons d'abord un petit ensemble de pages sources pour être évaluées par un expert. Une fois établie la qualification manuelle des pages de l'échantillon source, nous utilisons la structure de liens du web pour déterminer quelles sont les autres pages ayant de bonnes changes d'être elles aussi légitimes. Au court de cet article nous verrons des moyens d'obtenir la sélection de pages sources, puis de remonter vers les pages légitimes. Nous présentons les résultats d'expériences conduites sur l'index web d'AltaVista, et évaluons la pertinence de ces techniques. Nos résultats montrent que nous pouvons efficacement filtrer le spam d'une fraction significative du web, en nous basant sur une sélection de pages sources rigoureuses de moins de 200 sites.

Suite de l'article ...

Hypothèses fondatrices du TrustRank

Contrairement à ce que l'usage abondant de formulations mathématiques pourrait laisser penser au premier abord, cet article ne se positionne pas sur le développement d'une théorie particulièrement rigoureuse. Il laisse à l'écart les raisonnements mathématiques (probabilités) ainsi que les outils qui en dérivent (statistiques, datamining), il ne s'apparente donc pas à une recherche fondamentale.
Même si sa lecture pourrait finalement laisser une certaine impression de bricolage, force est de constater que les auteurs ont su tirer partie d'un solide bon sens et d'un art consommé pour l'expérimentation.

Cette orientation a également le mérite de simplifier l'extraction et la synthèse des idées maîtresses de l'article. Voici donc la liste des 10 postulats de bon sens nettoyées des considérations calculatoires sur lesquels les auteurs s'appuient pour produire leurs résultats :

  1. Une définition large du spamdexing présenté comme un ensemble de procédés visant à obtenir une amélioration artificielle du positionnement de pages web dans les résultats des moteurs de recherche.
  2. Le PageRank exprime le fait qu'une page web disposera d'une bonne notoriété dès que d'autres pages web de bonne notoriété pointeront vers elle.
  3. Indépendamment de toutes relations entre pages web, le PageRank comprend également une composante statique [faible mais non nulle, constituant le PageRank d'une page ne recevant aucun lien] qui peut être constante (identique sur toutes les pages) ou variable en fonction de critères extérieurs au PageRank.
  4. Principe d'isolation : les bonnes pages ne présentent que très rarement des liens pointant vers des pages faisant usage de techniques relevant du spamdexing.
  5. Aucune hypothèse ne peut être faite en revanche en ce qui concerne les liens de mauvaises pages vers les bonnes pages.
  6. La possession d'un ensemble de pages certifiées (confiance en la qualité de ces pages suite à un examen manuel) autorise, si l'on adhère au principe d'isolation, à qualifier un ensemble de pages plus vaste par la propagation de cette confiance le long des liens entre pages.
  7. Dans la réalité, le principe d'isolation n'est pas strictement respecté même s'il reste globalement valide. Dans ce contexte, plus le nombre d'étape de propagation est élevé, plus la probabilité de faire confiance à une mauvaise page augmente. Pour tenir compte de ce facteur, il est raisonnable de limiter la propagation de la confiance d'une page à l'autre par un amortissement dont l'effet se fait d'autant plus sentir que le nombre d'étapes est important.
  8. Un principe secondaire permet une approche du degré d'imperfection du principe d'isolation : la qualité des liens (faculté de véhiculer la confiance, et donc de ne pas pointer vers une mauvaise page) présents sur une bonne page est d'autant meilleure que la bonne page contient peu de liens.
  9. Ce principe secondaire permet de raffiner la propagation de la confiance par la méthode dite du fractionnement : le capital de confiance d'une bonne page est divisé entre toutes les pages cibles de la bonne page. En d'autre terme, la confiance transmise par une page est d'autant plus faible qu'elle porte un grand nombre de liens.
  10. L'objectif est d'avoir une information fiable sur le plus grand nombre de pages à partir d'un échantillon de départ aussi petit que possible. L'échantillon de départ sera donc constitué à partir d'une sélection de pages touchant le plus grand nombre de pages avec le minimum d'étapes (algorithme du PageRank inversé). Un second filtre sera appliqué sur cette base pour ne conserver que les sites dont le contrôle est assumé par une autorité clairement identifiable (gouvernement, institution, entreprise). Il s'agit de garantir la pérennité de l'évaluation manuelle. Enfin sont éliminés les sites dont l'activité est susceptible de conduire à la pose de liens automatiques.

Discussion autour des postulats

(postulat 1) Les résultats de l'étude présentés comme positifs peuvent-ils réellement conclure au traitement du spamdexing, compte tenu de la définition qui en est donné ?

La définition du spamdexing est clairement relative au positionnement dans les résultats fournis par les moteurs de recherche. Pourtant l'article ne produit aucune conclusion quand à l'impact du TrustRank sur le positionnement. Il se cantonne à un comparatif TrustRank-PageRank sans fournir aucun chiffre concernant le positionnement. Du coup l'étude traite elle vraiment du spamdexing au sens de la définition qui en est donnée ?

Bien entendu les algorithmes des moteurs de recherche ne sont pas publiques, ce qui limite considérablement les possibilités d'analyse. D'autre part le passage du PageRank au positionnement dépend d'algorithmes variables d'un moteur à l'autre (certains moteurs n'ayant même probablement pas de notion de PageRank), ce qui ne simplifie pas la tâche. Il en résulte que le PageRank n'est qu'une information très partielle pour comprendre le positionnement d'une page face à une requête d'internaute. En conséquence l'étude conduite ne permet pas de conclure à l'efficacité quantitative de la méthode vis à vis de l'objectif que nous rappelons ici : dégradation du positionnement des pages exploitant des techniques de spamdexing dans les résultats de recherche. Tout au plus peut-on espérer une efficacité qualitative du TrustRank, à savoir une baisse globale du positionnement du spamdexing. Mais de quelle ampleur ? et dans le détail, quelle serait la dispersion du déclassement en fonction des pages et des requêtes ?

Pour aller plus loin, on peut diviser le spamdexing en deux sous-ensembles :

Pour le premier sous-ensemble, la comparaison TrustRank-PageRank constitue une bonne base, mais seule la connaissance du PageRank de la page utilisant le spamdexing sans le spamdexing permettrait de savoir si l'objectif est atteint. Malheureusement, ce facteur essentiel n'est jamais introduit dans l'étude.

Pour le second ensemble, le principe du TrustRank consiste à compenser l'excès de sensibilité à certains mots clefs par une baisse de la notoriété au sens PageRank. Pourtant les deux mondes sont basés sur des notions et des algorithmes tellement indépendants que la compensation de l'un par l'autre n'a aucune chance de présenter la moindre régularité. Seule l'étude du positionnement peut qualifier le déclassement et sa dispersion.

Les spammers emploient dans leur majorité les deux champs d'action en même temps, et finalement seul un moteur de recherche peut réellement parvenir à conduire de bout en bout une étude d'impact et d'amélioration du TrustRank.

(postulat 4) Le principe d'isolation met il vraiment le spamdexing au cœur du TrustRank ?

Nous venons de voir avec le point précédent que l'article ne pouvait pas réellement conclure à une efficacité du TrustRank face au spamdexing faute de chiffres et d'analyse. Nous ajoutons maintenant que le TrustRank est moins fait pour lutter contre le spamdexing que pour classer les contenus sur une nouvelle échelle de valeur.

Le TrustRank, comme le PageRank d'ailleurs, s'appuie sur la perspicacité des responsables éditoriaux de sites web pour juger de la valeur des contenus du web. Pour le PageRank, un webmaster qui porte intérêt à un contenu (un lien en témoigne) lui confère de la notoriété. La différence entre TrustRank et PageRank réside dans le fait que pour le TrustRank, la responsabilité du jugement repose plus particulièrement sur un petit ensemble de responsables de sites triés sur le volet. Du coup le jugement se fait plus "qualitativement" pour le TrustRank alors qu'il restait "quantitatif" pour le PageRank. Les deux peuvent se rejoindre : lorsqu'un contenu est bon il reçoit généralement beaucoup de liens. Mais l'inverse n'est pas vrai, et le spam ruine ainsi la pertinence du PageRank lorsqu'il s'introduit en brisant l'équivalence quantité-qualité qui en était le principe fondateur. Le PageRank donnait une voix égale à toutes les pages, donc considérait les webmasters sur un plan d'égalité qu'ils soient spammer ou non. Le TrustRank modifie cet état de fait puisque le vote de certains webmasters aura plus de poids.

Certains pourront objecter que finalement améliorer la qualification des pages sur la qualité des contenus revient à déclasser le spamdexing du fait de l'existence d'une corrélation. En fait non, et pour 3 raisons :

Détecter le spamdexing est souvent fastidieux voire difficile selon les techniques. C'est un travail de spécialiste. Clairement, les webmasters font des liens en regardant l'intérêt d'un contenu, et pas en scrutant les éventuelles techniques de spamdexing. Le spamdexing est parfois utilisé pour mettre en avant des contenus complètement creux dans le but de générer des revenus publicitaires ou d'affiliation. Dans ce cas le TrustRank va effectivement contribuer à écarter ces contenus (le principe d'isolation s'applique). En revanche il est monnaie courante de voire un éditeur de contenu digne d'intérêt utiliser des techniques de spamdexing pour placer son contenu en tête d'affiche. Le fait d'avoir des informations pertinentes à mettre en ligne n'est pas contradictoire avec la volonté d'être lu, au contraire. Un webmaster intéressé par un tel contenu ne s'empêchera pas de faire un lien sur ce type de page car il ne détectera pas la présence d'une technique de triche. Un tel contenu restera favorisé par rapport à un contenu équivalent ne faisant pas appel au spamdexing.

Conclusion :
Ceux qui imaginaient le TrustRank comme un outil à chasser le spam, à savoir le moyen de revenir au classement issu du PageRank sans l'existence du spamdexing, seront déçus. D'ailleurs s'en tenir au PageRank peut-il être réellement un objectif en soi ?
Il n'y a pas d'échelle absolue pour classer les algorithmes définissant la notoriété d'une page web, et personne n'est vraiment choqué de constater des différences significatives entre les classements de deux moteurs concurrents. Pourtant les webmasters deviennent souvent sensibles, pour ne pas dire irritables, lorsqu'un moteur modifie ses algorithmes car des mois d'effort peuvent se réduire à rien en un instant. Il faudra bien se résoudre à cette éventualité avec le TrustRank. Le TrustRank est une évolution importance du PageRank qui met l'accent sur la "qualité des contenus" (les guillemets indiquent la subjectivité de la notion). C'est un nouveau classement de la notoriété des pages web. Les webmasters chargés de référencement peuvent s'y intéresser dès maintenant car les grandes lignes en sont connus et les actions à conduire pour obtenir un bon positionnement sont parfaitement compatibles avec le PageRank.
Par ailleurs le TrustRank n'étant pas particulièrement outillé pour lutter contre le spamdexing, il est fort possible de voir ce dernier se développer de la façon suivante :

(postulats 8 et 10) : du dosage de deux paramètres jouant en sens opposés

Pour cibler l'objectif, le postulat 10 propose de choisir un échantillon de départ contenant des pages permettant de rallier le maximum de pages du web en un minimum d'étapes (c'est le choix retenu par les auteurs de l'articles pour présenter leurs résultats). Cela signifie sélectionner des pages contenant un grand nombre de liens ou proches (au sens du nombre d'étapes) de pages pourvues de nombreux liens.
Cependant le postulat 8 indique qu'une page est d'autant plus qualifiée pour déterminer la qualité d'une page vers laquelle elle pointe qu'elle contient peu de liens. En d'autres termes choisir des pages contenant peu de liens augmente la pertinence du principe de propagation de la confiance, et rend donc acceptable un plus grand nombre d'étapes de propagation.

Il en résulte 2 raisonnements empiriques opposés :

Finalement bien malin celui qui pourra dire sur la seule foi de l'intuition, quelle est la meilleure stratégie. Le sujet mériterait bien quelques expérimentations complémentaires.

Approches mathématiques

Nous avons indiqué plus haut le bien que nous pensions de l'article relativement à son pragmatisme et à ses déductions faisant la part belle au bon sens et à l'expérimentation. Nous regrettons cependant le manque de formalisme mathématique. L'emploi d'outils plus rigoureux pourraient constituer un apport significatif pour :

Les auteurs semblaient en bonne direction cherchant à définir la confiance idéale et la confiance ordonnée à partir d'une distribution probabiliste sans pour autant aboutir. D'une part l'introduction d'une probabilité n'est suivie d'aucun effet puisque la suite du document emprunte la voie d'autres définitions parfaitement calculatoires et difficilement exploitables sur le plan mathématique. D'autre part la définition proposée n'a malheureusement aucune légitimité mathématique (pas d'univers probabilisable, absence d'expérience aléatoire et de règles ou hypothèses permettant d'en valoriser les résultats).

Pourtant le problème posé est bien dans la lignée des problématiques de probabilités conditionnelles, à savoir comme se déforme la connaissance (densités de probabilités) que l'on a d'un univers sachant certains paramètres (en l'occurrence, qualité des pages d'un échantillon, présence de liens entre pages ...).

D'autres idées pourraient s'envisager. Par exemple le graphe web et la confiance (TrustRank) peut être vu comme un réseau de neurone. Sans doute est-il possible d'employer des techniques relatives à ces réseaux pour "calculer et améliorer" la propagation de la confiance.

Dans un autre domaine, le clustering permet de définir des catégories dans un ensemble. Il semblerait intéressant d'étudier là aussi la déformation des clusters en fonction de la connaissance d'informations sur un échantillon. Certaines méthodes de clustering seraient même sans doute efficaces pour isoler directement tout ou partie du spam.

Le TrustRank dans la classement actuel de Google (juillet 2005)

Google a récemment introduit des modifications dans son algorithme. Cette évolution porte pour les spécialistes le doux nom de Bourbon. L'effet Bourbon a commencé à se faire sentir en mai 2005. Des fluctuations notables ont été constatées sur le positionnement de nombreux sites avant une stabilisation courant juillet 2005.

La question que chacun peut se poser : Bourbon intègre-t-il une dose de TrustRank ?

Nous n'avons pas de réponse évidente à cette question mais nous avons fait quelques constats. Nous suivons particulièrement la population des sites d'agences web et autre agences de communication. Cette population a les caractéristiques suivantes :

Le spamdexing conduit parfois au blacklistage de sites de la population. Nous avons observé un échantillon (très limité) de sites blacklistés auparavant bien positionnés qui sont sortis de la partie visible du classement (premières pages des résultats). Sur notre échantillon, nous avons constaté 3 étapes :

Notons que ce constat est fait sur des sites ne semblant pas affectés par des modifications significatives de l'ensemble des backlinks (vérification faite sur d'autres moteurs que Google).

Par ailleurs la population non blacklistée n'a pas subie de modifications profondes de son classement sur quelques requêtes types. Les sites de clients des sites blacklistés ne semblent pas globalement avoir évoluer non plus.

Conclusion :
Certains éléments sont cohérents avec la philosophie TrustRank. En particulier le fait que le bannissement ne correspond plus à une exclusion pure et simple mais plutôt à un déclassement, c'est à dire une notoriété inférieure au PageRank initial. En revanche Bourbon n'a pas particulièrement touché les sites non blacklistés et en particulier ceux utilisant massivement le spamdexing. Pourtant d'après les résultats de l'article auquel nous nous intéressons des sites de PageRank 5 et 6 pourrait cependant commencer à être touchés. D'un autre coté les sites de notre population ne présentent pas réellement la typologie idéale pour satisfaire au principe d'isolation qui caractérise plutôt des contenus vraiment pauvres. Il est donc difficile de trancher entre une mise en place partielle de la notion de TrustRank ou une mise en place plus complète mais ne touchant pas finalement la population observée.
A la lecture des forums spécialisés on s'aperçoit que beaucoup de sites très secoués pendant Bourbon ont fini par retrouver leur place d'avant Bourbon. Nous faisons donc plutôt l'hypothèse empirique d'une mise en place timide et partielle du TrustRank sur le plan des principes, mais plus profonde sur le plan technique. Google pourrait avoir revu la structure de ses bases, de ses workflows sur les environnements de production en vue d'accueillir dans le futur des données supplémentaires et le TrustRank. Ces mises à jour techniques auraient induit les perturbations observées sans aboutir aujourd'hui à un changement du classement. Dans ce cas le meilleur reste à venir...


Agence de communication Ultra-Fluide : 01 47 70 23 32 - contact at ultra-fluide.com - 44 rue Richer 75009 Paris.