Envoyer un mail à l’auteur
xavier at ultra-fluide.com
Le TrustRank (indice de confiance) est rapidement devenu un sujet à la mode lorsque
la communauté des spécialistes de Google et des webmasters s'est aperçue que
Google venait de déposer cette marque en mars 2005. Le vocable avait été
introduit une année plus tôt par un article publié à Standford exposant une
méthode pour combattre le spamdexing. Certains se sont alors avancés à
prédire la mort prochaine du PageRank. En fait cette vision est excessive
puisque TrustRank et PageRank apparaissent largement complémentaires.
Nous proposons une traduction française de l'article ainsi qu'un digest des
principes du TrustRank. Chacun pourra ainsi se faire une idée d'une
future inflexion des algorithmes de classement chez Google pour le cas
probable où le TrustRank venait à être exploité.
Cette page présente des notes et analyses du traducteur de l'article. Suivez ce lien si vous souhaitez aller directement à la traduction de l'article de présentation du Trustrank.
Publié en mars 2004 par Zoltan Gyöngyi (Stanford University), Hector Garcia-Molina (Stanford
University) et Jan Pedersen (Yahoo! Inc.), disponible dans sa
version
originale sur le site web de l'Université de
Stanford.
Traduit en français par Xavier Boully en juillet 2005.
L'article expose, dans le cadre de descriptions d'algorithmes, des formulations mathématiques ne pouvant être facilement présentées par les technologies web classiques (HTML, CSS). Nous avons décidé de présenter ces formules avec MathML. Pour bénéficier du contenu complet et d'une présentation agréable il est donc nécessaire de disposer d'un navigateur compatible avec MathML. Les navigateurs construits autour du moteur de rendu Gecko (Firefox, Mozilla, Camino, Galeon...) sont nativement compatibles MathML. Si vous utilisez IE6, il existe un plugin MathML pour ce navigateur. Pour des versions plus anciennes de IE (IE5+) il existe un autre plugin (non testé). A notre connaissance il n'existe pas de support de MathML pour Opera et Safari. Nous n'avons pas d'éléments relativement aux autres navigateurs. Pour information, si votre navigateur ne supporte MathML, sachez que Firefox (disponible sur Linux, Mac OS X, Windows) peut cohabiter avec un autre navigateur, ainsi une installation parallèle de Firefox au coté de votre navigateur usuel pourra satisfaire le besoin.
Le spamdexing fait appel à différentes techniques pour obtenir une amélioration artificielle du positionnement de pages web dans les résultats des moteurs de recherche. Bien que l'intelligence humaine ait la possibilité d'identifier le spam, l'évaluation manuelle qui en résulterait est trop coûteuse pour être appliquée à un grand nombre de pages. Nous proposons donc des techniques semi-automatiques visant à séparer les pages légitimes du spam. Nous sélectionnons d'abord un petit ensemble de pages sources pour être évaluées par un expert. Une fois établie la qualification manuelle des pages de l'échantillon source, nous utilisons la structure de liens du web pour déterminer quelles sont les autres pages ayant de bonnes changes d'être elles aussi légitimes. Au court de cet article nous verrons des moyens d'obtenir la sélection de pages sources, puis de remonter vers les pages légitimes. Nous présentons les résultats d'expériences conduites sur l'index web d'AltaVista, et évaluons la pertinence de ces techniques. Nos résultats montrent que nous pouvons efficacement filtrer le spam d'une fraction significative du web, en nous basant sur une sélection de pages sources rigoureuses de moins de 200 sites.
Contrairement à ce que l'usage abondant de formulations mathématiques
pourrait laisser penser au premier abord, cet article ne se positionne pas
sur le développement d'une théorie particulièrement rigoureuse. Il laisse à
l'écart les raisonnements mathématiques (probabilités) ainsi que les outils
qui en dérivent (statistiques, datamining), il ne s'apparente donc pas à une
recherche fondamentale.
Même si sa lecture pourrait finalement laisser une certaine impression de
bricolage, force est de constater que les auteurs ont su tirer partie d'un
solide bon sens et d'un art consommé pour l'expérimentation.
Cette orientation a également le mérite de simplifier l'extraction et la synthèse des idées maîtresses de l'article. Voici donc la liste des 10 postulats de bon sens nettoyées des considérations calculatoires sur lesquels les auteurs s'appuient pour produire leurs résultats :
La définition du spamdexing est clairement relative au positionnement dans les résultats fournis par les moteurs de recherche. Pourtant l'article ne produit aucune conclusion quand à l'impact du TrustRank sur le positionnement. Il se cantonne à un comparatif TrustRank-PageRank sans fournir aucun chiffre concernant le positionnement. Du coup l'étude traite elle vraiment du spamdexing au sens de la définition qui en est donnée ?
Bien entendu les algorithmes des moteurs de recherche ne sont pas publiques, ce qui limite considérablement les possibilités d'analyse. D'autre part le passage du PageRank au positionnement dépend d'algorithmes variables d'un moteur à l'autre (certains moteurs n'ayant même probablement pas de notion de PageRank), ce qui ne simplifie pas la tâche. Il en résulte que le PageRank n'est qu'une information très partielle pour comprendre le positionnement d'une page face à une requête d'internaute. En conséquence l'étude conduite ne permet pas de conclure à l'efficacité quantitative de la méthode vis à vis de l'objectif que nous rappelons ici : dégradation du positionnement des pages exploitant des techniques de spamdexing dans les résultats de recherche. Tout au plus peut-on espérer une efficacité qualitative du TrustRank, à savoir une baisse globale du positionnement du spamdexing. Mais de quelle ampleur ? et dans le détail, quelle serait la dispersion du déclassement en fonction des pages et des requêtes ?
Pour aller plus loin, on peut diviser le spamdexing en deux sous-ensembles :
Pour le premier sous-ensemble, la comparaison TrustRank-PageRank constitue une bonne base, mais seule la connaissance du PageRank de la page utilisant le spamdexing sans le spamdexing permettrait de savoir si l'objectif est atteint. Malheureusement, ce facteur essentiel n'est jamais introduit dans l'étude.
Pour le second ensemble, le principe du TrustRank consiste à compenser l'excès de sensibilité à certains mots clefs par une baisse de la notoriété au sens PageRank. Pourtant les deux mondes sont basés sur des notions et des algorithmes tellement indépendants que la compensation de l'un par l'autre n'a aucune chance de présenter la moindre régularité. Seule l'étude du positionnement peut qualifier le déclassement et sa dispersion.
Les spammers emploient dans leur majorité les deux champs d'action en même temps, et finalement seul un moteur de recherche peut réellement parvenir à conduire de bout en bout une étude d'impact et d'amélioration du TrustRank.
Nous venons de voir avec le point précédent que l'article ne pouvait pas réellement conclure à une efficacité du TrustRank face au spamdexing faute de chiffres et d'analyse. Nous ajoutons maintenant que le TrustRank est moins fait pour lutter contre le spamdexing que pour classer les contenus sur une nouvelle échelle de valeur.
Le TrustRank, comme le PageRank d'ailleurs, s'appuie sur la perspicacité des responsables éditoriaux de sites web pour juger de la valeur des contenus du web. Pour le PageRank, un webmaster qui porte intérêt à un contenu (un lien en témoigne) lui confère de la notoriété. La différence entre TrustRank et PageRank réside dans le fait que pour le TrustRank, la responsabilité du jugement repose plus particulièrement sur un petit ensemble de responsables de sites triés sur le volet. Du coup le jugement se fait plus "qualitativement" pour le TrustRank alors qu'il restait "quantitatif" pour le PageRank. Les deux peuvent se rejoindre : lorsqu'un contenu est bon il reçoit généralement beaucoup de liens. Mais l'inverse n'est pas vrai, et le spam ruine ainsi la pertinence du PageRank lorsqu'il s'introduit en brisant l'équivalence quantité-qualité qui en était le principe fondateur. Le PageRank donnait une voix égale à toutes les pages, donc considérait les webmasters sur un plan d'égalité qu'ils soient spammer ou non. Le TrustRank modifie cet état de fait puisque le vote de certains webmasters aura plus de poids.
Certains pourront objecter que finalement améliorer la qualification des pages sur la qualité des contenus revient à déclasser le spamdexing du fait de l'existence d'une corrélation. En fait non, et pour 3 raisons :
Détecter le spamdexing est souvent fastidieux voire difficile selon les techniques. C'est un travail de spécialiste. Clairement, les webmasters font des liens en regardant l'intérêt d'un contenu, et pas en scrutant les éventuelles techniques de spamdexing. Le spamdexing est parfois utilisé pour mettre en avant des contenus complètement creux dans le but de générer des revenus publicitaires ou d'affiliation. Dans ce cas le TrustRank va effectivement contribuer à écarter ces contenus (le principe d'isolation s'applique). En revanche il est monnaie courante de voire un éditeur de contenu digne d'intérêt utiliser des techniques de spamdexing pour placer son contenu en tête d'affiche. Le fait d'avoir des informations pertinentes à mettre en ligne n'est pas contradictoire avec la volonté d'être lu, au contraire. Un webmaster intéressé par un tel contenu ne s'empêchera pas de faire un lien sur ce type de page car il ne détectera pas la présence d'une technique de triche. Un tel contenu restera favorisé par rapport à un contenu équivalent ne faisant pas appel au spamdexing.
Conclusion :
Ceux qui imaginaient le TrustRank comme un outil à chasser le spam, à savoir le
moyen de revenir au classement issu du PageRank sans l'existence du
spamdexing, seront déçus. D'ailleurs s'en tenir au PageRank peut-il être
réellement un objectif en soi ?
Il n'y a pas d'échelle absolue pour classer
les algorithmes définissant la notoriété d'une page web, et personne n'est
vraiment choqué de constater des différences significatives entre les
classements de deux moteurs concurrents. Pourtant les webmasters deviennent
souvent sensibles, pour ne pas dire irritables, lorsqu'un moteur modifie ses
algorithmes car des mois d'effort peuvent se réduire à rien en un instant.
Il faudra bien se résoudre à cette éventualité avec le TrustRank. Le
TrustRank est une évolution importance du PageRank qui met l'accent sur la
"qualité des contenus" (les guillemets indiquent la subjectivité de la
notion). C'est un nouveau classement de la notoriété des pages web. Les
webmasters chargés de référencement peuvent s'y intéresser dès maintenant car
les grandes lignes en sont connus et les actions à conduire pour obtenir un bon
positionnement sont parfaitement compatibles avec le PageRank.
Par ailleurs le TrustRank n'étant pas particulièrement outillé pour lutter
contre le spamdexing, il est fort possible de voir ce dernier se développer
de la façon suivante :
Pour cibler l'objectif, le postulat 10 propose de choisir un échantillon
de départ contenant des pages permettant de rallier le maximum de pages du
web en un minimum d'étapes (c'est le choix retenu par les auteurs de
l'articles pour présenter leurs résultats). Cela signifie sélectionner des
pages contenant un grand nombre de liens ou proches (au sens du nombre
d'étapes) de pages pourvues de nombreux liens.
Cependant le postulat 8 indique qu'une page est d'autant plus qualifiée pour
déterminer la qualité d'une page vers laquelle elle pointe qu'elle contient
peu de liens. En d'autres termes choisir des pages contenant peu de liens
augmente la pertinence du principe de propagation de la confiance, et rend
donc acceptable un plus grand nombre d'étapes de propagation.
Il en résulte 2 raisonnements empiriques opposés :
Finalement bien malin celui qui pourra dire sur la seule foi de l'intuition, quelle est la meilleure stratégie. Le sujet mériterait bien quelques expérimentations complémentaires.
Nous avons indiqué plus haut le bien que nous pensions de l'article relativement à son pragmatisme et à ses déductions faisant la part belle au bon sens et à l'expérimentation. Nous regrettons cependant le manque de formalisme mathématique. L'emploi d'outils plus rigoureux pourraient constituer un apport significatif pour :
Les auteurs semblaient en bonne direction cherchant à définir la confiance idéale et la confiance ordonnée à partir d'une distribution probabiliste sans pour autant aboutir. D'une part l'introduction d'une probabilité n'est suivie d'aucun effet puisque la suite du document emprunte la voie d'autres définitions parfaitement calculatoires et difficilement exploitables sur le plan mathématique. D'autre part la définition proposée n'a malheureusement aucune légitimité mathématique (pas d'univers probabilisable, absence d'expérience aléatoire et de règles ou hypothèses permettant d'en valoriser les résultats).
Pourtant le problème posé est bien dans la lignée des problématiques de probabilités conditionnelles, à savoir comme se déforme la connaissance (densités de probabilités) que l'on a d'un univers sachant certains paramètres (en l'occurrence, qualité des pages d'un échantillon, présence de liens entre pages ...).
D'autres idées pourraient s'envisager. Par exemple le graphe web et la confiance (TrustRank) peut être vu comme un réseau de neurone. Sans doute est-il possible d'employer des techniques relatives à ces réseaux pour "calculer et améliorer" la propagation de la confiance.
Dans un autre domaine, le clustering permet de définir des catégories dans un ensemble. Il semblerait intéressant d'étudier là aussi la déformation des clusters en fonction de la connaissance d'informations sur un échantillon. Certaines méthodes de clustering seraient même sans doute efficaces pour isoler directement tout ou partie du spam.
Google a récemment introduit des modifications dans son algorithme. Cette évolution porte pour les spécialistes le doux nom de Bourbon. L'effet Bourbon a commencé à se faire sentir en mai 2005. Des fluctuations notables ont été constatées sur le positionnement de nombreux sites avant une stabilisation courant juillet 2005.
La question que chacun peut se poser : Bourbon intègre-t-il une dose de TrustRank ?
Nous n'avons pas de réponse évidente à cette question mais nous avons fait quelques constats. Nous suivons particulièrement la population des sites d'agences web et autre agences de communication. Cette population a les caractéristiques suivantes :
Le spamdexing conduit parfois au blacklistage de sites de la population. Nous avons observé un échantillon (très limité) de sites blacklistés auparavant bien positionnés qui sont sortis de la partie visible du classement (premières pages des résultats). Sur notre échantillon, nous avons constaté 3 étapes :
Notons que ce constat est fait sur des sites ne semblant pas affectés par des modifications significatives de l'ensemble des backlinks (vérification faite sur d'autres moteurs que Google).
Par ailleurs la population non blacklistée n'a pas subie de modifications profondes de son classement sur quelques requêtes types. Les sites de clients des sites blacklistés ne semblent pas globalement avoir évoluer non plus.
Conclusion :
Certains éléments sont cohérents avec la philosophie TrustRank. En
particulier le fait que le bannissement ne correspond plus à une exclusion
pure et simple mais plutôt à un déclassement, c'est à dire une notoriété
inférieure au PageRank initial. En revanche Bourbon n'a pas particulièrement
touché les sites non blacklistés et en particulier ceux utilisant massivement
le spamdexing. Pourtant d'après les résultats de l'article auquel nous nous
intéressons des sites de PageRank 5 et 6 pourrait cependant commencer à être
touchés. D'un autre coté les sites de notre population ne présentent pas
réellement la typologie idéale pour satisfaire au principe d'isolation qui
caractérise plutôt des contenus vraiment pauvres. Il est donc difficile de
trancher entre une mise en place partielle de la notion de TrustRank ou une
mise en place plus complète mais ne touchant pas finalement la population
observée.
A la lecture des forums spécialisés on s'aperçoit que beaucoup de sites très
secoués pendant Bourbon ont fini par retrouver leur place d'avant Bourbon.
Nous faisons donc plutôt l'hypothèse empirique d'une mise en place timide et
partielle du TrustRank sur le plan des principes, mais plus profonde sur le
plan technique. Google pourrait avoir revu la structure de ses bases, de ses
workflows sur les environnements de production en vue d'accueillir dans le
futur des données supplémentaires et le TrustRank. Ces mises à jour
techniques auraient induit les perturbations observées sans aboutir
aujourd'hui à un changement du classement. Dans ce cas le meilleur reste à
venir...
Agence de communication Ultra-Fluide : 01 47 70 23 32 - contact at ultra-fluide.com - 44 rue Richer 75009 Paris.