Envoyer un mail à l’auteur
xavier at ultra-fluide.com

Ressources

Combattre le spamdexing avec le TrustRank.

Publié en mars 2004 par Zoltan Gyöngyi (Stanford University), Hector Garcia-Molina (Stanford University) et Jan Pedersen (Yahoo! Inc.), disponible dans sa version originale sur le site web de l'Université de Stanford.
Traduit en français par Xavier Boully en juillet 2005.

Résumé

Le spamdexing fait appel à différentes techniques pour obtenir une amélioration artificielle du positionnement de pages web dans les résultats des moteurs de recherche. Bien que l'intelligence humaine ait la possibilité d'identifier le spam, l'évaluation manuelle qui en résulterait est trop coûteuse pour être appliquée à un grand nombre de pages. Nous proposons donc des techniques semi-automatiques visant à séparer les pages légitimes du spam. Nous sélectionnons d'abord un petit ensemble de pages sources pour être évaluées par un expert. Une fois établie la qualification manuelle des pages de l'échantillon source, nous utilisons la structure de liens du web pour déterminer quelles sont les autres pages ayant de bonnes changes d'être elles aussi légitimes. Au court de cet article nous verrons des moyens d'obtenir la sélection de pages sources, puis de remonter vers les pages légitimes. Nous présentons les résultats d'expériences conduites sur l'index web d'AltaVista, et évaluons la pertinence de ces techniques. Nos résultats montrent que nous pouvons efficacement filtrer le spam d'une fraction significative du web, en nous basant sur une sélection de pages sources rigoureuses de moins de 200 sites.

1 Introduction

Le terme de spamdexing renvoie à des pages du web créées avec l'intention de tromper les moteurs de recherche. Par exemple, un site web pornographique peut faire du spamdexing en ajoutant dans sa page d'accueil des milliers de mots clés rendus invisibles aux visiteurs humains par l'agencement des couleurs. Un moteur de recherche va indexer ces mots clés et proposera cette page pornographique en résultat de requêtes contenant certains de ces mots. Bien sûr ces mots clés additionnels ne sont pas typiques d'un contenu pour adulte ce qui pourra attirer des internautes intéressés par d'autres sujets sur cette page. Une autre technique de spamdexing consiste en la création d'un grand nombre de pages fantômes, toutes pointant sur une unique page cible. Le positionnement de la page cible a de bonne chance de s'en trouver amélioré dans la mesure où de nombreux moteurs de recherche prennent en compte le nombre de liens entrant pour le classement des pages.
Comme pour le spam de nos messageries électroniques, déterminer si une page ou un groupe de pages a recours au spamdexing est subjectif. Prenons par exemple une grappe de sites web fortement liés les uns aux autres. Ces liens peuvent très bien traduire des relations utiles entre les sites, ou au contraire avoir été intentionnellement créés pour améliorer le positionnement de leurs pages. Il est difficile en général de trancher entre les deux scénarios.
Cependant comme pour le spam mail la plupart des personnes peuvent facilement identifier les cas de spamdexing ostensibles. Nous serons tous d'accord pour dire qu'une page dont une bonne proportion du texte est invisible aux internautes et sans rapport avec le sujet principal est une page au contenu trompeur. De la même façon si l'on trouve une page avec des milliers d'URLs se référant à des hôtes comme :
buy-canon-rebel-300d-lens-case.camerasx.com,
buy-nikon-d100-d70-lens-case.camerasx.com,
...,

et que tous ces hôtes sont associés à la même adresse IP, on en conclura que la page est créée pour tromper les moteurs de recherche. (Ce spam à l'URL est lié au principe retenu par les moteurs qui valorisent particulièrement les mots contenus dans les noms d'hôtes).
Ce n'est pas parce que les humains se mettront facilement d'accord sur les situations flagrantes de spamdexing, que ce sera simple pour les ordinateurs de déceler ces cas. Les sociétés qui exploitent les moteurs de recherche emploient des salariés à visiter constamment le web à la recherche des contrevenants pour écarter le spamdexing. Lorsqu'une page suspecte est ainsi identifiée, le robot du moteur cesse de la visiter, et la page sort de l'index. Ce processus est particulièrement lent et onéreux, mais il est essentiel pour la crédibilité du moteur de recherche : sans recourir à la suppression des pages incriminées, la qualité des résultats de recherche serait significativement dégradée.
Nos travaux devraient apporter une aide aux experts chargés de détecter le spamdexing. En particulier nous voulons identifier les pages ou les sites qui constituent du spam selon toute vraisemblance, et celles qui probablement n'en sont pas. Les méthodes présentées peuvent être utilisées de deux façons : (1) au sein d'un processus en amont, pour suggérer les pages devant être examinées en détail par un expert, (2) en tant que dispositif anti-biais à introduire lors du classement de résultats de recherche permettant de tempérer les surclassements induits par le spamdexing.
L'identification du spamdexing par l'algorithmie pure étant difficile, notre système ne repose partiellement sur une intervention humaine. Comme nous le verrons, l'algorithme principal nécessite une assistance humaine. L'algorithme commence par sélectionner un petit échantillon de pages dont le statut au regard du spamdexing doit être fixé. Un expert examine cet échantillon pour indiquer à l'algorithme lesquelles relèvent du spamdexing (mauvaises pages), et celles qui n'en sont pas (bonnes pages). Puis l'algorithme identifie les autres pages qui sont probablement de bonnes pages du fait de leurs relations avec les bonnes pages de l'échantillon. En résumé, les apports de cet article sont les suivants :

  1. nous formalisons le problème du spamdexing et de sa détection par algorithme
  2. nous définissons des métriques pour caractériser l'efficacité des algorithmes de détection
  3. nous présentons des principes de sélection d'un échantillon remis à l'évaluation manuelle
  4. nous introduisons l'algorithme TrustRank pour déterminer la probabilité qu'une page soit bonne
  5. nous discutons les résultats d'un test approfondi basé sur 31 millions de sites web indexés par AltaVista et un examen manuel de 2000 sites web. Nous apportons des statistiques relatives à la classification des contenus web et utilisons ces données pour évaluer l'algorithme proposé

Agence de communication Ultra-Fluide : 01 47 70 23 32 - contact at ultra-fluide.com - 44 rue Richer 75009 Paris.