Envoyer un mail à l’auteur
xavier at ultra-fluide.com
Publié en mars 2004 par Zoltan Gyöngyi (Stanford University), Hector Garcia-Molina (Stanford
University) et Jan Pedersen (Yahoo! Inc.), disponible dans sa
version
originale sur le site web de l'Université de
Stanford.
Traduit en français par Xavier Boully en juillet 2005.
Le spamdexing fait appel à différentes techniques pour obtenir une amélioration artificielle du positionnement de pages web dans les résultats des moteurs de recherche. Bien que l'intelligence humaine ait la possibilité d'identifier le spam, l'évaluation manuelle qui en résulterait est trop coûteuse pour être appliquée à un grand nombre de pages. Nous proposons donc des techniques semi-automatiques visant à séparer les pages légitimes du spam. Nous sélectionnons d'abord un petit ensemble de pages sources pour être évaluées par un expert. Une fois établie la qualification manuelle des pages de l'échantillon source, nous utilisons la structure de liens du web pour déterminer quelles sont les autres pages ayant de bonnes changes d'être elles aussi légitimes. Au court de cet article nous verrons des moyens d'obtenir la sélection de pages sources, puis de remonter vers les pages légitimes. Nous présentons les résultats d'expériences conduites sur l'index web d'AltaVista, et évaluons la pertinence de ces techniques. Nos résultats montrent que nous pouvons efficacement filtrer le spam d'une fraction significative du web, en nous basant sur une sélection de pages sources rigoureuses de moins de 200 sites.
Le terme de spamdexing renvoie à des pages du web créées avec l'intention de tromper les moteurs de recherche.
Par exemple, un site web pornographique peut faire du spamdexing en ajoutant
dans sa page d'accueil des milliers de mots clés rendus invisibles aux
visiteurs humains par l'agencement des couleurs. Un moteur de recherche va
indexer ces mots clés et proposera cette page pornographique en résultat de
requêtes contenant certains de ces mots. Bien sûr ces mots clés additionnels ne sont pas
typiques d'un contenu pour adulte ce qui pourra attirer des internautes
intéressés par d'autres sujets sur cette page. Une autre technique de
spamdexing consiste en la création d'un grand nombre de pages fantômes,
toutes pointant sur une unique page cible. Le positionnement de la page cible
a de bonne chance de s'en trouver amélioré dans la mesure où de nombreux
moteurs de recherche prennent en compte le nombre de liens entrant pour le
classement des pages.
Comme pour le spam de nos messageries électroniques, déterminer si une page
ou un groupe de pages a recours au spamdexing est subjectif. Prenons par
exemple une grappe de sites web fortement liés les uns aux autres. Ces liens
peuvent très bien traduire des relations utiles entre les sites, ou au
contraire avoir été intentionnellement créés pour améliorer le positionnement
de leurs pages. Il est difficile en général de trancher entre les deux
scénarios.
Cependant comme pour le spam mail la plupart des personnes peuvent facilement
identifier les cas de spamdexing ostensibles. Nous serons tous d'accord pour
dire qu'une page dont une bonne proportion du texte est invisible aux
internautes et sans rapport avec le sujet principal est une page au contenu
trompeur. De la même façon si l'on trouve une page avec des milliers d'URLs
se référant à des hôtes comme :
buy-canon-rebel-300d-lens-case.camerasx.com,
buy-nikon-d100-d70-lens-case.camerasx.com,
...,
et que tous ces hôtes sont associés à la même adresse IP, on en conclura que
la page est créée pour tromper les moteurs de recherche. (Ce spam à l'URL est
lié au principe retenu par les moteurs qui valorisent particulièrement les
mots contenus dans les noms d'hôtes).
Ce n'est pas parce que les humains se mettront facilement d'accord sur les
situations flagrantes de spamdexing, que ce sera simple pour les ordinateurs
de déceler ces cas. Les sociétés qui exploitent les moteurs de recherche
emploient des salariés à visiter constamment le web à la recherche des
contrevenants pour écarter le spamdexing. Lorsqu'une page suspecte est ainsi
identifiée, le robot du moteur cesse de la visiter, et la page sort de
l'index. Ce processus est particulièrement lent et onéreux, mais il est
essentiel pour la crédibilité du moteur de recherche : sans recourir à la
suppression des pages incriminées, la qualité des résultats de recherche
serait significativement dégradée.
Nos travaux devraient apporter une aide aux experts chargés de détecter le
spamdexing. En particulier nous voulons identifier les pages ou les sites qui
constituent du spam selon toute vraisemblance, et celles qui probablement
n'en sont pas. Les méthodes présentées peuvent être utilisées de deux façons
: (1) au sein d'un processus en amont, pour suggérer les pages devant être
examinées en détail par un expert, (2) en tant que dispositif anti-biais à
introduire lors du classement de résultats de recherche permettant de
tempérer les surclassements induits par le spamdexing.
L'identification du spamdexing par l'algorithmie pure étant difficile, notre
système ne repose partiellement sur une intervention humaine. Comme nous le
verrons, l'algorithme principal nécessite une assistance humaine.
L'algorithme commence par sélectionner un petit échantillon de pages dont le
statut au regard du spamdexing doit être fixé. Un expert examine cet
échantillon pour indiquer à l'algorithme lesquelles relèvent du spamdexing
(mauvaises pages), et celles qui n'en sont pas (bonnes
pages). Puis l'algorithme identifie les autres pages qui sont probablement de
bonnes pages du fait de leurs relations avec les bonnes pages de
l'échantillon. En résumé, les apports de cet article sont les suivants :
Agence de communication Ultra-Fluide : 01 47 70 23 32 - contact at ultra-fluide.com - 44 rue Richer 75009 Paris.