Envoyer un mail à l’auteur
xavier at ultra-fluide.com
Notre travail s'appuie sur les recherches faites sur le PageRank. L'idée de combattre le spam à l'aide du PageRank avec biais a été introduite par [12]. L'utilisation d'une composante statique a été étudiée dans [6] dans le contexte d'un PageRank sensible aux thématiques. Des analyses récentes sur le PageRank biaisé sont fournies par [2, 11].
La problématique de la confiance a été abordée dans un contexte lié aux systèmes peer-to-peer. Par exemple [9] présente un algorithme similaire au PageRank pour calculer la réputation et la fiabilité d'un noeud au sein d'un réseau peer-to-peer.
Les communautés établies autour du datamining et de l'apprentissage des machines ont également exploré le sujet de la détection du spam par mail ou sur le web (voir [13] par exemple). Cependant cette recherche est orientée vers l'analyse de documents individuels. L'analyse porte typiquement sur l'examen de signes significatifs représentatifs des techniques de spam en utilisant des statistiques forgées à partir d'exemples.
A mesure que le web voit ses paramètres de taille et de valeur grandir, le rôle des moteurs de recherche s'accroît pour devenir stratégique, permettant aux utilisateurs de trouver l'information intéressante. Pourtant les moteurs actuels sont sérieusement menacés par le spamdexing qui tente de bouleverser les résultats des services de recherche non biaisés. Les moteurs de recherche combattent actuellement le spam avec différentes méthodes propriétaires. Nous croyons que notre travail est la première tentative de formalisation du problème et le premier à introduire une solution complète pour assister la détection du spamdexing. Les résultats expérimentaux montrent que nous pouvons identifier une part significative de pages de forte réputation. Utilisé par un moteur de recherche, le TrustRank peut s'appliquer soit pour filtrer l'index, soit combiné avec le PageRank ou d'autres métriques pour classer les résultats de recherche.
Nous pensons qu'il reste encore bon nombre d'expériences intéressantes à entreprendre. Par exemple, il serait souhaitable d'explorer plus en détail les interactions entre le fractionnement et l'atténuation de la confiance lors de sa propagation. Il y a par ailleurs de nombreuses façons d'améliorer la méthode. Par exemple, au lieu de sélectionner l'échantillon de départ en une étape, on pourrait imaginer un processus itératif : après l'évaluation de certaines pages par l'oracle, il est possible compte tenu du résultat de désigner celles qui doivent être évaluées ensuite. Des thèmes comme ceux-ci pourront constituer le challenge de la recherche future.
Nous souhaitons remercier David Cossock et Farzin Maghoul pour nous avoir inspirés au cours de plusieurs discussions ainsi que pour leurs précieux commentaires.
Agence de communication Ultra-Fluide : 01 47 70 23 32 - contact at ultra-fluide.com - 44 rue Richer 75009 Paris.