Envoyer un mail à l’auteur
xavier at ultra-fluide.com

Ressources

Combattre le spamdexing avec le TrustRank.

7 Travaux apparentés

Notre travail s'appuie sur les recherches faites sur le PageRank. L'idée de combattre le spam à l'aide du PageRank avec biais a été introduite par [12]. L'utilisation d'une composante statique a été étudiée dans [6] dans le contexte d'un PageRank sensible aux thématiques. Des analyses récentes sur le PageRank biaisé sont fournies par [2, 11].

La problématique de la confiance a été abordée dans un contexte lié aux systèmes peer-to-peer. Par exemple [9] présente un algorithme similaire au PageRank pour calculer la réputation et la fiabilité d'un noeud au sein d'un réseau peer-to-peer.

Les communautés établies autour du datamining et de l'apprentissage des machines ont également exploré le sujet de la détection du spam par mail ou sur le web (voir [13] par exemple). Cependant cette recherche est orientée vers l'analyse de documents individuels. L'analyse porte typiquement sur l'examen de signes significatifs représentatifs des techniques de spam en utilisant des statistiques forgées à partir d'exemples.

8 Conclusions

A mesure que le web voit ses paramètres de taille et de valeur grandir, le rôle des moteurs de recherche s'accroît pour devenir stratégique, permettant aux utilisateurs de trouver l'information intéressante. Pourtant les moteurs actuels sont sérieusement menacés par le spamdexing qui tente de bouleverser les résultats des services de recherche non biaisés. Les moteurs de recherche combattent actuellement le spam avec différentes méthodes propriétaires. Nous croyons que notre travail est la première tentative de formalisation du problème et le premier à introduire une solution complète pour assister la détection du spamdexing. Les résultats expérimentaux montrent que nous pouvons identifier une part significative de pages de forte réputation. Utilisé par un moteur de recherche, le TrustRank peut s'appliquer soit pour filtrer l'index, soit combiné avec le PageRank ou d'autres métriques pour classer les résultats de recherche.

Nous pensons qu'il reste encore bon nombre d'expériences intéressantes à entreprendre. Par exemple, il serait souhaitable d'explorer plus en détail les interactions entre le fractionnement et l'atténuation de la confiance lors de sa propagation. Il y a par ailleurs de nombreuses façons d'améliorer la méthode. Par exemple, au lieu de sélectionner l'échantillon de départ en une étape, on pourrait imaginer un processus itératif : après l'évaluation de certaines pages par l'oracle, il est possible compte tenu du résultat de désigner celles qui doivent être évaluées ensuite. Des thèmes comme ceux-ci pourront constituer le challenge de la recherche future.

Remerciements

Nous souhaitons remercier David Cossock et Farzin Maghoul pour nous avoir inspirés au cours de plusieurs discussions ainsi que pour leurs précieux commentaires.

Références

[1]
R. Baeza-Yates and B. Ribeiro-Neto. Modern Information Retrieval. Addison-Wesley, 1999.
[2]
M. Bianchini, M. Gori, and F. Scarselli. Inside PageRank. Tech. rep., University of Siena, 2003.
[3]
G. Golub and C. Van Loan. Matrix Computations. The Johns Hopkins University Press, 1996.
[4]
Z. Gyöngyi and H. Garcia-Molina. Seed selection in TrustRank. Tech. rep., Stanford University, 2004.
[5]
T. Haveliwala. Efficient computation of PageRank. Tech. rep., Stanford University, 1999.
[6]
T. Haveliwala. Topic-sensitive PageRank. In Proceedings of the Eleventh International Conference on World Wide Web, 2002.
[7]
J. Hopcroft, R. Motwani, and J. Ullman. Introduction to Automata Theory, Languages, and Computation. Addison-Wesley, 2001.
[8]
S. Kamvar, T. Haveliwala, C. Manning, and G. Golub. Extrapolation methods for accelerating PageRank computations. In Proceedings of the Twelfth International Conference on World Wide Web, 2003.
[9]
S. Kamvar, M. Schlosser, and H. Garcia-Molina. The EigenTrust algorithm for reputation management in P2P networks. In Proceedings of the Twelfth International Conference on World Wide Web, 2003.
[10]
J. M. Kleinberg. Authoritative sources in a hyperlinked environment. Journal of the ACM, 46(5):604–632, 1999.
[11]
A. Langville and C. Meyer. Deeper inside PageRank. Tech. rep., North Carolina State University, 2003.
[12]
L. Page, S. Brin, R. Motwani, and T. Winograd. The PageRank citation ranking: Bringing order to the web. Tech. rep., Stanford University, 1998.
[13]
M. Sahami, S. Dumais, D. Heckerman, and E. Horvitz. A Bayesian approach to filtering junk email. In Learning for Text Categorization: Papers from the 1998 Workshop, 1998.

Agence de communication Ultra-Fluide : 01 47 70 23 32 - contact at ultra-fluide.com - 44 rue Richer 75009 Paris.