Envoyer un mail à l’auteur
xavier at ultra-fluide.com

Ressources

Nous avons rédigé quelques éléments de présentation du datamining. Ils représentent notre perception du domaine. Nous sommes tout disposés à recevoir votre point de vue : techno at ultra-fluide.com.

Datamining, définition

Ensemble des techniques et de méthodes du domaine des statistiques, des mathématiques et de l'informatique permettant l'extraction, à partir d'un important volume de données brutes, de connaissances originales auparavant inconnues. Il s'agit de "fouilles" visant à découvrir "de l'information cachée" que les données renferment et que l'on découvre à la recherche d'associations, de tendances, de relations ou de régularités.

Le datamining, une technique adaptée à note époque

Le datamining est une discipline en vogue. Ce n'est cependant pas une mode ni une coquetterie. L'appel croissant et varié au datamining tient selon nous aux facteurs suivants :

Exemples d'applications métiers

Comme le suggère la définition, le datamining est une spécialité transverse : elle regroupe un ensemble de théories et d'algorithmes ouverts à tout domaine métier susceptible de drainer une masse de données. La liste suivante illustre des applications courantes du datamining, mais elle reste loin de l'exhaustivité :

Description succincte d'un projet de datamining

Un projet d'analyse de données représente tout ou partie des 3 étapes :

La première étape consiste en la réalisation d'un système de collecte ou de fabrication de données lorsque celles-ci n'existent pas. Plus souvent il s'agit simplement d'élaborer quelques requêtes dans des bases de données, de concentrer et mettre en forme ces données.

La deuxième étape est celle qui met en jeu le coeur du datamining dans l'optique par exemple de déterminer des relations, de réaliser des prédictions, de faire émerger une ou plusieurs classifications...

Il reste enfin à exploiter ces découvertes par le développement de traitements informatiques qui automatisent la collecte de données en flux continu, qui appliquent les modèles déterminés à l'étape précédente et restituent les résultats opérationnels à un client informatique ou humain. Les traitements informatiques sont parfois chargés d'introduire une boucle réactive pour automatiser la mise à jour du modèle dans son évolution lente (évolution des catégories d'une classification, de paramètres d'un système prédictif...).

Ultra-Fluide couvre l'ensemble de ces étapes dans le cadre de travaux sur mesure. Ultra-Fluide assure également la formation soit pour amener des utilisateurs à maintenir un système opérationnel après sa mise en place, soit sur des questions théoriques soulevées par le datamining.
Ultra-Fluide ne souhaite pas en revanche prendre en charge le paramétrage de progiciels.

Quelques méthodes statistiques

Le champ théorique du datamining est riche, les techniques utilisées sont multiples, et les paramétrages possibles de ces techniques font apparaître une véritable explosion combinatoire. Contrairement à ce que certains éditeurs prétendent, il n'existe pas dans le cas général d'outil capable de guider le néophyte pour défricher la forêt des méthodologies, déjouer les pièges et conduire l'analyse en fonction du besoin et des données.
Ultra-Fluide utilise des logiciels open source qui implémentent les techniques up-to-date telles que notamment :

Difficultés du datamining

Les questions soumises au datamining sont souvent complexes, corrélativement d'ailleurs à la valeur ajoutée que l'on attend des réponses, elles nécessitent un oeil expérimenté. Les outils nécessitent également une bonne dose de connaissances théoriques et un peu de courage pour s'approprier leurs documentations. Le contraire ne pourrait que relever du miracle : comment imaginer détecter sans effort des informations cachées, généralement noyées dans du bruit, qui défient l'instinct, et dont l'exactitude ne se révèle que globalement ?

Le datamining offre cependant une apparence trompeuse. En effet, quelle que soit la méthode, quiquonque manipule des données obtiendra toujours un résultat. C'est encourageant, et cela semble facile. Mais au delà d'une large variété de réponses raisonnables existent un nombre encore plus important de réponses fantaisistes (inadéquation entre les données, les objectifs, la méthode et les divers paramètres). Ces mirages sont monnaie courante, ils consistent simplement à faire apparaître des choses qui n'existent pas au lieu de choses qui sont cachées. Il est donc nécessaire d'élaguer ces mauvaises réponses pour choisir en bout de course, parmi les résultats raisonnables, ceux qui correspondent le mieux aux objectifs.
Si l'on ne retenait qu'une seule recommandation, ce serait celle de ne jamais s'arrêter au premier résultat. Il faut calculer, recalculer, comparer, interpréter, affiner...

Il existe un autre conseil de bon sens pour éviter les mirages : se fonder sur des résultats robustes. Ce n'est pas une pirouette, c'est un vrai conseil. Un résultat est valable, donc robuste, s'il est applicable à l'ensemble des ensembles de données autorisés par la classe de problèmes que l'on souhaite résoudre. Autrement dit si l'on travaille sur 100 données et que l'on obtient avec une méthode un résultat, alors on vérifie que l'application de la même méthode sur 100 autres données collectées selon le même processus produit un autre résultat raisonnablement proche du précédent.
En fait on procède souvent d'une manière légèrement différente : on dispose de 100 données du début à la fin, mais on torture longtemps 60 données seulement. Lorsque que l'on s'approche d'une solution plaisante on l'applique sans réfléchir au 40 autres données, ou à l'ensemble des 100. On peut alors obtenir une première idée de la robustesse de la solution.


Agence de communication Ultra-Fluide : 01 47 70 23 32 - contact at ultra-fluide.com - 44 rue Richer 75009 Paris.