240 likes | 424 Views
Classification thématique de courriels. 5 juin 2004. Méthode hybride combinant apprentissage supervisé, semi-supervisé et non supervisé. Kessler Rémy, Juan Manuel Torres-Moreno et Marc El-Bèze. Plan. Problématique Méthode Pré-traitement Apprentissage non supervisé: k-means/k-means flou
E N D
Classification thématique de courriels 5 juin 2004 Méthode hybride combinant apprentissage supervisé, semi-supervisé et non supervisé Kessler Rémy, Juan Manuel Torres-Moreno et Marc El-Bèze Kessler Rémy
Plan • Problématique • Méthode • Pré-traitement • Apprentissage • non supervisé: k-means/k-means flou • supervisé: Machine à support vectoriel • Méthode Hybride • Résultats • Conclusion et perspectives Kessler Rémy
Problématique • Les nouvelles formes de communication sont un défi considérable pour leur traitement.. • Gérer ces flux d’information devient un enjeu majeur pour les entreprises. • Cela implique de : • Classer les courriels en fonction de leur thématique • Automatiser les réponses • Corpus construit à partir de Newsletter et de listes de diffusion Kessler Rémy
Pré-traitement Kessler Rémy
Schéma du pré-traitement Kessler Rémy
Nettoyage du corpus • Séparation de l’en-tête, du corps et des pièces jointes • Génération d’un fichier XML • Statistique du Corpus Kessler Rémy
Suppression des micro-publicités • Ajoutés au bas des courriels par les fournisseurs en service de messagerie éléctronique • La micro-publicité • aucune informations • ajoute du bruit _____________________________________________________________________ Envie de discuter en "live" avec vos amis ? Télécharger MSN Messenger http://www.ifrance.com/_reloc/m la 1ère messagerie instantanée de France Kessler Rémy
Traduction du phonécrit • Phonécrit: Toute forme d’écriture basée sur une écriture phonétique sans contrainte ou avec des règles établies par l’usage • « Traduction » en langue française • :-) → sourire • A+, a+ → à plus tard • @2m1 → à demain • Etc. → Et cetera • Premier traitement • Ambiguïté dans certain cas: • 7 → Cet(te) ou Sète, L → Elle Kessler Rémy
Filtrage & Lemmatisation • Mots composés deviennent des termes uniques • pomme de terre → pomme_de_terre • pique nique, pique niquons, pique niques → pique_niquer • Anti-dictionnaire • Suppression des verbes et des mots fonctionnels • Suppression des expressions courantes • Lemmatisation à partir d’un dictionnaire • chante,chantaient, chanté, chanteront et éventuellement chanteur sont ramenés a chanter Réduire le nombre de dimensions de la matrice Kessler Rémy
Représentation vectorielle 1 2 3 .... i N-1 N Termes Mij = Fréquence du terme i dans le courriel j 3 1 0 0 0 1 2 3 .... 1 0 1 0 0 0 2 0 0 0 4 1 0 j 1 2 0 1 0 0 Courriels P 0 0 0 0 1 0 Matrice de fréquences Termes-Courriels Kessler Rémy
Réduction de la taille de la matrice 1 2 3 .... i N-1 N Termes 3 1 0 0 0 1 2 3 .... 1 0 1 0 0 0 2 0 0 0 4 1 0 j 1 2 0 1 0 0 P Courriels 0 0 0 0 1 0 Matrice réduite Kessler Rémy
Observation • Répartition des termes en fonction des courriels • Découpage des classes par les densités • Fortes densités des nouveaux termes dès le début d’une nouvelle classe Kessler Rémy
Apprentissage Kessler Rémy
K-Means /K-Means flou • Choix de centroïdes (centre de la classe) puis calcul de la distance entre chaque vecteur (courriel) et ces centroïdes • Intérêt du flou : • Le courriel X est à 0.9 pour le destinataire A et à 0.7 pour le destinataire B On le dirige vers A avec B en copie Kessler Rémy
K-Means /K-Means flou (2) • Problème de l’initialisation • Initialisation aléatoire • Minimaux locaux • Initialisation semi-supervisé • Une faible partie des exemples pour mieux placer les centroïdes Kessler Rémy
Machines à support vectoriel • Proposé par Vapnik, celles ci reposent sur : • Projection des données dans un espace de grande dimension à l’aide d’une fonction noyau • Classifieur permettant de maximiser les distances entre les classes et donc de trouver les hyperplans optimaux Kessler Rémy
Méthode hybride • Combinaison des 2 méthodes • Apprentissage non supervisé par K-means/ K-means flou • Apprentissage supervisé par Machines à support Vectoriel à partir des résultats obtenus par K-means • Généralisation sur des ensembles de test indépendant Kessler Rémy
Chaîne de traitement Kessler Rémy
Résultats Kessler Rémy
Résultats • Méthode Hybride • Corpus de tests de P={200,500,1000} • K classes parmi : {football, jeux de rôles, cinéma, ornithologie} • Écart-Type sur des séries de 10 Tests avec tirage aléatoire Kessler Rémy
Résultats(2) • Pas de détérioration des performances en augmentant la taille du corpus • La courbe hybride est très proche de celle des SVM Kessler Rémy
Conclusion et perspectives • particularité de langage phonécrit • Euristique de pré-traitement • Premiers résultats de la méthode hybride intéressants • Améliorer les performance des SVM • Combinaison de classifieurs (SVM, Bayes, LVQ, …) • Augmenter taille et du nombre de classes des corpus Kessler Rémy
Merci pour votre attention Kessler Rémy