1 / 23

Classification thématique de courriels

Classification thématique de courriels. 5 juin 2004. Méthode hybride combinant apprentissage supervisé, semi-supervisé et non supervisé. Kessler Rémy, Juan Manuel Torres-Moreno et Marc El-Bèze. Plan. Problématique Méthode Pré-traitement Apprentissage non supervisé: k-means/k-means flou

galeno
Download Presentation

Classification thématique de courriels

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Classification thématique de courriels 5 juin 2004 Méthode hybride combinant apprentissage supervisé, semi-supervisé et non supervisé Kessler Rémy, Juan Manuel Torres-Moreno et Marc El-Bèze Kessler Rémy

  2. Plan • Problématique • Méthode • Pré-traitement • Apprentissage • non supervisé: k-means/k-means flou • supervisé: Machine à support vectoriel • Méthode Hybride • Résultats • Conclusion et perspectives Kessler Rémy

  3. Problématique • Les nouvelles formes de communication sont un défi considérable pour leur traitement.. • Gérer ces flux d’information devient un enjeu majeur pour les entreprises. • Cela implique de : • Classer les courriels en fonction de leur thématique • Automatiser les réponses • Corpus construit à partir de Newsletter et de listes de diffusion Kessler Rémy

  4. Pré-traitement Kessler Rémy

  5. Schéma du pré-traitement Kessler Rémy

  6. Nettoyage du corpus • Séparation de l’en-tête, du corps et des pièces jointes • Génération d’un fichier XML • Statistique du Corpus Kessler Rémy

  7. Suppression des micro-publicités • Ajoutés au bas des courriels par les fournisseurs en service de messagerie éléctronique • La micro-publicité • aucune informations • ajoute du bruit _____________________________________________________________________ Envie de discuter en "live" avec vos amis ? Télécharger MSN Messenger http://www.ifrance.com/_reloc/m la 1ère messagerie instantanée de France Kessler Rémy

  8. Traduction du phonécrit • Phonécrit: Toute forme d’écriture basée sur une écriture phonétique sans contrainte ou avec des règles établies par l’usage • « Traduction » en langue française • :-) → sourire • A+, a+ → à plus tard • @2m1 → à demain • Etc. → Et cetera • Premier traitement • Ambiguïté dans certain cas: • 7 → Cet(te) ou Sète, L → Elle Kessler Rémy

  9. Filtrage & Lemmatisation • Mots composés deviennent des termes uniques • pomme de terre → pomme_de_terre • pique nique, pique niquons, pique niques → pique_niquer • Anti-dictionnaire • Suppression des verbes et des mots fonctionnels • Suppression des expressions courantes • Lemmatisation à partir d’un dictionnaire • chante,chantaient, chanté, chanteront et éventuellement chanteur sont ramenés a chanter Réduire le nombre de dimensions de la matrice Kessler Rémy

  10. Représentation vectorielle 1 2 3 .... i N-1 N Termes Mij = Fréquence du terme i dans le courriel j 3 1 0 0 0 1 2 3 .... 1 0 1 0 0 0 2 0 0 0 4 1 0 j 1 2 0 1 0 0 Courriels P 0 0 0 0 1 0 Matrice de fréquences Termes-Courriels Kessler Rémy

  11. Réduction de la taille de la matrice 1 2 3 .... i N-1 N Termes 3 1 0 0 0 1 2 3 .... 1 0 1 0 0 0 2 0 0 0 4 1 0 j 1 2 0 1 0 0 P Courriels 0 0 0 0 1 0 Matrice réduite Kessler Rémy

  12. Observation • Répartition des termes en fonction des courriels • Découpage des classes par les densités • Fortes densités des nouveaux termes dès le début d’une nouvelle classe Kessler Rémy

  13. Apprentissage Kessler Rémy

  14. K-Means /K-Means flou • Choix de centroïdes (centre de la classe) puis calcul de la distance entre chaque vecteur (courriel) et ces centroïdes • Intérêt du flou : • Le courriel X est à 0.9 pour le destinataire A et à 0.7 pour le destinataire B On le dirige vers A avec B en copie Kessler Rémy

  15. K-Means /K-Means flou (2) • Problème de l’initialisation • Initialisation aléatoire • Minimaux locaux • Initialisation semi-supervisé • Une faible partie des exemples pour mieux placer les centroïdes Kessler Rémy

  16. Machines à support vectoriel • Proposé par Vapnik, celles ci reposent sur : • Projection des données dans un espace de grande dimension à l’aide d’une fonction noyau • Classifieur permettant de maximiser les distances entre les classes et donc de trouver les hyperplans optimaux Kessler Rémy

  17. Méthode hybride • Combinaison des 2 méthodes • Apprentissage non supervisé par K-means/ K-means flou • Apprentissage supervisé par Machines à support Vectoriel à partir des résultats obtenus par K-means • Généralisation sur des ensembles de test indépendant Kessler Rémy

  18. Chaîne de traitement Kessler Rémy

  19. Résultats Kessler Rémy

  20. Résultats • Méthode Hybride • Corpus de tests de P={200,500,1000} • K classes parmi : {football, jeux de rôles, cinéma, ornithologie} • Écart-Type sur des séries de 10 Tests avec tirage aléatoire Kessler Rémy

  21. Résultats(2) • Pas de détérioration des performances en augmentant la taille du corpus • La courbe hybride est très proche de celle des SVM Kessler Rémy

  22. Conclusion et perspectives • particularité de langage phonécrit • Euristique de pré-traitement • Premiers résultats de la méthode hybride intéressants • Améliorer les performance des SVM • Combinaison de classifieurs (SVM, Bayes, LVQ, …) • Augmenter taille et du nombre de classes des corpus Kessler Rémy

  23. Merci pour votre attention Kessler Rémy

More Related