810 likes | 942 Views
Complexité et Classification. Richard Nock DSI-GRIMAAG Université Antilles-Guyane, Campus de Schoelcher, Schoelcher, Martinique, France rnock@martinique.univ-ag.fr http://www.martinique.univ-ag.fr/~rnock. Quelques aspects algorithmiques de problèmes de classification.
E N D
Complexité et Classification Richard Nock DSI-GRIMAAG Université Antilles-Guyane, Campus de Schoelcher, Schoelcher, Martinique, France rnock@martinique.univ-ag.fr http://www.martinique.univ-ag.fr/~rnock Quelques aspects algorithmiques de problèmes de classification Département Scientifique Interfacultaire Groupe de Recherche en Informatique et Mathématiques Appliquées des Antilles-Guyane
Background • Ingénieur Agronome (1993) • DEA Informatique (1993) • Doctorat Informatique (1998) directeur: O. Gascuel • Mcf UAG Guadeloupe (1998-2000) • Mcf UAG Martinique (2000-)
Thèmes de recherche actuels Algorithmes d’apprentissage/classification Théorie (Complexité, stats/probas) Analyse d’images
Thèmes de recherche actuels - Résultats d’inapproximabilité « appliqués » en ML/C NP-Complétude Concentration de v.a. + Bornes d’erreur sur algorithmes d’apprentissage
Résumé Apprentissage et classification Complexité algorithmique Application à l’apprentissage Conclusion
Apprentissage et classification Introduction
Apprendre ? • Apprendre = capacité pour une entité d’améliorer ses capacités de manière automatique, par l’expérience. • Valiant (1984): 2 contraintes:Algorithmique: apprendre rapideStatistique: apprendre fiable
Apprendre ?? • Qu’apprends-t’on d’un point de vue informatique ? • Détail des contraintes du modèle de Valiant ?
Apprentissage et classification Le modèle PAC de L. Valiant
y x Observations et Exemples Concept « cible » Domaine Un exemple <(x,y), > Exemples tirés selon D 2 classes
Grandes étapes y 1- Collecte des exemples 2- Construction d’une hypothèse 3- Qualité de l’hypothèse ? x
Evaluation y B Prob. Err.= ? A Problème ? C x
Evaluation y 1- Pas d’accès à Prob. Err. ! 2- Uniquement Freq. Err. 3- Comment « assurer » qualité ? 4- Et si distrib. quelconque ?? Freq. Err. =0 5- Et si distrib. inconnue ??? Problème ! x
Solution: modèle PAC I y 1- Requérir Prob. Err. limitée avec une forte probabilité 2- Sachant la distribution quelconque inconnue … mais fixe 3- Tirer suffisamment d’exemples x
Modèle PAC II 1- A partir de là, comment trouver la meilleure formule ? Indép. du nb d’exemples 2- Il suffirait de disposer d’un algorithme énumérant toutes les formules possibles Problème ? 3- Enumération souvent exponentielle donc inutilisable Problème !
Solution 1- Exiger que l’algorithme fonctionne rapidement 2- Exiger un algorithme polynomial Rectangles en 2D: facile
Modèle de Valiant (1984) • Une classe de représentation de concepts C est apprenable au sens du modèle PAC ssi il existe un algorithme A vérifiant les deux conditions suivantes:
Modèle de Valiant • cC, A a accès à un Oracle rétribuant des exemples selon c et une distribution D inconnue, quelconque, mais fixée, et, étant donnés deux paramètres 0<e,d<1, renvoie une hypothèse h de C telle que
Modèle de Valiant • A fonctionne en temps polynomial Taille du concept cible # Variables de description Confiance Fiabilité
Prouver que C n’est pas PAC • Trop d’exemples nécessairespour satisfaire à la première condition • Temps de calcul rhédibitoirepour satisfaire à la deuxièmecondition
Complexité algorithmique Introduction
Les problèmes de décision Problème de décision: Instance Ensemble d’exemples Question Formule de C consistante ? ? Oui
Les problèmes de décision Problème de décision: Instance Ensemble d’exemples Question Formule de C consistante ? ? Non
Classes de complexité P Classe des problèmes de décision admettant un algorithme de résolution de temps polynomial en la taille de l’instance NP Classe des problèmes de décision admettant un algorithme non déterministe de résolution de temps polynomial en la taille de l’instance ?
Hypothèse(s) fondamentale(s) P NP P =P +temps P=
Hypothèse(s) fondamentale(s) QP NP QP= P QP QP …et bien sur
Hypothèse(s) fondamentale(s) NP …pour un P QP …et bien sur
Hypothèse(s) fondamentale(s) NP ??? …Qu’y a-t’il ici ? P QP …et bien sur
Problèmes « difficiles » A B poly instances NP-Complets Oui Oui Hyp. de comp. Tous difficiles ! solutions Un est Poly Tous sont Poly
Complexité algorithmique Décision et optimisation
Problème d ’optimisation Définition: Instance Ensemble d’exemples LS Ens. Solutions Formules de C consistantes avec LS Fonction de Coût Taille de la formule Objectif Trouver une sol. min. (max.) la fonct. de coût Décision vs Optimisation: La plupart des problèmes de décision admettent (au moins) une version d ’optimisation « naturelle »
Un problème de minimisation est approximable à moins de ssi il existe un algorithme poly permettant, pour une instance de coût de trouver une solution de coût au plus Problème d ’optimisation Le coût d ’une instance est le coût optimal d ’une solution pour cette instance Problèmes d ’optimisation difficiles Existence ? Procédure ?
Difficulté d ’approximation I Coût des instances Prob. déc. NP-Complet Prob. Minimisation Non « gap » Oui Réduction
Difficulté d ’approximation II Hypothèse: le problème de minimisation admet un algorithme d’approximation de ratio Comment arriver à une contradiction ?
Difficulté d ’approximation II Etapes A B C Non Non On résoud le problème NP-Complet !! Algorithme hypothétique Oui d ’approximation Oui Instances Solutions
Difficulté d ’approximation III Si il existe une réduction de temps polynomial depuis un prob. NP-Complet vers un problème de minimisation, t.q. Les instances « Oui » sont transformées en inst. de coût Les instances « Non » sont transformées en inst. de coût Alors, sous l ’hypothèse le prob. de minimisation n ’est pas approximable à moins de
Remplacement de P par QP Si on remplace l ’exigence polynomiale par une exigence Quasi-Polynomiale Définition de l ’approximabilité Temps de la réduction Temps de l ’algorithme d ’approximation hypothétique Alors, sous l ’hypothèse le prob. de minimisation n ’est pas approximable à moins de
Pourquoi remplacer P par QP ? Avantage direct: Les ratios d ’inapproximabilité peuvent être bcp + grands Inconvénient: Hypothèse bcp plus forte, et donc « moins » réaliste devient Avantage indirect: On peut aussi remplacer par …et (espérer) des ratios encore + grands !
Application à l ’apprentissage Réductions « traditionnelles »
Preuves directes • On part d’un problème difficile (NP-Complet) traditionnel • On construit une instance difficile d ’un problème de classification, formulé comme un problème de décision, ou d ’optimisation
Exemple • Kearns, Li, Pitt, Valiant (STOC ’87++) • Problèmes: Consistance (DNF): Instance Ensemble d’exemples, entier k>0 Question k-term-DNF consistante ? Optimisation (DNF): Instance Ensemble d’exemples Ens. Solutions DNF consistantes Fonction de Coût Nb de monomes de la DNF
(k-term-)DNF Un monome (Booléen): conjonction de littéraux: Une DNF: disjonction de monomes: Une k-term-DNF: disjonction d ’au plus k monomes 2 classes: exemples positifs et négatifs (10110110,1) (0101010,0)
Représentation du problème LS 2-term-DNF cons. ?? « OUI »
La réduction Instance G=(X,E), entier k>0 Instance Ech. d’ex., k>0 Question k-coloration de G ? Question k-term-DNF ? k=3 « Oui » « Oui »
La réduction Propriété: Le nombre minimal de couleurs = taille minimale de la DNF consistante
Résultat d’inapproximabilité Colorabilité minimale SAT Feige, Kilian ’96 Non « gap » Oui Réduction Nombre de couleurs
Théorème En utilisant Kearns & al. ’87 + Feige & Kilian ’96, on obtient: Théorème: La DNF minimale consistante pas approximable à moins de Renvoie Oui, Non, ? (Pr(?)=cst<1) Problème ?
Commentaires Sachant que la colorabilité est (trivialement) approximable à un ratio On ne peut donc pas obtenir de ratio d ’inapproximabilité pour la DNF consistante minimale De plus, on n ’obtient rien d ’intéressant en replaçant l ’hypothèse de complexité par une hypothèse plus forte
Application à l ’apprentissage Réductions « self-improving »
Notre Solution • A) Faire des réductions directement « à l’intérieur » du problème d’apprentissage. d fois Réduction ordinaire A B B B B Problèmes