Apprentissage Artificiel Acquis, Enjeux, Limites

Apprentissage ArtificielAcquis, Enjeux, Limites Michèle Sebag Patrick Gallinari

Introduction

Apprentissage à partir d'exemples • Données • Famille de Machines ou d’Hypothèses • But : - extraire de l'information à partir des données, expliquer les données (information synthétique) - information pertinente pour la tâche étudiée et valide sur d'autres données du même type • CritèreC • Utilisation : Inférence sur de nouvelles données

Espace d’Hypothèses Famille de Machines Données Biais d’apprentissage Critère Algorithme

Grandes Familles • numériques • Espace de représentation (Données) : vecteurs, séquences dans des espaces réels – discrets • Méthodes : modèles statistiques - optimisation • Performances • Symbolique • Espace de représentation (Données) : attribut-valeur, clauses logiques, … • Méthodes : moudèles « logiques », optimisation – satisfaction de contraintes • Intelligibilité – pouvoir explicatif • Convergence • Principes communs fondamentaux • Méthodes communes, algorithmes proches

1990-2000 • Algorithmes : # Familles de modèles disponibles • Méthodes non linéaires efficaces IA – Statistiques • Réseaux de neurones, arbres, machines à vecteurs support, ... • Apprentissage relationnel • PLI, … • Motifs Fréquents – Règles d’association • Théorie • Généralisation • Difficulté de l’apprentissage : Transition de phase PLI • Nouvelles problématiques : • Data Mining • Très grandes quantités de données • Nouveaux domaines d’utilisation • Nouveaux usages de l’apprentissage

Algorithmes

Machines à noyaux • Machines à vecteurs support - en discrimination • Projeter -non linéairement- les données dans un espace de "très" grande taille H • Faire une séparation linéaire de bonne qualité dans cet espace • Raisonner dans H, mais résoudre le problème d'optimisation dans l'espace de départ (noyaux)

Recherche de motifs FréquentsAnalyse de grands ensembles de transactions • Cadie de supermarché • Analyse de transactions sur un ensemble d’items (e.g. 10 M transactions) • Motifs fréquents : occurrences de n-uples (i1,..,in), n = 1… • Méthode heuristique construit successivement les n-uples / support (i1,..,in) > s, support » P (i1,..,in) • Règles d’associations • Idem pour générer des règles R : i1,i2 -> i3 / confiance (R) > c, confiance (i1,i2 -> i3 ) » P (i3/i1,i2) • Algorithmes • a priori, Pincer search, Close, Charm … • Relations apprentissage symbolique, statistique

Programmation logique inductive • Apprentissage relationnel • De formules de la logique des prédicats • Espace d’hypothèse très riche • combinatoire !! • Apprentissage difficile • Exemple • Mutagene(m) <- atm(m,m1, carbone), atm(m,m2, carbone), lien(m1,m2) • Apprendre les clauses correctes aussi complètes que possible • Algorithmes • Foil, Progol, etc

Théorie

Généralisation • Généraliser = Ajuster la Complexité du modèle à l'information fournie par les données • Questions : • · Qu'est ce que la complexité d'un modèle ? • · Comment contrôler cette complexité ? • · Comment ajuster automatiquement cette complexité au problème tel qu'il est décrit par les données disponibles, i.e. comment apprendre cette complexité ?

Avec une probabilité (1 - h), pour tous les w possibles : • R(w) < Q(w) + e(VCdim(w), Q(w), h, |App|) Minimisation du risque empirique et généralisation • Risque R(w) = • Risque empirique Q(w) = • Principe d'induction MRE : la fonction qui minimise Q (w) est proche de l'optimum de R (w). • Ce principe est consistent si • 1. Q(w) converge uniformément vers R(w) sur {f(x,w) / w Î W} • 2. On connait le taux de convergence (en fonction de N) • Dimension de Vapnik Chervonenkis – Théorie des bornes • Le MRE n’est pas suffisant : apprendre la classe d’hypothèse en même temps que les paramètres des modèles.

PLI et Transition de phaseComplexité de l’apprentissage en PLI • Probabilité de couverture d’exemples tirés aléatoirement Nb littéraux Foil : carte de compétence + apprend . random Nb constantes

Applications

1990 – 200X • Emploi massif des méthodes de l’apprentissage dans différents domaines • Génomique, post-génomique • Accès à l’information : texte, multi-média • Robotique mobile – animats • Bases de données • Modélisation utilisateur • …

Biologie

Prédiction structure secondaire des protéinesRéseaux neurones + Alignement(Rost& Sanders, Riis & Krogh)

Séquençes protéines ou ADN e.g. Profil probabiliste d’une famille de protéines ou d’ADN Recherche dans des bases, de membres de la famille Recherche de gènes (prediction introns/ exons)

Essai 1 Essai n Gène 1 … Gène 104 Expression des gènes pour un essai. E.g. 1O4 gènes Puces à ADN Trouver les gènes d’une même famille Classifier des gènes parmi une famille connue Pb : ratio quantité info / taille espace

Information Textuelle

Classification filtrage • Toutes les techniques de classification • Dimension de l’espace O(104) • Naïve bayes, Réseaux de neurones, machines Vecteurs supports, etc. • Exemple : classification de pages web

P(qt/AG) Anglais Général a0 P(qt/d) Fin q Début q a1 Document d Recherche d’information • Requêtes ouvertes - BBN 98 : MMC • score : p(d Pertinent / q) • Point de vue requête : • observation : requête • Modèle de base • 1 modèle MMC par document • Tests TREC 6, TREC 7

Q=q D P(s1|d,q)d,s1Î{R,¬R, …} S1 S2 P1 P2 P3 P4 Recherche d’Information : Bayesian Networks for modeling XML documents and Content Only queries Binary nodes: R (relevant), ØR (not relevant) q : source of evidence RSV (node)= P(node = R|q)

Extraction d'information : Moteur de recherche Cora • Apprentissage • création de hiérarchies (Naïve Bayes) • Extraction de champs pertinents pour l'identification du papier (HMM discrets): • Auteurs, titres, journal, etc • A partir du header et des références.

Challenges • Grandes dimensions • Faible ratio information/dimension • Utilisation de différentes sources de connaissances • Jonction logique-stats • Réseaux bayesiens relationnels • Programmation logique stochastique • Grammaires stochastiques • Machines à apprentissage faciles à utiliser • Domaines d’application

Apprentissage Artificiel Acquis, Enjeux, Limites

Apprentissage Artificiel Acquis, Enjeux, Limites

Presentation Transcript

Apprentissage (II)

Introduction à l’ Apprentissage Artificiel

APPRENTISSAGE ARTIFICIEL (« Machine-Learning »)

Enjeux, rôles et limites de l'ergonomie cognitive pour la conception de systèmes

Apprentissage lecture

Le cœur-poumon artificiel

Limites

Auto-apprentissage

CYCLE ARTIFICIEL DE L’EAU

Introduction à l'Apprentissage Artificiel

Limites ?

Apprentissage coopératif

Inné-acquis

Les campus numériques : Enjeux et limites

Apprentissage Artificiel mise en perspective d’un demi-siècle d’évolution

Les acquis

Apprentissage

HORIZON ARTIFICIEL

Pais com limites, Filhos com limites

Apprentissage Authentique

Limites

Limites