1 / 72

Vers un nouvel empirisme: l’apprentissage automatique

Vers un nouvel empirisme: l’apprentissage automatique. John Goldsmith Université de Chicago Projet MoDyCo / CNRS. Remarques générales sur une perspective empiriste, et sur ses implications vis-à-vis la linguistique.

sun
Download Presentation

Vers un nouvel empirisme: l’apprentissage automatique

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Vers un nouvel empirisme:l’apprentissage automatique John Goldsmith Université de Chicago Projet MoDyCo / CNRS

  2. Remarques générales sur une perspective empiriste, et sur ses implications vis-à-vis la linguistique. • Remarques un peu trop formelles et mathématiques sur les structures probabilistes. • L’apprentissage automatique de la structure morphologique, implémenté dans un logiciel: Linguistica, qui illustre cette perspective.

  3. Le message central de Chomsky • L’apprentissage est difficile à expliquer. • La présentation des données n’amène pas automatiquement à une généralisation. • Le problème de l’induction en philosophie et sa pertinence en linguistique : Comment établir une généralisation dans la portée est non-bornée, étant donné un échantillon fini d’observations.

  4. Une conclusion possible? • Rechercher ce qui n’est pas appris dans le langage. • Ce qui n’est pas appris sera universel. • Valoriser la recherche du non-appris.

  5. Non-appris Appris

  6. Non-appris Non-appris Appris Appris

  7. Comment déterminer devant quel scénario nous nous trouvons? • Considérons une question dont la réponse doit être apprise: • Le vocabulaire d’une langue, ou • La structure morphologique de ce vocabulaire.

  8. Quels méthodes faut-il pour apprendre l’appris?

  9. Deux facteurs de l’apprentissage dans un domaine • La simplicité du système g appris • La mesure dans laquelle g explique les données D. • Ces deux facteurs jouaient un role important dans la grammaire générative de LSLT (Chomsky 1975 [1955])

  10. La métrique de simplicité I think the right approach to the fundamental theoretical issues is the one attempted [in LSLT]: to make precise a certain format and schematism for grammars, and to provide an evaluation procedure (or simplicity measure) that leads to the choice of a particular system, a particular grammar that is of the required form, namely, the optimal, most highly valued system of the required form that is compatible with the presented data. Then what the “language learner” comes to know is that most highly valued system; it is that system that underlies the actual use of language by the person who has gained his knowledge.

  11. Chomsky Language and Mind •  A third task is that of determining just what it means for a hypothesis about the generative grammar of a language to be “consistent” with the data of sense. Notice that it is a great oversimplification to suppose that a child must discover a generative grammar that accounts for all the linguistic data that has been presented to him and that “projects” such data to an infinite range of potential sound-meaning relations….

  12. Chomsky Language and Mind • The task, then, is to study what we might think of as the problem of “confirmation”—in this context, the problem of what relation must hold between a potential grammar and a set of data for this grammar to be confirmed as the actual theory of the language in question.

  13. Trouver la grammaire g dont sa complexité et sa confirmation par les données D sont maximales. Sous 2 conditions: g assigne à chaque représentation engendrée une valeur p(g) et nous assignons une valeur a chaque grammaire g alors: g est la grammaire la plus probable, étant donné D. Equivalence

  14. Une citation de Syntactic Structures,Noam Chomsky1957 The strongest requirement that could be placed on the relation between a theory of linguistic structure and particular grammars is that the theory must provide a practical and mechanical method for actually constructing the grammar, given a corpus of utterances. Let us say that such a theory provides us with a discovery procedure.

  15. grammar corpus

  16. A weaker requirement would be that the theory must provide a practical and mechanical method for determining whether or not a grammar proposed for a given corpus is, in fact, the best grammar of the language from which the corpus is drawn (a decision procedure).

  17. yes/no corpus grammar

  18. An even weaker requirement would be that given a corpus and given two proposed grammars G1 and G2, the theory must tell us which is the better grammar....an evaluation procedure.

  19. G1 "G1" or "G2" G2 corpus

  20. The point of view adopted here is that it is unreasonable to demand of linguistic theory that it provide anything more than a practical evaluation procedure for grammars. That is, we adopt the weakest of the three positions described above...

  21. I think that it is very questionable that this goal is attainable in any interesting way, and I suspect that any attempt to meet it will lead into a maze of more and more elaborate and complex analytic procedures that will fail to provide answers for many important questions about the nature of linguistic structure. I believe that by lowering our sights….

  22. lowering oursightsto the more modest goal of developing an evaluation procedure for grammars we can focus attention more clearly on truly crucial problems...The correctness of this judgment can only be determined by the actual development and comparison of theories of these various sorts.

  23. Notice, however, that the weakest of these three requirements is still strong enough to guarantee significance for a theory that meets it. There are few areas of science in which one would seriously consider the possibility of developing a general, practical, mechanical method for choosing among several theories, each compatible with the available data. Noam Chomsky, Syntactic Structures 1957

  24. 2. L’apprentissage automatique de la grammaire • Plan général • Un corpus C • Une famille de grammaires possibles G • Une façon de mesurer la relation entre un corpus C et une grammaire particulière g: • Complexité de g (indépendamment du corpus) • La complexité du corpus selon grammaire g. • Notre but est de minimiser la somme de ces deux éléments. (MDL = “Longueur de déscription minimale”). Nous y revenons!

  25. Plus contrètement: • Une heuristique initiale (amorce) qui prend un corpus comme input et en crée une grammaire préliminaire (sans doute trop simple). • Une série de heuristiques de modifie la grammaire. • Une facon d’appeler la mesure du slide précédent: est-ce que la modification est pour le meilleur? (MDL)

  26. Corpus Nous choississons un corpus naturel d’une langue naturelle (5,000- 1,000,000 mots)

  27. Corpus Nous introduisons le corpus à la heuristique “bootstrap” Heuristique “amorce”

  28. Corpus Heuristique “amorce” Cela nous donne une morphologie, qui n’est pas forcément très bonne. morphologie

  29. Corpus Heuristique “amorce” Nous l’envoyons aux heuristiques incrémentielles. morphologie Heuristiques incrémentieles

  30. Corpus Sortie: une morphologie modifiée Heuristique “amorce” morphologie morphologie modifiée Heuristiques incrémentieles

  31. Corpus Est-ce que la modification est un amélioration? Notre expression MDL donne la réponse. Heuristique “amorce” morphologie morphologie modifiée Heuristiques incrémentieles

  32. Corpus S’il s’agit d’une amélioration,elle remplace la vieille morphologie. Heuristique “amorce” morphologie modifiée morphologie Poubelle

  33. Corpus Send it back to the incremental heuristics again... Heuristique “amorce” morphologie modifiée Heuristiques incrémentieles

  34. Continuez jusqu’au moment où il n’existe plus d’améliorations à tester. morphologie morphologie modifiée Heuristiques incrémentieles

  35. Reprise • Nous avons vu la méthode algorithmique. • Pour chaque domaine linguistique, il nous faut préciser: • La heuristique “amorce”; • Les heuristiques incrémentielles; • Le modéle MDL (Longueur de déscription minimale).

  36. 1. L’heuristique amorce Elle se fait en deux temps: • Elle trouve des coupures potentielles en utilisant une suggestion de Zellig Harris. • Elle acceptent une coupure potentielle si et seulement si elle fait partie d’une signature propre.

  37. Zellig Harris:successor frequency Successor frequency of jum: 2 jum p (jump, jumping, jumps, jumped, jumpy) b (jumble) Successor frequency of jump:5 e (jumped) i (jumping) jump s (jumps) y (jumpy) # (jump)

  38. Zellig Harris:Successor Frequency coupure prévue 19 9 6 3 1 3 1 1 a c c e p t i n g able ing lerate (“accelerate”) nted (“accented”) ident (“accident”) laim (“acclaim”) omodate (“accomodate”) reditated (“accredited”) used (“accused”)

  39. Zellig Harris: Successor frequency d dead f deaf l deal n dean t death prédictions fausses a 18 a e 5 d b debate, debuting c decade, december, decide d dedicate, deduce, deduct e deep f 9 i e defeat, defend, defer i deficit, deficiency r defraud 3 bonnes prédictions o

  40. Zellig Harris:Successor frequencies 9 18 11 6 4 1 2 1 1 2 1 1 c o n s e r v a t i v e s incorrecte correcte incorrecte

  41. Problèmes • Si 2+ suffixes commencent par le même phoneme/lettre: is ais donn donna it ait NULL a Analyse basée sur successor frequency

  42. Amorce B: Signatures • Nous acceptons la dernière coupure dans chaque mot: • Racine (potentiel) + suffixe (potentiel) • Avec chaque racine (potentiel) nous associons l’ensemble de ses suffixes (potentiels):

  43. Signatures Toutes les racines qui possèdent le même ensemble de suffixes forment l’ensemble de racines dans une signature:

  44. Finite state automaton (FSA) jump NULL ed walk ing

  45. Signature propre Une signature propre contient au moins deux racines et au moins deux suffixes. Nous gardons (maintenant) seulement les signatures propres, et jetent les autres. (Certaines d’entres elles vont revenir plus tard.)

  46. Reprise Pour chaque domaine linguistique, il nous faut préciser: • La heuristique “amorce”; • Les heuristiques incrémentielles; • Le modéle MDL (Longueur de déscription minimale).

  47. Exemples • Bientôt --

  48. Reprise Pour chaque domaine linguistique, il nous faut préciser: • La heuristique “amorce”; • Les heuristiques incrémentielles; • Le modéle MDL (Longueur de déscription minimale).

  49. Modèle MDL La longueur de déscription se compose de deux termes: [La longueur de la grammaire, en bits] + [La quantité d’information dans le corpus qui n’est pas expliquée totalement par la grammaire, en bits] Ici, grammaire = morphologie

  50. [La longueur de la grammaire, en bits] + [La quantité d’information dans le corpus qui n’est pas expliquée totalement par la grammaire, en bits] L’idée centrale: une analyse extrait toujours des redondances. Par exemple…

More Related