270 likes | 514 Views
Cours 4. É tiquettes lexicales. Catégories grammaticales. En anglais parts of speech (POS) Exemple de liste de catégories grammaticales nom, verbe, adjectif, adverbe, pronom, préposition, conjonction, déterminant En général, 10 à 15 catégories par langue Information sur les voisins du mot
E N D
Cours 4 Étiquettes lexicales
Catégories grammaticales En anglais parts of speech (POS) Exemple de liste de catégories grammaticales nom, verbe, adjectif, adverbe, pronom, préposition, conjonction, déterminant En général, 10 à 15 catégories par langue Information sur les voisins du mot Un pronom est souvent suivi d'un verbe : il intervient Un déterminant est souvent suivi d'un nom : les annonces Information sur la prononciation du mot Président peut être un nom : Le président de séance est en retard Président peut être un verbe : Ils président la séance à tour de rôle La prononciation est différente Les poules du couvent couvent
Catégories grammaticales Catégories grammaticales et suffixes vaccine est un verbe, on peut le regrouper avec vacciner féminine est un adjectif, on peut le regrouper avec féminin Application : la recherche d'informations Catégories grammaticales et pertinence Les noms sont souvent pertinents : balle, film, banque... Les prépositions le sont moins : selon, depuis, malgré... une croix en or et pierres précieuses... nom Or la version de la chanson... conjonction
Définition des catégories grammaticales Par les suffixes Deux mots qui prennent les mêmes suffixes ont des chances d'appartenir à la même catégorie vaccine, vaccinent, vacciné, vaccines/juge, jugent, jugé, juges verbes parent, parents, parente, parentes/ami, amis, amie, amies noms Par les contextes Deux mots qui acceptent les mêmes contextes ont des chances d'appartenir à la même catégorie Les représentants des pays concernés Les représentants des partis concernés noms Le TGV n'avait pas prévu de s'arrêter Le TGV n'avait pas cessé de s'arrêter verbes
Catégories ouvertes/fermées Catégories fermées Les éléments sont en nombre limité et fixe Mots grammaticaux (jouent un rôle important dans la grammaire), courts et fréquents Prépositions : à de par pour sans selon depuis malgré... Quelques dizaines On en crée rarement de nouvelles Catégories ouvertes Les éléments sont nombreux et de nouveaux sont créés continuellement Noms : futon MP3 pseudotéléspectateur triréacteur... Quelques dizaines de milliers Verbes : faxer surréglementer sursubventionner télécopier... Quelques milliers
Catégories ouvertes Noms ou substantifs Souvent précédés d'un déterminant des annonces Varient entre singulier et pluriel une annonce/des annonces Sous-catégories : noms communs bateau, chaise, relation, élève noms propres Paris, Laporte, Lip Verbes Varient en temps il annonce il annoncera personne il annonce nous annonçons Sous-catégories : auxiliaires pouvoir, devoir, avoir, être...
Catégories ouvertes Adjectifs Varient entre singulier et pluriel normal normaux masculin et féminin normaux normales Adverbes Généralement déplaçables dans une phrase Souvent, le bus s'arrête ici Le bus, souvent, s'arrête ici Le bus s'arrête souvent ici Le bus s'arrête ici souvent
Catégories fermées Prépositions à de par pour sans selon sur sous avec depuis malgré... Devant des noms ou des verbes : à des annonces pour annoncer Conjonctions et ou mais car... Entre deux séquences analogues : des programmes et des données que quand si comme lorsque... Devant une phrase incluse dans une autre : Je viendrai si je peux
Catégories fermées Déterminants un une des du le la les chaque deux trois quatre beaucoup mon... Devant des noms : des annonces beaucoup d'annonces Pronoms je tu il elle on nous vous moi toi lui ceci cela qui quoi que quelqu'un...
Étiquettes lexicales En anglais tags Je viendrai si je peux Je,PRO:1s viendrai,V:F1s si,CONJS je,PRO:1s peux,V:P1s Un objet qui identifie pour chaque token-mot - la catégorie grammaticale - éventuellement d'autres propriétés (temps, personne, nombre...) On peut aussi étiqueter les symboles de ponctuation
Étiquettes lexicales non structurées Je,PP viendrai,VBF si,IN je,PP peux,VBP Chaque étiquette représente une catégorie généralement un peu plus précise qu'une catégorie grammaticale Exemples PP pronom personnel VBF verbe conjugué au futur IN préposition ou conjonction de subordination Jeu d'étiquettes (tagset) Ensemble d'étiquettes Pour l'anglais, généralement 50 à 150 étiquettes
Étiquettes lexicales structurées Je,PRO:1s viendrai,V:F1s si,CONJS je,PRO:1s peux,V:P1s Chaque étiquette donne séparément - la catégorie grammaticale - d'autres propriétés éventuelles : - temps (présent, futur, passé...) - personne (1, 2, 3) - genre (masculin, féminin) - nombre (singulier, pluriel) etc. Traits flexionnels
Étiquettes lexicales structurées viendrai,V:F1s Paires attribut-valeur partOfSpeech = verb tense = future person = 1 number = singular attributs (features) valeurs (values)
PRP:detpreposition plus article (au,du,aux,des) PUNpunctuation PUN:citpunctuation citation SENTsentence tag SYMsymbol VER:condverb conditional VER:futuverb futur VER:impeverb imperative VER:impfverb imperfect VER:infiverb infinitive VER:pperverb past participle VER:ppreverb present participle VER:presverb present VER:simpverb simple past VER:subiverb subjunctive imperfect VER:subpverb subjunctive present ABRabreviation ADJadjective ADVadverb DET:ARTarticle DET:POSpossessive pronoun (ma, ta, ...) INTinterjection KONconjunction NAMproper name NOMnoun NUMnumeral PROpronoun PRO:DEMdemonstrative pronoun PRO:INDindefinite pronoun PRO:PERpersonal pronoun PRO:POSpossessive pronoun (mien, tien, ...) PRO:RELrelative pronoun PRPpreposition
Racinisation Pour la recherche d'informations, les variations de forme des mots ne sont pas très pertinentes et augmentent inutilement le nombre de dimensions de l'espace vectoriel Exemples vaccine, vaccinent, vacciné, vaccines... La racinisation (stemming) consiste à remplacer toutes ces variantes par vacciner ou même vaccine, vaccinent, vacciné, vaccines,vaccination, vaccinal... par vaccin On n'a pas besoin que ce soit un mot correct, il suffit que ce soit le même pour tous
Le raciniseur de Porter (1980) Substitution de suffixes ational --> ate relational --> relate ing --> motoring-->motor Plusieurs passes Passe 1 ies --> i capabilities --> capabiliti Passe 4 (m>0)biliti --> ble capabiliti --> capable m = nombre de séquences voyelle/consonne Exemples capabilities m = 5 capa m = 1
Step 1a SSES -> SS caresses -> caress IES -> I ponies -> poni ties -> ti SS -> SS caress -> caress S -> cats -> cat Step 1b (m>0) EED -> EE feed -> feed agreed -> agree (*v*) ED -> plastered -> plaster bled -> bled (*v*) ING -> motoring -> motor sing -> sing If the second or third of the rules in Step 1b is successful, the following is done: AT -> ATE conflat(ed) -> conflate BL -> BLE troubl(ed) -> trouble IZ -> IZE siz(ed) -> size (*d and not (*L or *S or *Z)) -> single letter hopp(ing) -> hop tann(ed) -> tan fall(ing) -> fall hiss(ing) -> hiss fizz(ed) -> fizz (m=1 and *o) -> E fail(ing) -> fail fil(ing) -> file The rule to map to a single letter causes the removal of one of the double letter pair. *v* contains a vowel (a, e, i, o, u, or y preceded by a consonant) *d ends with a double consonant, e.g. tt, ss *o ends with cvc, where the second c is not w, x or y
Step 1c (*v*) Y -> I happy -> happi sky -> sky Step 2 (m>0) ATIONAL -> ATE relational -> relate (m>0) TIONAL -> TION conditional -> condition rational -> rational (m>0) ENCI -> ENCE valenci -> valence (m>0) ANCI -> ANCE hesitanci -> hesitance (m>0) IZER -> IZE digitizer -> digitize (m>0) ABLI -> ABLE conformabli -> conformable (m>0) ALLI -> AL radicalli -> radical (m>0) ENTLI -> ENT differentli -> different (m>0) ELI -> E vileli - > vile (m>0) OUSLI -> OUS analogousli -> analogous (m>0) IZATION -> IZE vietnamization -> vietnamize (m>0) ATION -> ATE predication -> predicate (m>0) ATOR -> ATE operator -> operate (m>0) ALISM -> AL feudalism -> feudal (m>0) IVENESS -> IVE decisiveness -> decisive (m>0) FULNESS -> FUL hopefulness -> hopeful (m>0) OUSNESS -> OUS callousness -> callous (m>0) ALITI -> AL formaliti -> formal (m>0) IVITI -> IVE sensitiviti -> sensitive (m>0) BILITI -> BLE sensibiliti -> sensible
Step 3 (m>0) ICATE -> IC triplicate -> triplic (m>0) ATIVE -> formative -> form (m>0) ALIZE -> AL formalize -> formal (m>0) ICITI -> IC electriciti -> electric (m>0) ICAL -> IC electrical -> electric (m>0) FUL -> hopeful -> hope (m>0) NESS -> goodness -> good Step 4 (m>1) AL -> revival -> reviv (m>1) ANCE -> allowance -> allow (m>1) ENCE -> inference -> infer (m>1) ER -> airliner -> airlin (m>1) IC -> gyroscopic -> gyroscop (m>1) ABLE -> adjustable -> adjust (m>1) IBLE -> defensible -> defens (m>1) ANT -> irritant -> irrit (m>1) EMENT -> replacement -> replac (m>1) MENT -> adjustment -> adjust (m>1) ENT -> dependent -> depend (m>1 and (*S or *T)) ION -> adoption -> adopt (m>1) OU -> homologou -> homolog (m>1) ISM -> communism -> commun (m>1) ATE -> activate -> activ (m>1) ITI -> angulariti -> angular (m>1) OUS -> homologous -> homolog (m>1) IVE -> effective -> effect (m>1) IZE -> bowdlerize -> bowdler *S ends with s (and the same for other letters)
Step 5a (m>1) E -> probate -> probat rate -> rate (m=1 and not *o) E -> cease -> ceas Step 5b (m > 1 and *d and *L) -> single letter controll -> control roll -> roll
Le raciniseur de Porter (1980) Exemples d'imperfections Paires regroupées numerical numerous --> numer university universe --> univers Paires non regroupées noisy --> noisi noise --> nois sparsity --> sparsiti sparse --> spars
Étiquetage Attribution d'une étiquette lexicale à chaque token (mot ou symbole de ponctuation) Entrées : un texte tokenisé et un jeu d'étiquettes Sortie : le texte étiqueté Applications recherche d'informations reconnaissance de parole analyse syntaxique Ambiguïtés lexicales La poste livre le colis dans un délai d'une semaine verbe Le livre parvient à l'acheteur en une semaine nom
Étiquetage par règles écrites à la main Première étape On consulte un lexique qui donne toutes les étiquettes possibles des tokens-mots Il,PRO:3s est,V:P3s,A:ms,A:mp,A:fs,A:fp,ADV fin,A:ms,N:fs ./. Deuxième étape On applique des règles écrites à la main qui éliminent des étiquettes en fonction du contexte if (+1A/ADV/QUANT); (+2 SENT-LIM); (NOT -1 SVOC/A); then eliminate non-ADV tags else eliminate ADV tag
Étiquetage par règles apprises statistiquement (Brill, 1995) Première étape On consulte un lexique qui donne l'étiquette la plus fréquente pour chaque token race/NN (plus souvent nom que verbe) expected/VBN to/TO race/NN tomorrow/NN Deuxième étape On applique les règles apprises statistiquement qui changent des étiquettes en fonction du contexte Changer NN en VB après TO expected/VBN to/TO race/VB tomorrow/NN
Étiquetage par règles apprises statistiquement Deux algorithmes d'apprentissage Pour la première étape Le lexique donnant l'étiquette la plus fréquente pour chaque token est obtenu à partir d'un corpus étiqueté Pour la deuxième étape Entrées : le lexique de la première étape ; un corpus étiqueté ; des formes de règles Sorties : un ensemble de règles étiqueter le texte du corpus avec le lexique de la première étape tant que les résultats ne sont pas assez bons examiner toutes les règles sélectionner celle qui donne le meilleur étiquetage remplacer l'ancien étiquetage par celui obtenu
Étiquetage par règles apprises statistiquement Pour la deuxième étape Les règles peuvent être des arbres de décision Chaque noeud de l'arbre correspond à un critère (question), et chaque noeud fils à une réponse possible Chaque feuille correspond à une décision Exemple de jeu de critères : - étiquette de l'avant-dernier token avant - étiquette du dernier token avant - forme du token, s'il est fréquent - les 2 premières lettres du token - les 3 dernières lettres du token - particularités typographiques du token (majuscules, guillemets, tiret...) - forme du token après, s'il est fréquent - particularités typographiques du token après (majuscules, guillemets, tiret...)
Étiquetage par modèle de Markovappris statistiquement Probabilité qu'un mot étiqueté TO soit suivi d'un mot étiqueté NN : P(NN|TO) = 0,021 P(VB|TO) = 0,34 Probabilité qu'un mot étiqueté NN soit race : P(race|NN) = 0,00041 P(race| VB) = 0,00003 Probabilité qu'un mot étiqueté TO soit suivi de race/NN : P(NN|TO) P(race|NN) = 0,000007 P(VB|TO) P(race| VB) = 0,00001 Conclusion L'étiquette correcte de race dans to race est probablement VB