90 likes | 210 Views
FICHIER TEXTE. EXTRACTION TERMINOLOGIQUE. ETIQUETAGE EN CATEGORIES DU DISCOURS. TRI DES SORTIES. EXEMPLE DE FICHIER TEXTE.
E N D
FICHIER TEXTE EXTRACTION TERMINOLOGIQUE ETIQUETAGE EN CATEGORIES DU DISCOURS TRI DES SORTIES
EXEMPLE DE FICHIER TEXTE • BRUXELLES (AFP) - L'Union européenne, dont six pays sont touchés par le virus H5N1 de la grippe aviaire, a envisagé lundi l'octroi d'aides au secteur avicole frappé par la chute de la consommation de volaille, tandis que quatre nouveaux foyers ont été identifiés au Nigeria. • Bruxelles est prêt à autoriser des aides nationales sous formes de mesures techniques déjà existantes, comme des prêts à bas taux d'intérêts aux producteurs, à condition que les Etats membres respectent les règles communautaires, a déclaré la commissaire à l'Agriculture Mariann Fisher Boel à l'issue de la réunion à Bruxelles des ministres de l'Agriculture des 25 pays membres.
Extraction de correspondances selon type de patron FORMAT CORDIAL NC[A-Z]+ ADJ[A-Z]+ (ça devrait être N[A-Z]+) FORMAT TREE TAGGER NOM ADJ
Programmation Programme fondé sur l’idée que les données formatées par Cordial ou Tree Tagger sont totalement normalisées A une suite d’étiquettes au rang [$i..$i+1], correspond exactement une suite de tokens au même rang Recherche des correspondances entre le patron fourni par l’utilisateur (p. ex. ADJ NOM) et les étiquettes du texte
Difficultés Gestion des indices Longueur des expressions régulières : facile avec Tree Tagger (NOM ADJ) plus compliqué avec Cordial NC[A-Z]+ ADJ[A-Z]+ nécessité d’utiliser $& pour saisir la vraie longueur de la correspondance