110 likes | 235 Views
Base de Données "Titres". Projet "Visu" Réalisée dans le cadre de la maîtrise IL. Objectifs. Réaliser une base de données contenant différentes informations sur les titres des textes d'un corpus : Forme des titres (avec différents niveaux de détail) Niveau de hiérarchie
E N D
Base de Données "Titres" Projet "Visu" Réalisée dans le cadre de la maîtrise IL
Objectifs • Réaliser une base de données contenant différentes informations sur les titres des textes d'un corpus : • Forme des titres (avec différents niveaux de détail) • Niveau de hiérarchie • Reprises (occurrences et position)
Etapes du travail • Constitution d'un corpus de départ • Extraction des titres (Perl) • Extraction des informations sur les titres (Perl) • Extraction des reprises (Perl) • Conditionnement des données extraites pour Access • Fabrication et remplissage de la base
Corpus de départ • Constitué de 2 textes : • L'HDR de C. Jacquemin (138120 mots) • Le chapitre E/A de P. Rigaux (6315 mots) • Format des textes : balisage XML
Perl (1) • Programmes pour extraire les informations des textes : • Utilisation d'expressions régulières • Utilisation des balises pour le repérage et l'extraction des titres et de leur niveau de hiérarchie • Repérage et extraction des reprises totales et des mots composant les titres
Information 1 Information 2 Information 3 Tab Tab etc. Perl (2) • Stockage dans des fichiers "texte brut" • Mise en forme des information pour automatiser le renseignement de la base de données : • La tabulation servira à séparer les différents champs dans la table
La base de données • Composée de tables, de requêtes et de formulaires • Les tables contiennent toutes les informations extraites par les programmes perl • Les enregistrements sont créés à partir des tables et servent à organiser les informations d'une ou plusieurs tables ou d'autres requêtes • Les formulaires permettent de présenter les informations ou de faciliter l'entrée de nouvelles informations dans la base
Les tables • La base contient 11 tables : • La table Titres qui contient 6 champs : • La table Reprise qui contient 6 champs : • La table Corpus qui contient 6 champs : • 8 tables Forme (SN, SP, SV, SAdj, Formel, >Syntagme, Phrase, PropSub) : Ex : Forme_SN :
Les requêtes • Les tables et les requêtes sont liées entre elles • Les requêtes permettent d'organiser les informations de la base • Exemple : Requête pour savoir combien de SN introduits par un article défini sont présents dans chaque texte du corpus
Les formulaires • Ils permettent de mettre en forme et de présenter les informations de la table • Ils permettent aussi de rentrer de nouvelles informations dans la table
Objectifs (ce qu'il reste à faire) • Renseigner la "position chiffrée" dans la base pour les reprises • Inclure dans la base les annonces de titre • Inclure dans la base les reprises anaphoriques • Adapter la base aux besoins du projet • Ajouter des textes au corpus • Analyser la base