310 likes | 504 Views
Introduction à l’utilisation des corpus 2. Comment constituer un corpus?. Questions abordées. 2. Comment constituer un corpus ? Comment trouver des textes ? Ou et comment trouver des ressources (glossaires, dictionnaires, corpus parallèles) ?
E N D
Introduction à l’utilisation des corpus2. Comment constituer un corpus?
Questions abordées • 2. Comment constituer un corpus ? • Comment trouver des textes ? Ou et comment trouver des ressources (glossaires, dictionnaires, corpus parallèles) ? • Comment exploiter au mieux les fonctionnalités des moteurs de recherche? • Comment choisir quel texte inclure ou pas dans le corpus ? • Sous quelle forme faut-il le stocker pour qu’il soit facilement utilisable ? (rappel : formats de fichiers)
Rappel : quel type de corpus ? • On va constituer un mini corpus • Électronique • Bilingue comparable (quelles langues? ) • D’originaux (éviter les auteurs locuteurs non-natifs) • Synchronique • Annoté? Ou bien forme de textes bruts? • Ouvert : constamment enrichi • De spécialité. Domaines/sous-domaines couverts ? Exemples : • Le volcans de boue • Le circuit de l’eau dans les sols • Les montagnes
Où trouver des textes? • 1/ Science Direct (www.sciencedirect.com) • ¼ de la littérature scientifique, médicale et technique en ligne • plus de 2.000 journaux, centaines de livres, manuels • accès uniquement sur le campus • droits d’auteur ;-) 2/ PLOS (Public Library of Science) : http://www.plos.org/ 3/ Liens « périodiques et littérature grise » de Mme Geneviève Bordet. E.x. http://docinsa.insa-lyon.fr/sapristi/trouver-20.php http://www.inria.fr/rrrt/index.fr.html
Où trouver des textes? 4/ www.sudoc.abes.fr (recherche de thèses) 5/ ENT de l’université Paris Diderot : - HAL - GEOBASE 6/ Recherche sur Internet
Recherche documentaire sur Internet Comment choisir ? • Internet n’est pas une grande bibliothèque. Tout n’est pas crédible. • Avant d’inclure un texte récupéré sur Internet vérifier : • la date de mise ajour du site • qui est l’auteur de la page ? • le texte a été écrit par un locuteur natif? • quelle institution cautionne le contenu? Cette information devra, en partie, être incluse dans la source bibliographique de chaque texte inclus dans le corpus !!!
Google: comment l’utiliser au mieux ? Comment cibler au mieux les résultats formuler résultats plus pertinents • http://www.googleguide.com/ • Google Hacks - 100 Industrial-Strength Tips & Tricks Tara Calishain, Rael Dornfest, O’Reilly
Google : syntaxe de base • pomme de terre (AND implicite) • « pomme de terre » • Paris OR London • hôtel (Paris OR London) • Bush -George –president • Bush • BUSH • bush • écri* ????? • « trois * raisons » caractère joker • glossary OR vocabulary OR lexicon~glossary
Google: syntaxes spéciales • Opérateurs google • intitle: • inurl: • intext: • inanchor: • site: • link: • filetype: • related: • define: Et plein d’autres!!! L’ordre des termes de la requête et la répétition peuvent affecter les résultats.
Autres questions • Que faire si une page n’existe plus? • vérifier si elle existe encore en cache (retrouve une page que Googlea indexée) • www.webarchive.org • Où trouver des glossaires et corpus parallèles? • http://www.multilingual.ch
Un dernier Googlehack Chercher sur Google le terme hydracefallus et limiter les résultats aux fichiers de type .pdf.
EXTENSIONS Parenthèse : formats des fichiers • Moyen d’encoder de l’information afin de la stocker sur l’ordinateur. • IMAGES uniquement : .jpg, .png, etc • Formats de fichiers ‘documents’ • sans aucun formatage : .txt : uniquement des caractères textuels ordinaires • formatés : • .doc : formats propriétaires Microsoft • .rtf : formats propriétaires Microsoft : Lisible, inter-opérable • .odt (OpenOffice Text Doc) : logiciel libre sources disponibles • .html, .xml : langages à balises • .pdf : format propriétaire de Adobe Systems, même si ouvert • préserve polices, images, graphiques et la mise en forme
(Observer la taille des documents) Démonstration : comparaison entre les documents de type .txt, .doc, .html, .rtf, .odt
A lire : Formats de fichiers (documentation de l’équipe système de l’UFR EILA) : www.eila.univ-paris-diderot.fr/sysadmin/gestion-docs/formats
Fichiers texte /vs/ binaires • Fichiers texte : contenu pouvant être interprété comme du texte. Suite de caractères d’un ensemble donné. • en codage ASCII ou une extension de ASCII (UTF-8, UTF-16 ou extension régionale). Exemples : fichiers .XML ; .txt • Le contenu d'un fichier binaire n'est pas du texte et correspond souvent à un format précis. • fichier exécutable ; • fichier de base de données structuré en enregistrements de taille fixe ou variable ; • document de traitement de texte ; • fichiers multimédias : images, sons, vidéos.
Encodage des caractères • associations entre caractères et un ‘code’ afin de faciliter le stockage et le transfert des fichiers. • Exemples d’encodage : • Le code Morse • Le code ASCII • ISO-8859-1 • UNICODE
Encodage des caractères • associations entre caractères et un ‘code’ afin de faciliter le stockage et le transfert des fichiers. • Exemples d’encodage : • Le code Morse
Encodage de caractères I • US-ASCII (1967): American Standard Code of Information Interchange • Lettres (alphabète anglais), numéraux, ponct • 7 bits (128 codes) 98 signes définis • Ex : • A : 065, B : 066, C : 067 • a : 097, b : 098, c : 099, etc. • Très limité extensions.
Encodage des caractères II • ISO 8859 (1987) : International Standards Organization • étend US-ASCII en ajoutant les caractères accentués – 8 bits (256 codes) 191 signes définis • ISO 8859-1 : Europe le l’Ouest • 8859-2 : Latin 2, Europe de l’Est • 8859-3 : Latin 3, Europe du Sud Est • 8859-4 : Latin 4, Scandinavie, Baltique • 8859-5 : cyrillique • 8859-6 : arabe, 8859-7 : grec, etc
Encodage des caractères III • Approche systématique : UNICODE (norme d’encodage) : tous les systèmes d’écriture (100.000 caractères) permet le mélange de langues • Permet l’encodage de toutes les langues vivantes et mortes • UTF-8 (8-bit UCS/Unicode Transformation Format) un format d’encodage pour UNICODE • UTF-16
Formats des fichiers : comment stocker le corpus ? CORPUS_PRENOM_NOM ANGLAIS ALLEMAND FRANCAIS Référence biblio dans la BD Termino !!!!! SOURCES TEXTES BAUM_1996.pdf BAUM_1996.txt
Comment citer la source ? • Quels champs indiquer pour chaque type de document ? (JabRef) : • Article : Auteur|Auteur et al. (2008). Titre. Revue, Vol, No., pages • Site web : Titre, (Auteur|institution), Url (localisation), date de consultation. • Livre : Auteur|Auteur et al. (2008). Titre. Maison d’édition (collection)
Comment citer la source ? • Thèse de doctorat : Auteur.(2008). Titre. Ecole. (directeur de recherche) • Actes de colloque : Auteur(2008). Tire. Conférence (Date, Lieu), pages ou adresse URL.
Parenthèse : formats des fichiers • Démonstration : comment stocker les fichiers constituant son corpus ?
Que faire avec les fichiers PDF ? • Portable Document Format • créé par Adobe Systems • préserve la mise en forme (polices, images, objets graphiques…) quelles que soient l'application et la plate-forme • PDF est un format ouvert (Adobe Systems autorise des programmes tiers à réutiliser son format), mais se réserve la propriété de nombreux brevets déposés et donc le droit de demander des redevances. • les spécifications sont publiques et utilisables librement et gratuitement (à l'exception de quelques très importantes sociétés commerciales).
Que faire avec les fichiers PDF ? • Si aucun autre format n’est pas disponible (vérifier, écrire des mails, etc !!): • Utiliser les logiciels OCR. Exemple : Omnipage ! Démonstration. • Utiliser la version démo de Acrobat 8 Professional (30 jours seulement!). Démo. • Vérifier l’intégrité du texte scanné (surtout lorsqu’il s’agit de texte en colonnes, avec images).
Quel format pour le stockage ? • Créer un répertoire CORPUS_NOM_PRENOM • Créer les sous-répertoires ANGLAIS & FRANCAIS (non pas FRANÇAIS) • Stocker dans les deux des articles convertis en format .txt, avec l’encodage UFT-8 • Nom du fichier : • le nom de l’auteur + • - + • année de publication + • a,b,c (optionnel, si plusieurs articles de la même année) + • .txt • Ex : DUPONT_2006.txt UTILISEZ NOTEPAD PLUTÔT QUE WORDPAD POURQUOI ???