100 likes | 202 Views
LINGUISTICA GENERALE E COMPUTAZIONALE, PARTE 2. Lezione 4: Capitolo 3, parte prima ( Trattamento di testi ). Operazioni da eseguire ogni volta. >>> from __future__ import division >>> import nltk , re, pprint. Accesso a web via URL. >>> from urllib import urlopen
E N D
LINGUISTICA GENERALE E COMPUTAZIONALE, PARTE 2 Lezione 4: Capitolo 3, parte prima (Trattamentoditesti)
Operazionidaeseguireognivolta >>> from __future__ import division >>> import nltk, re, pprint
Accesso a web via URL >>> from urllib import urlopen >>> url = "http://www.gutenberg.org/files/2554/2554.txt" >>> raw = urlopen(url).read() >>> type(raw) <type 'str'> >>> len(raw) 1176831 >>> raw[:75] 'The Project Gutenberg EBook of Crime and Punishment, by Fyodor Dostoevsky\r\n'
Tokenizzazione >>> tokens = nltk.word_tokenize(raw) >>> type(tokens) <type 'list'> >>> len(tokens) 255809 >>> tokens[:10] ['The', 'Project', 'Gutenberg', 'EBook', 'of', 'Crime', 'and', 'Punishment', ',', 'by']
Apriredocumentilocali >>> import os >>> os.listdir('.') >>> f = open('document.txt')
Tipi didocumenti • HTML (p.81) • PDF (p. 85)
Operazionisustringhe • P.87-92
Espressioniregolari • import re • re.search()