120 likes | 231 Views
NLTK y el acceso a textos Día 12, 10 ene 14. Cultura computacional en español SPAN 4350 Harry Howard Tulane University. Organizaci ón del curso. Las grabaciones y las presentaciones están disponibles en: http://www.tulane.edu/~howard/SPAN-NLP/
E N D
NLTK y el acceso a textosDía 12, 10 ene 14 Cultura computacional en español SPAN 4350 Harry Howard Tulane University
Organización del curso • Las grabaciones y las presentaciones están disponibles en:http://www.tulane.edu/~howard/SPAN-NLP/ • La versión en inglés del tema es http://www.tulane.edu/~howard/CompCultES/regex.html SPAN 4350 - Harry Howard - Tulane University
Repaso SPAN 4350 - Harry Howard - Tulane University
Tabla de caracteres de clase SPAN 4350 - Harry Howard - Tulane University
Métodos sencillos para tokenizar >>> re.split(r' ',S) >>> re.split(r'\s',S) SPAN 4350 - Harry Howard - Tulane University
NLTK SPAN 4350 - Harry Howard - Tulane University
NLTK >>> importnltk Si hay un error, abren al app de Canopy > Package Manager > CanopyPackages > nltk 2.01 >>> importnltk >>> nltk.download() SPAN 4350 - Harry Howard - Tulane University
Bajar un texto en español de PG • http://www.gutenberg.org/wiki/Main_Page • Main Page > Browse Catalog > Spanish > Cervantes Saavedra, Miguel de, 1547-1616 > Novelas y teatro > Plain Text UTF-8 • Bájalo a tu computadora. • Cámbiale el nombre de 15115.txt.utf-8 a CervantesTeatro.txt. • raíz/nltk_data/corpora/textos • Mete CervantesTeatro.txt allí. • Trata de abrirla. SPAN 4350 - Harry Howard - Tulane University
Desvío: directorios en Python >>> import os >>> os.getcwd() '/Users/harryhow' *** El sendero a mis ficheros es: /Users/harryhow/nltk_data/corpora/textos *** >>> raiz = '/Users/harryhow/nltk_data/corpora/textos' >>> raiz '/Users/harryhow/nltk_data/corpora/textos' >>> os.chdir(raiz) >>> os.getcwd() '/Users/harryhow/nltk_data/corpora/textos' >>> os.listdir('.') ['CervantesTeatro.txt', 'Gitanilla.txt'] SPAN 4350 - Harry Howard - Tulane University
Abrir el texto >>> raiz = '/Users/harryhow/nltk_data/corpora/textos' >>> from nltk.corpus import PlaintextCorpusReader >>> texto = PlaintextCorpusReader(raiz, 'CervantesTeatro.txt') >>> git = texto.words() >>> git[:50] ['LA', 'GITANILLA', 'Parece', 'que', 'los', 'gitanos', 'y', 'gitanas', 'solamente', 'nacieron', 'en', 'el', 'mundo', 'para', 'ser', 'ladrones', ':', 'nacen', 'de', 'padres', 'ladrones', ',', 'cr\xedanse', 'con', 'ladrones', ',', 'estudian', 'para', 'ladrones', 'y', ',', 'finalmente', ',', 'salen', 'con', 'ser', 'ladrones', 'corrientes', 'y', 'molientes', 'a', 'todo', 'ruedo', ',', 'y', 'la', 'gana', 'del', 'hurtar', 'y'] SPAN 4350 - Harry Howard - Tulane University
Funciones del PlaintextCorpusReaderTabla 2.3 SPAN 4350 - Harry Howard - Tulane University
Empezar a trabajar con el texto en NTLK El próximo díaTráete el portátil a clase. SPAN 4350 - Harry Howard - Tulane University