NLTK y el acceso a textos Día 12, 10 ene 14

NLTK y el acceso a textosDía 12, 10 ene 14 Cultura computacional en español SPAN 4350 Harry Howard Tulane University

Organización del curso • Las grabaciones y las presentaciones están disponibles en:http://www.tulane.edu/~howard/SPAN-NLP/ • La versión en inglés del tema es http://www.tulane.edu/~howard/CompCultES/regex.html SPAN 4350 - Harry Howard - Tulane University

Repaso SPAN 4350 - Harry Howard - Tulane University

Tabla de caracteres de clase SPAN 4350 - Harry Howard - Tulane University

Métodos sencillos para tokenizar >>> re.split(r' ',S) >>> re.split(r'\s',S) SPAN 4350 - Harry Howard - Tulane University

NLTK SPAN 4350 - Harry Howard - Tulane University

NLTK >>> importnltk Si hay un error, abren al app de Canopy > Package Manager > CanopyPackages > nltk 2.01 >>> importnltk >>> nltk.download() SPAN 4350 - Harry Howard - Tulane University

Bajar un texto en español de PG • http://www.gutenberg.org/wiki/Main_Page • Main Page > Browse Catalog > Spanish > Cervantes Saavedra, Miguel de, 1547-1616 > Novelas y teatro > Plain Text UTF-8 • Bájalo a tu computadora. • Cámbiale el nombre de 15115.txt.utf-8 a CervantesTeatro.txt. • raíz/nltk_data/corpora/textos • Mete CervantesTeatro.txt allí. • Trata de abrirla. SPAN 4350 - Harry Howard - Tulane University

Desvío: directorios en Python >>> import os >>> os.getcwd() '/Users/harryhow' *** El sendero a mis ficheros es: /Users/harryhow/nltk_data/corpora/textos *** >>> raiz = '/Users/harryhow/nltk_data/corpora/textos' >>> raiz '/Users/harryhow/nltk_data/corpora/textos' >>> os.chdir(raiz) >>> os.getcwd() '/Users/harryhow/nltk_data/corpora/textos' >>> os.listdir('.') ['CervantesTeatro.txt', 'Gitanilla.txt'] SPAN 4350 - Harry Howard - Tulane University

Abrir el texto >>> raiz = '/Users/harryhow/nltk_data/corpora/textos' >>> from nltk.corpus import PlaintextCorpusReader >>> texto = PlaintextCorpusReader(raiz, 'CervantesTeatro.txt') >>> git = texto.words() >>> git[:50] ['LA', 'GITANILLA', 'Parece', 'que', 'los', 'gitanos', 'y', 'gitanas', 'solamente', 'nacieron', 'en', 'el', 'mundo', 'para', 'ser', 'ladrones', ':', 'nacen', 'de', 'padres', 'ladrones', ',', 'cr\xedanse', 'con', 'ladrones', ',', 'estudian', 'para', 'ladrones', 'y', ',', 'finalmente', ',', 'salen', 'con', 'ser', 'ladrones', 'corrientes', 'y', 'molientes', 'a', 'todo', 'ruedo', ',', 'y', 'la', 'gana', 'del', 'hurtar', 'y'] SPAN 4350 - Harry Howard - Tulane University

Funciones del PlaintextCorpusReaderTabla 2.3 SPAN 4350 - Harry Howard - Tulane University

Empezar a trabajar con el texto en NTLK El próximo díaTráete el portátil a clase. SPAN 4350 - Harry Howard - Tulane University

NLTK y el acceso a textos Día 12, 10 ene 14

NLTK y el acceso a textos Día 12, 10 ene 14

Presentation Transcript

Capacitación P roQuest

BARROCO: características, influências, autores, obras e textos

pre textos marjnaus

Textos literarios y no literarios

TIPOS DE TEXTOS ORALES

COMENTARIO DE TEXTOS LITERARIOS. EJEMPLOS:

UNIDADE QUATRO

GRAMÁTICA I

El DISCURSO O TEXTO EXPOSITIVO

Ley Federal de Protección de Datos Personales y Derecho de Acceso a la Información.

Textos Poéticos

CURSO TIC´S

Tema 6 Acceso Residencial de Banda Ancha

La MIPYMES en Colombia: diagnóstico general y acceso a los servicios financieros

Terminología, Textos y Discursos de la comunicación comercial y del turismo internacional

Acceso a Información Sobre Tecnologías de Tratamiento de Suelos y Aguas Subterráneas Contaminados

Hermanos Editores

TIPOS DE TEXTOS 2º BACHILLERATO

Capacitación de LC sobre RDA: Recursos: Descripción y Acceso

IreneM 1.-ACCESO AL TRABAJO, IGUALDAD EN EL TRABAJO.,

Lecture 22 Word Similarity

Los Sistemas de Información en Seguridad Publica: Pertinencia, Prontitud y Acceso a la información