110 likes | 191 Views
Computación con el lenguaje Día 22, 12 mar 14. Cultura computacional en español SPAN 4350 Harry Howard Tulane University. Organizaci ón del curso. Las grabaciones y las presentaciones están disponibles en: http://www.tulane.edu/~howard/SPAN-NLP/
E N D
Computación con el lenguajeDía 22, 12 mar 14 Cultura computacional en español SPAN 4350 Harry Howard Tulane University
Organización del curso • Las grabaciones y las presentaciones están disponibles en:http://www.tulane.edu/~howard/SPAN-NLP/ • La versión en inglés del tema es http://www.tulane.edu/~howard/CompCultES/control.html • Las notas están en el Gradebook de Blackboard. SPAN 4350 - Harry Howard - Tulane University
Repaso SPAN 4350 - Harry Howard - Tulane University
Los resultados actuales • El script "funciones.py" en Spyder. • Fijar el 'global working directory' en Spyder: • Spyder > Preferences > Global working directory > … the following directory > pytextos SPAN 4350 - Harry Howard - Tulane University
La computación con el lenguaje SPAN 4350 - Harry Howard - Tulane University
Cargar el texto >>> import funciones >>> texto = funciones.cargaTexto() >>> len(texto) 14879 >>> importnltk >>> fromnltk.textimportText >>> T = Text(texto) >>> len(T) 14879 SPAN 4350 - Harry Howard - Tulane University
Text en la jerarquía de NLTK nltkPackage align, collocations, data, downloader, featstruc, grammar, help, probability, text, toolbox, tree, treetransforms, util, (subpackages) text ContextIndex common_contexts() similar_words() tokens() word_similarity_dict() Text collocations(), common_contexts(), concordance(), count(word), dispersion_plot(), findall(), generate(), index(), plot(), readability(), similar(), unicode_repr(), vocab() TextCollection idf(), tf(), tf_idf() TokenSearcher findall(regexp) ConcordanceIndex offsets(), print_concordance(), tokens(), unicode_repr SPAN 4350 - Harry Howard - Tulane University
Ejemplos de los métodos de Text >>> T.collocations() Building collocations list gitana vieja; los gitanos; Andrés Caballero; las gitanas; doña Clara; respondió Preciosa; doña Guiomar; sin duda; Por vida; las manos; todos los; !-- dijo; Apenas hubo; gallarda disposición; ?-- dijo; todas las; vuesa merced; los ojos; Santa Ana; había hecho >>> T.common_contexts(['gitano', 'gitana']) de_, >>> T.concordance('gallarda') Building index... Displaying 3 of 3 matches: . Preciosa , algo aficionada de la gallarda disposición de Andrés , ya deseaba con amor , le miraban : tal era la gallarda disposición de Andrés , que hasta ía lugar donde no se hablase de la gallarda disposición del gitano Andrés Caba >>> T.count('gitana') 36 >>> T.dispersion_plot(['gitana', 'gitano']) # ver diapositiva siguiente SPAN 4350 - Harry Howard - Tulane University
T.dispersion_plot(['gitana', 'gitano']) SPAN 4350 - Harry Howard - Tulane University
Ejemplos de los métodos de Text, cont. >>> T.findall() # ya lo conocen >>> T.generate() Building ngram index... LA GITANILLA Parece que los trujo . En tanto que yo volveré y le diré más venturas y aventuras que las leyes con que quedaron más alegres y más , que me quería hacer , de los tinientes de la fiesta , desde luego le desnudaron un brazo , y puesto delante de la verdad que estaniña me ha renovado mi desventura !-- dijo a esta sazón la gitana , y viésedes que os habéis de considerar que en esto , estaba temerosa de alguna pequeña criatura . -- Calla , hija ?-- dijo a su partida , por >>> T.index() # ya lo conocen >>> T.plot() # más adelante >>> T.readability() # ? >>> T.similar('gitana') vieja carducha gitanilla buenaventura compañía cruz dicen hermosa mano mía noche reja verdad vuestra , abrazaban acrecentarla advertidas alquiler andrés SPAN 4350 - Harry Howard - Tulane University
Análisis de textos con NLTK El próximo díaTráete el portátil a clase. SPAN 4350 - Harry Howard - Tulane University