Modelos Estadísticos del lenguaje

Modelos Estadísticos del lenguaje • Modelos del lenguaje (Language Models, LM) • Noisy Channel model • Modelos simples de Markov • Smoothing

Language Models 1 • Modelos estadísticos • Modelos del lenguaje (LM) • Vocabulario (V), palabra • w  V • Lenguaje (L), oración • s  L • L  V* normalmente infinito • s = w1,…wN • Probabilidad de s • P(s)

Noisy Channel Model 1 • Mecanismo de modelado estadístico de un canal de comunicación de mensajes en presencia de ruido • Se pretende optimizar la calidad de la comunicación de mensajes a través del canal en presencia de ruido • Compresión (eliminación de la redundancia) y calidad de la transmisión (conseguida introduciendo redundancia de forma controlada de forma que se pueda recuperar el mensaje original en presencia de ruido)

X Y W* W Channel p(y|x) decoder encoder message Attempt to reconstruct message based on output input to channel Output from channel Noisy Channel Model 2

Noisy Channel Model 3 • Capacidad del canal (C): Nivel al que se puede transmitir información con una probabilidad pequeña de ser incapaz de recuperar la entrada a partir de la salida • Alcanzamos la capacidad del canal si logramos diseñar un input code X con distribución estadística p(X) que maximice la I (información mutua) entre entrada y salida.

Noisy Channel Model 4 • En PLN no podemos actuar sobre la fase de codificación (encoding). El problema es decodificar la salida para lograr la entrada más verosimil I O Noisy Channel p(o|I) decoder

Noisy Channel Model 5 Modelo del lenguaje Probabilidad del canal

lenguaje real X noisy channel X  Y lenguaje observado Y Noisy Channel Model 6 Deseamos recuperar X a partir de Y

lenguaje real X noisy channel X  Y lenguaje observado Y Noisy Channel Model 7 texto correcto errores texto con errores

lenguaje real X noisy channel X  Y lenguaje observado Y Noisy Channel Model 8 texto correcto eliminación de espacios texto sin espacios

lenguaje real X language model noisy channel X  Y acoustic model lenguaje observado Y Noisy Channel Model 9 texto pronunciación habla

lenguaje real X noisy channel X  Y lenguaje observado Y Noisy Channel Model 10 árbol probabilistic CFG inserción de terminales texto

lenguaje real X noisy channel X  Y lenguaje observado Y Noisy Channel Model 11 lengua f traducción lengua o

Noisy Channel model 12 ejemplo: ASR Automatic Speech Recognizer Cadena acústica Cadena de palabras Modelo del lenguaje Modelo acústico

Noisy Channel model 13 ejemplo: Traducción Automática Modelo del lenguaje objetivo Modelo de la traducción

Implementación de LM • Implementación intuitiva • Enumerar s  L • Calcular las p(s) • Parámetros del modelo |L| • Simplificaciones • historia • hi = { wi, … wi-1} • Modelos de Markov

Modelos de Markov simples 2 • n grande: • más información del contexto (más poder discriminativo) • n pequeño: • más casos en el corpus de entrenamiento (más confianza) • Selección de n: • ej. para |V| = 20.000

Modelos de Markov simples 3 • Parámetros de un modelo de n-grama • |V|n • Estimación MLE • a partir de un corpus • Problema sparseness

Modelos de Markov simples 4 • Modelo 1-gram • Modelo 2-gram • Modelo 3-gram

Modelos de Markov simples 5

Modelos de Markov simples 6

Modelos de Markov simples 7 Distribución real de probabilidad

Modelos de Markov simples 8 Los casos vistos están sobre estimados, los no vistos tienen probabilidad nula

Smoothing 1 • Métodos que actúan sobre el contaje de los n-gramas • Laplace, Lidstone, Jeffreys-Perks • Métodos que actúan sobre las probabilidades: • Held-Out • Good-Turing • Descuento • Métodos de combinación • Interpolación lineal • Back Off

Smoothing 2 Laplace (add 1) P = probabilidad de un n-grama C = contaje del n-grama en el corpus de entrenamiento N = total n-gramas en el corpus de entrenamiento B = parámetros del modelo (n-gramas posibles)

Smoothing 3 Lidstone (generalización de Laplace)  = número positivo pequeño M.L.E:  = 0Laplace:  = 1Jeffreys-Perks:  = ½

Smoothing 4 Held-Out • Calcular qué porcentaje de la masa de probabilidad debe conservarse para los n-gramas no presentes en el corpus de entrenamiento • Se reverva parte del corpus de entrenamiento como corpus de validación (otra parte es para test) • Se calculan cuántos n-gramas ausentes del corpus de entrenamiento aparecen en el de validación • Posibilidad de usar Cross-Validation

Smoothing 5 Held-Out Sea un n-grama w1… wn r = C(w1… wn) C1(w1… wn) frecuencia del n-grama en el training set C2(w1… wn) frecuencia del n-grama en el held out set Nr número de n-gramas con frecuencia r en el training set

Smoothing 6 Good-Turing r* = “frecuencia ajustada” Nr = número de n-gram-types que aparecen r veces E(Nr) = “valor esperado” E(Nr+1) < E(Nr)

Smoothing 7 Métodos de descuento Primero se calcula la probabilidad de held-out. • Absolute discounting: Decrementar en una pequeña constante la probabilidad de cada n-grama observado en el corpus de aprendizaje • Linear discounting: Decrementar la probabilidad de cada n-grama observado en el corpus de aprendizaje multiplicándola por una cantidad.

Smoothing 8 Combinación de métodos • Combinación lineal de 1-grama, 2-grama, 3-grama, ... • Estimación de las  mediante un corpus de validación

Smoothing 9 Katz’s Backing-Off • Usar n-grama cuando hay suficientes casos en el corpus de entrenamiento, si no hacer back-off a n-1-grama • Repetir en caso de necesidad

Structured Language Models • Jelinek, Chelba, 1999 • Inclusión de la estructura sintáctica en la historia • Ti son las estructuras sintácticas • árboles binarios lexicalizados

Modelos Estadísticos del lenguaje

Modelos Estadísticos del lenguaje

Presentation Transcript

Arquitectura de software dirigida por modelos (Model-Driven Architecture)

VICIOS DEL LENGUAJE

MODELOS DE CONTROL

Modelos lineales generalizados

Dificultades de Aprendizaje e Intervención Psicopedagógica

Introducción a la Estadística Licenciatura en administración y dirección de Empresas (LADE) UC3M-2007

Formulación y Evaluación de Proyectos Turísticos – Clase 3

Crecimiento y Desarrollo Clase III: Modelos de Crecimiento

Transformación de modelos con ATL

MBA em Gestão de Empreendimentos Turísticos

¿QUÉ SON LOS VICIOS DEL LENGUAJE?

Movimientos artísticos de 1960 a la actualidad

Plásticos

LA TECTÓNICA DE PLACAS

DIFICULTADES EN LA ADQUISICIÓN DEL LENGUAJE ORAL

Modelos matemáticos

Esquemas, modelos y metáforas culturales

Lenguaje Unificado de Modelado

Capítulo 9: Modelos e Conceitos de CIM

TERAPIA SISTEMICA

LENGUAJE DE SEÑAS VENEZOLANA

MODELOS Y NORMAS DE CALIDAD