240 likes | 443 Views
PLN-PMT Conditional Random Fields. Sergi Fernandez AI Master. UPC 06. Conditional Random Fields. Introducción. Relational Learning Dependencias entre entidades Atributos que ayudan para la clasificación Ejemplo. Clasificación de documentos Web Contenido
E N D
PLN-PMT Conditional Random Fields Sergi Fernandez AI Master. UPC 06
Conditional Random Fields. Introducción • Relational Learning • Dependencias entre entidades • Atributos que ayudan para la clasificación • Ejemplo. Clasificación de documentos Web • Contenido • Relaciones con otros documentos (links)
Conditional Random Fields. Introducción. Modelos Gráficos • Uso de modelos gráficos para explotar la estructura de dependencias entre entidades • Son una familia de distribuciones de probabilidad que factorizan de acuerdo a un grafo subyacente • Representa una distribución sobre un gran numero de variables aleatorias a través del producto de funciones locales que dependen de un subconjunto reducido de variables
Conditional Random Fields. Introducción. Modelos Gráficos • Modelo gráfico dirigido (Bayesian Network) • Basado en un grafo dirigifo • Representa una familia de distribuciones
Conditional Random Fields. Introducción. Modelos Gráficos • Modelo gráfico no dirigido (Factor Graph) • Basado en un grafo bipartito • Factoriza siguiendo la formula
Conditional Random Fields. Introducción. Modelos Gráficos Factor de normalización Funciones locales
Conditional Random Fields. Introducción. Classificación • Predecir una clase Y dado un vector de atributos X=x1..xk • Si asumimos que dada la etiqueta de la clase los atributos son independientes podemos usar classificador naive Bayes.
Conditional Random Fields. Introducción. Classificación • Classificador de maxima entropia o regresión logística. Distribucion condicional
Conditional Random Fields. Introducción.Modelos de Secuencia • Problema: Name Entity Recognition • Solución • Clasificar cada palabra independientemente, asumiendo que dado un input, las etiquetas de las entidades son independientes • Si estudiamos los datos vemos que existen dependencias entre entidades!! New York = LOC, pero NY Times, NY Journal, NYPD,... son ORGs
Conditional Random Fields. Introducción.Modelos de Sequencia • Relajamos la presunción de independencia colocando las salidas en una cadena • Observaciones X = x1..xT • Estados Y=y1..yT • HMM hace dos asunciones de independencia • Un estado solo depende de su antecesor • Cada observacion xt depende de el estado actual yt
Conditional Random Fields. Introducción.Modelos de Sequencia • Podemos especificar un HMM usando tres distribuciones de probabilidad: • p( y1 ), distribución sobre estados iniciales • p( yt | yt-1), distribución de las transiciones • p( xt | yt ), distribución de las observaciones • La probabilidad de una secuencia y de estados y una secuencia x de observaciones factoriza como:
Conditional Random Fields. Introducción.Modelos Generativos vs. Discriminativos • Modelos generativos: • Modelo gráfico dirigido donde los outputs siempre preceden a los inputs topológicamente. • Aprenden un modelo de la probabilidad de la union p(x,y)de los inputs x y de la etiqueta y • Obtienen las predicciones usando Bayes para calcular p(y|x) y escogen la y mas probable. • Modelos discriminativos: • Modelan la probabilidad p(y|x) directamente o aprenden un mapping directo de inputs a etiqueta de la classe • Razon por la que usar modelos discriminativos: • “Se debe resolver un problema [de clasificación] directamente, y nunca resolver un problema mas general como paso intermedio [por ejemplcomo modelar p(x|y)]”
Conditional Random Fields. De HMM a CRF Aplicando Bayes
Conditional Random Fields. • Lafferty et al. Definen la probabilidad de una sequencia de etiquetas y dada una secuencia de observaciones x como un producto normalizado de funciones potenciales, cada una con la forma: • Para definir feature functions, creamos funciones que expresan alguna caracteristica de la información • Transition feature function
Conditional Random Fields. Estimación de parametros • La estimacion de parametros consiste en encontrar un vector que maximice la conditional log likelihood del conjunto de training
Conditional Random Fields. Estimación de parametros • Iterative methods • Iterative scaling • Gradient decent • Gradient tree boosting • Newton’s method • Quasi-Newton methods • BFGS • Limited memory BFGS • Conjugate gradient
Conditional Random Fields. Aplicaciones. POS tagging Lafferty, McCallum, Pereira 2002
Conditional Random Fields. Aplicaciones. POS tagging Add a small set of orthographic features: whether a spelling begins with a number or upper case letter, whether it contains a hyphen, and if it contains one of the following suffixes: -ing, -ogy, -ed, -s, -ly, -ion, -tion, -ity, -ies oov = out-of-vocabulary (not observed in the training set)
Conditional Random Fields. Aplicaciones. Shallow Parsing • Sha and Pereira 2003
Conditional Random Fields. Aplicaciones. Semantic Role Labeling • Roth and Yith 05 • Descubrir la estructura de los argumentos del verbo • Los argumentos no son superpuestos -> sequence labeling problem
Conditional Random Fields. Aplicaciones. Semantic Role Labeling • Data: Secuencias de chunks, con un POS tag y una palabra, correspondientes al nucleo del chunk • Features: • State f: Word, pos, chunk type, verb’s pos, verb’s lemma, verb’s voice (activa pasiva),position, chunk path, verb class, named entity,... • Transition: word, pos, chunk type (+2,-2), edge (current and previous label ), start, end
Conditional Random Fields. Aplicaciones. Semantic Role Labeling
Referencias • Integer Linear Programming Inference for Conditional Random Fields. Dan Roth, Wen-tau Yih. ICML’05 • Shallow Parsing with conditional Randomn Fields. Sha, Pereira. 2003 • Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data. Lafferty, McCallum, Pereira. 2002 • Conditional Random Fields: An Introduction. Wallach 2004 • An Introduction to Conditional Random Fields for Relational Learning. Sutton, McCallum • On Discriminative vs. Generative classifiers: A comparison of logistic regression and naive Bayes. 2001