260 likes | 426 Views
Change-point detection. Machine Learning Group 25 de febrero de 2013. Outline. Introducción: Concepto, ejemplos … www.changepoint.info Formulaciones clásicas Formulaciones bayesianas Formulaciones “ en-línea ” Conclusiones. Introducción.
E N D
Change-point detection Machine Learning Group 25 de febrero de 2013
Outline Introducción: Concepto, ejemplos … www.changepoint.info Formulaciones clásicas Formulaciones bayesianas Formulaciones “en-línea” Conclusiones
Introducción Definición de changepoint: “An instance in time where statistical properties before and after this point differ”
Introducción (II) El primer método apareció en la literatura estadística en la década de los 50 (Page et al., 54). De hecho, gran cantidad de métodos se han propuesto en este ámbito desde entonces Durante las dos últimas décadas se han sumado contribuciones en el ámbito del aprendizaje máquina, incluyendo aportaciones recientes de tipo bayesiano Otros nombres: segmentación, “structural breaks”, “break points”, “regime switching”, “detecting disorder” Numerosas aplicaciones: • En el ámbito de la climatología • Biomédicas: segmentación de DNA, análisis de EEG, etc • Control • Análisis de tráfico en redes • Finanzas • …
Taxonomía • Onepoint vs Multipoint • Control charts • Formulaciones clásicas • Formulaciones frecuentistas (paramétricas o no) • Formulaciones de tipo bayesiano • Retrospective Segmentation • (Batch) • Changepoint detection Multipoint Detección de novedad (preferibles métodos incrementales y baratos) Bayesian online changepoint detection • Causal Segmentation • (On-line)
Objetivo de la sesión Presentaremos algunos ejemplos ilustrativos de estas técnicas: Para el caso “batch” estudiaremos dos artículos “review”; uno con aproximaciones clásicas y otro con aproximaciones bayesianas Para el caso “online” revisaremos un método propio y otro reciente de tipo bayesiano
Software La mayoría de métodos “clásicos” son fácilmente implementables utilizando la toolbox de estadística de Matlab Numerosos paquetes comerciales disponen de herramientas para changepoint detection, pero en su mayoría son limitados en cuanto al tipo de cambio que se detectan (fundamentalmente desplazamiento de medias) Existen numerosas toolboxes específicas, la mayoría de ellas disponibles para R. En changepoint.info se recogen 22 diferentes, si bien varias son específicas a ciertas aplicaciones
Two-phase regression model (Lund and Reeves, 2002) Al contrario del enfoque del artículo, comenzaremos con el modelo más complejo, que como vemos permite detectar desplazamientos de medias y cambios de tendencias H0 puede testearse usando un F test: Valores grandes sugieren que HA es cierta, por lo que si no se conoce la situación del changepoint: En lugar del índice temporal puede utilizarse una secuencia de referencia xt
Standard normal homogeneity (Reeves et al., 2006) Para el caso en que únicamente queremos detectar desplazamientos de medias: Un estadístico suficiente puede obtenerse a partir del cociente de verosimilitudes como: Una ventaja de estos métodos clásicos es que los umbrales pueden ajustarse según el nivel deseado de certeza
Jerarquía de modelos (Vincent y Gullet, 1999) Cuando no conocemos el modelo a aplicar, podemos considerar una jerarquía en orden creciente de complejidad: En cada paso evaluamos la idoneidad del modelo y, en su caso, la verosimilitud de un punto de cambio
Jerarquía de modelos (II) Una alternativa frecuente para seleccionar el modelo más adecuado de una jerarquía es utilizar un criterio de verosimilitud penalizado El inconveniente es el coste computacional, sobre todo cuando no conocemos el valor de c, ya que hay que explorarlo para obtener el mínimo valor del AIC o BIC
Propone distintos métodos basados en modelo, bajo enfoque probabilístico (no necesariamente bayesiano) Los métodos propuestos están implementados en una de las toolboxes enumeradas anteriormente Notac:
Ejemplo: Piecewise Linear Regression El modelo incluye la posibilidad de detectar desplazamientos de medias y cambios de varianza Permite detectar cambios de tendencia, ya sea respecto del tiempo (con zt = t) o respecto de una señal de referencia Permite trabajar con señales AR … i.e., todos los casos de la figura vista al comienzo de la presentación. Pero la selección de z_t indica que ha de fijarse el modelo a priori
Método LRT para un único punto Existe la posibilidad de penalizar la verosimilitud, pero en caso binario esto supone simplemente un cambio en el umbral del decisor
Enfoque bayesiano para un único punto Priors de los hiperparámetros Prior de la existencia de cambio: Pr(M=1) Prior para la posición del punto de cambio: p(τ) Probabilidades a posteriori: donde Q(a,b) es la verosimilitud del segmento una vez marginalizados los parámetros (sigmas y betas)
Enfoque bayesiano para un único punto (II) Si únicamente queremos detectar la existencia de un cambio, tendríamos que marginalizar la posición, y quedaría: El Factor de Bayes (entre paréntesis) puede utilizarse para detectar el punto en el que es más probable que se produzca el cambio Los autores comentan que la selección de ψ puede ser bastante crítica. En ausencia de información a priori podríamos ajustarlo con los valores que maximizan la verosimilitud, o bien hacer un tratamiento Bayesiano (más complejo)
Prestaciones Escenario de cambio de varianza Promedio sobre 10000 secuencias de longitud 200 Enfoque Bayesiano significativamente mejor, sobre todo para valores intermedios de la varianza del ruido Motivo: Promedia sobre distintas posiciones en las que puede haberse producido el cambio
Generalización para múltiples puntos Segmentación binaria: Iterativamente, comenzando con los puntos que maximizan el cociente de verosimilitudes Búsqueda de segmentos por vecindad: Evaluamos la log-verosimilitud para todos los posibles segmentos, y luego vamos fusionando hasta un máximo de puntos. O(n2) Minimum Description Length: El número de puntos incrementa el número de parámetros, y por tanto incrementa el valor de la función de coste de log-verosimilitud penalizada En caso bayesiano hay 2 posibilidades: Prior sobre el número de puntos + prior sobre su posición condicionada al número de puntos Prior sobre la longitud de los segmentos. Tiene numerosas ventajas (computacional, robustez a la longitud de la secuencia …)
Segmentación secuencial (“on-line”)
Changepoint detection basada en detección de novedad Detección de novedad: identificación de puntos situados en regiones de baja densidad de probabilidad Existen numerosos métodos, si bien son preferibles aquéllos que pueden ser adaptados según se dispone de nuevas observaciones, sin necesidad de reentrenar El éxito del método puede depender fuertemente del tipo de parametrización utilizada Métodos paramétricos: GMM, HMM para datos secuenciales Métodos no paramétricos: Métodos basados en estimaciones de pdf mediante k-NN o Parzen, “string-matching”, SVMs, etc.
Propone solución recurrente de 1-SVM aplicando el método IR-WLS con ventana de olvido exponencial Propone método de poda para limitar la complejidad computacional Compara frente a NORMA, otra implementación generalista para SVM adaptativa basada en descenso por gradiente