Change-point detection

Change-point detection Machine Learning Group 25 de febrero de 2013

Outline Introducción: Concepto, ejemplos … www.changepoint.info Formulaciones clásicas Formulaciones bayesianas Formulaciones “en-línea” Conclusiones

Introducción Definición de changepoint: “An instance in time where statistical properties before and after this point differ”

Introducción (II) El primer método apareció en la literatura estadística en la década de los 50 (Page et al., 54). De hecho, gran cantidad de métodos se han propuesto en este ámbito desde entonces Durante las dos últimas décadas se han sumado contribuciones en el ámbito del aprendizaje máquina, incluyendo aportaciones recientes de tipo bayesiano Otros nombres: segmentación, “structural breaks”, “break points”, “regime switching”, “detecting disorder” Numerosas aplicaciones: • En el ámbito de la climatología • Biomédicas: segmentación de DNA, análisis de EEG, etc • Control • Análisis de tráfico en redes • Finanzas • …

Taxonomía • Onepoint vs Multipoint • Control charts • Formulaciones clásicas • Formulaciones frecuentistas (paramétricas o no) • Formulaciones de tipo bayesiano • Retrospective Segmentation • (Batch) • Changepoint detection Multipoint Detección de novedad (preferibles métodos incrementales y baratos) Bayesian online changepoint detection • Causal Segmentation • (On-line)

Objetivo de la sesión Presentaremos algunos ejemplos ilustrativos de estas técnicas: Para el caso “batch” estudiaremos dos artículos “review”; uno con aproximaciones clásicas y otro con aproximaciones bayesianas Para el caso “online” revisaremos un método propio y otro reciente de tipo bayesiano

www.changepoint.info

Software La mayoría de métodos “clásicos” son fácilmente implementables utilizando la toolbox de estadística de Matlab Numerosos paquetes comerciales disponen de herramientas para changepoint detection, pero en su mayoría son limitados en cuanto al tipo de cambio que se detectan (fundamentalmente desplazamiento de medias) Existen numerosas toolboxes específicas, la mayoría de ellas disponibles para R. En changepoint.info se recogen 22 diferentes, si bien varias son específicas a ciertas aplicaciones

Segmentación Retrospectiva

Two-phase regression model (Lund and Reeves, 2002) Al contrario del enfoque del artículo, comenzaremos con el modelo más complejo, que como vemos permite detectar desplazamientos de medias y cambios de tendencias H0 puede testearse usando un F test: Valores grandes sugieren que HA es cierta, por lo que si no se conoce la situación del changepoint: En lugar del índice temporal puede utilizarse una secuencia de referencia xt

Standard normal homogeneity (Reeves et al., 2006) Para el caso en que únicamente queremos detectar desplazamientos de medias: Un estadístico suficiente puede obtenerse a partir del cociente de verosimilitudes como: Una ventaja de estos métodos clásicos es que los umbrales pueden ajustarse según el nivel deseado de certeza

Jerarquía de modelos (Vincent y Gullet, 1999) Cuando no conocemos el modelo a aplicar, podemos considerar una jerarquía en orden creciente de complejidad: En cada paso evaluamos la idoneidad del modelo y, en su caso, la verosimilitud de un punto de cambio

Jerarquía de modelos (II) Una alternativa frecuente para seleccionar el modelo más adecuado de una jerarquía es utilizar un criterio de verosimilitud penalizado El inconveniente es el coste computacional, sobre todo cuando no conocemos el valor de c, ya que hay que explorarlo para obtener el mínimo valor del AIC o BIC

Propone distintos métodos basados en modelo, bajo enfoque probabilístico (no necesariamente bayesiano) Los métodos propuestos están implementados en una de las toolboxes enumeradas anteriormente Notac:

Ejemplo: Piecewise Linear Regression El modelo incluye la posibilidad de detectar desplazamientos de medias y cambios de varianza Permite detectar cambios de tendencia, ya sea respecto del tiempo (con zt = t) o respecto de una señal de referencia Permite trabajar con señales AR … i.e., todos los casos de la figura vista al comienzo de la presentación. Pero la selección de z_t indica que ha de fijarse el modelo a priori

Método LRT para un único punto Existe la posibilidad de penalizar la verosimilitud, pero en caso binario esto supone simplemente un cambio en el umbral del decisor

Enfoque bayesiano para un único punto Priors de los hiperparámetros Prior de la existencia de cambio: Pr(M=1) Prior para la posición del punto de cambio: p(τ) Probabilidades a posteriori: donde Q(a,b) es la verosimilitud del segmento una vez marginalizados los parámetros (sigmas y betas)

Enfoque bayesiano para un único punto (II) Si únicamente queremos detectar la existencia de un cambio, tendríamos que marginalizar la posición, y quedaría: El Factor de Bayes (entre paréntesis) puede utilizarse para detectar el punto en el que es más probable que se produzca el cambio Los autores comentan que la selección de ψ puede ser bastante crítica. En ausencia de información a priori podríamos ajustarlo con los valores que maximizan la verosimilitud, o bien hacer un tratamiento Bayesiano (más complejo)

Prestaciones Escenario de cambio de varianza Promedio sobre 10000 secuencias de longitud 200 Enfoque Bayesiano significativamente mejor, sobre todo para valores intermedios de la varianza del ruido Motivo: Promedia sobre distintas posiciones en las que puede haberse producido el cambio

Generalización para múltiples puntos Segmentación binaria: Iterativamente, comenzando con los puntos que maximizan el cociente de verosimilitudes Búsqueda de segmentos por vecindad: Evaluamos la log-verosimilitud para todos los posibles segmentos, y luego vamos fusionando hasta un máximo de puntos. O(n2) Minimum Description Length: El número de puntos incrementa el número de parámetros, y por tanto incrementa el valor de la función de coste de log-verosimilitud penalizada En caso bayesiano hay 2 posibilidades: Prior sobre el número de puntos + prior sobre su posición condicionada al número de puntos Prior sobre la longitud de los segmentos. Tiene numerosas ventajas (computacional, robustez a la longitud de la secuencia …)

Segmentación secuencial (“on-line”)

Changepoint detection basada en detección de novedad Detección de novedad: identificación de puntos situados en regiones de baja densidad de probabilidad Existen numerosos métodos, si bien son preferibles aquéllos que pueden ser adaptados según se dispone de nuevas observaciones, sin necesidad de reentrenar El éxito del método puede depender fuertemente del tipo de parametrización utilizada Métodos paramétricos: GMM, HMM para datos secuenciales Métodos no paramétricos: Métodos basados en estimaciones de pdf mediante k-NN o Parzen, “string-matching”, SVMs, etc.

Propone solución recurrente de 1-SVM aplicando el método IR-WLS con ventana de olvido exponencial Propone método de poda para limitar la complejidad computacional Compara frente a NORMA, otra implementación generalista para SVM adaptativa basada en descenso por gradiente

Change-point detection

Change-point detection

Presentation Transcript

Applying Change Point Detection in Vaccine Manufacturing

Change Detection

Change Detection

Sketch-based Change Detection

Change Detection

Dynamic Floating-Point Error Detection

Improving SIFT Interest Point Detection

Detection Theory Chapter 12 Model Change Detection

Dynamic Floating-Point Cancellation Detection

GEOMORPHIC CHANGE DETECTION

Shot Change Detection

Homework_06 Shot Change Detection

Change-Point Detection Techniques for Piecewise Locally Stationary Time Series

Applications of change point detection in Gravitational Wave Data Analysis

Change point detection in the time frequency plane

Change detection

Point Source Detection and Localization

Registration-Based Change Detection

Feature extraction for change detection

Homework: Shot Change Detection

Prediction and Change Detection

Regional Climate Change Detection