730 likes | 835 Views
DETECÇÃO DE FALHAS EM REDES DE ESCOAMENTO ATRAVÉS DA ANÁLISE DE COMPONENTES PRINCIPAIS. Carlos André Vaz Junior. Introdução. Os desafios. Detectar. Se ocorreu.... . Identificar a falha. O que ocorreu... . Localizar. Onde ocorreu. Quantificar. Qual a gravidade do que ocorreu... .
E N D
DETECÇÃO DE FALHAS EM REDES DE ESCOAMENTO ATRAVÉS DA ANÁLISE DE COMPONENTES PRINCIPAIS Carlos André Vaz Junior
Introdução Os desafios... Detectar Se ocorreu.... Identificar a falha O que ocorreu... Localizar Onde ocorreu... Quantificar Qual a gravidade do que ocorreu...
Implementação de falhas Falha de sensor Vazamento
Panorama geral SPE: square prediction error Spca: similarity PCA Sdist: distance similarity factor SVI: índice de validade do sensor
Metodologias • a)PCA
Metodologia PCA Autovetor associado ao maior autovalor R1 R2
Matriz de dados (X) Metodologia PCA Matriz de variância e covariância (VC) VC = cov ( X ) [251x16] [16x16] [V,D] = eig (VC) Autovetores (V) Autovalores (V) [16x16]
Metodologia PCA Caminho 1: Matriz de componentes principais (MC): Uma vez os autovetores ordenados a partir dos respectivos autovalores associados, procede-se a seleção dos n-componentes principais e a montagem da matriz. [16x8] [16x16] 2 [251x16] [251x16] Dados reconstruídos Dados originais Mesma dimensão final!!
Metodologia PCA Caminho 1: Exemplo [2x1] [2x2] [251x2] [251x2] Dados reconstruídos Dados originais O “Caminho 1” leva direto aos dados reconstruídos!
Metodologia PCA Caminho 2: Matriz de componentes principais (MC): Uma vez os autovetores ordenados a partir dos respectivos autovalores associados, procede-se a seleção dos n-componentes principais e a montagem da matriz. [2x850] [16x8] [850x16] 2 PCAdataCol=MC’*Dados’ PCAdata=PCAdataCol’ [850x2] Dados representados no sistema de coordenadas dos dois componentes principais Dados originais
Metodologia PCA Caminho 2: [2x850] [16x8] [850x16] 2 PCAdataCol=MC’*Dados’ PCAdata=PCAdataCol’ DadosModCol=MC*PCAdataCol’ DadosMod = DadosModCol’ [850x2] [16x850] [850x16] Dados originais Dados reconstruídos
Metodologia PCA Caminho 2: Exemplo PCAdata: O “Caminho 2” permite parar nos dados representados usando os eixos dos componentes principais.
Metodologias • a)PCA • b)Detecção de anomalias (PCA)
1ª Técnica de detecção de anomalias Detecta-se falha quando o erro de previsão do modelo extrapola os limites do intervalo de confiança: T’ T’’
Q: (somatório quadrático dos erros) [251x1] SPE: 1ª Técnica de detecção de anomalias Representa o erro quadrático da previsão (square prediction error). O parâmetro SPE é o somatório do erro ponderado com o tempo. Ou seja, cria-se um “efeito memória” onde erros no passado tem maior ou menor influência sobre o valor de SPE mais recente. Tal ponderação é efetuada através do parâmetro lambda. Quanto mais próximo do valor unitário lambda encontra-se, menor a influência do passado, sendo SPE função principalmente dos valores mais recentes. Por outro lado, quanto mais próximo de zero o valor de lambda se encontra, maior a influência do passado sobre o valor atual de SPE.
6 dp 1 dp 1ª Técnica de detecção de anomalias Resultado sem ocorrência de falha:
1ª Técnica de detecção de anomalias Resultado com ocorrência de falha:
2ª Técnica de detecção de anomalias Baseia-se também na comparação das fases A e B, agora através da aplicação de índices de “simetria” ou “similaridade”. T’ T’
2ª Técnica de detecção de anomalias Spca: A similaridade entre os dois grupos de dados é quantificada através da comparação de seus componentes principais. Mais precisamente, o Spca compara os subespaços gerados por cada modelo PCA através do cálculo do ângulo entre os componentes principais. O fator de similaridade Spca é influenciado pela orientação espacial do subespaço gerado pelos componentes principais. Onde teta é o ângulo formado entre o “i-ésimo” componente principal do primeiro conjunto de dados e o “j-ésimo” componente principal do segundo conjunto. Na prática, porém, tendo-se as matrizes (MCA e MCB) compostas pelos “k” componentes principais que descrevem os conjuntos de dados, torna-se mais simples calcular Spca na sua forma matricial:
Enquanto o fator de similaridade Spca é influenciado pela orientação espacial do subespaço gerado pelos componentes principais, o fator Sdist (ou “distance similarity factor”) é usado para situações onde os conjuntos de dados têm orientação espacial similar, mas estão localizados em posições distantes. O fator Sdist é a probabilidade que o centro do conjunto de dados H ( ) esteja ao menos a distância do centro dos dados B ( ). Calcula-se Sdist através da equação abaixo: Pseudo inversa da matriz de covariância dos dados S Vetor linha com a média dos dados de cada sensor 2ª Técnica de detecção de anomalias Sdist:
2ª Técnica de detecção de anomalias SF: O fator Sdist provê complemento as propriedades apresentadas pelo Spca, sendo natural seu uso combinado. A junção dos dois fatores é denominada SF, e permite comparar os conjuntos de dados tanto em relação à orientação de seus subespaços quanto a distancia entre eles. A média ponderada é calculada pela equação:
2ª Técnica de detecção de anomalias Abordagem estática: Abordagem dinâmica:
Metodologias • a)PCA • b)Detecção de anomalias (PCA) • c)Detecção de anomalias (classif. hierárquica)
Com anomalia Sem anomalia Dados brutos Classificação hierárquica
Classificação hierárquica A similaridade entre dois pontos pode ser entendida como sendo inversamente proporcional a distância espacial entre esses pontos. Para um espaço vetorial genérico de dimensão “n” (Rn), a distância entre um ponto “i” e outro “j” pode ser definida como: Distância Euclidiana Distância City Block Distância Minkowski r = 3 e 4 (r = 2) (r = 1)
Metodologias • a)PCA • b)Detecção de anomalias (PCA) • c)Detecção de anomalias (classif. hierárquica) • d) Identificação da origem da anomalia
Dados experimentais Dados reconstruídos pelo modelo Resíduo total (todos os sensores) Participação relativa de cada sensor no resíduo Índice de validade dos sensores SVI-D: A metodologia aplicada na identificação do sensor em falha utiliza os “índices de validade dos sensores” – SVI, descritos por Dunia et al [1996]. Foi usado o índice SVI-D, cujo cálculo é apresentado abaixo. O valor de SVI varia entre 0 e 1, sendo 1 indicativo de máxima confiança no correto funcionamento do sensor. Deste modo, os sensores que apresentam menores SVI são os principais suspeitos de estarem apresentando falha. Di = D(:,i) D = D(:,i) [16x16] Cii = C(i,i)
Protótipos www.prevention.indiana.edu falha de 2% no sinal do sensor 16
Metodologias • a)PCA • b)Detecção de anomalias (PCA) • c)Detecção de anomalias (classif. hierárquica) • d) Identificação da origem da anomalia • e) Quantificação da anomalia
Severidade da anomalia d Classificação Hierárquica d Dados brutos
Metodologias • a)PCA • b)Detecção de anomalias (PCA) • c)Detecção de anomalias (classif. hierárquica) • d) Identificação da origem da anomalia • e) Quantificação da anomalia • f) Definir o tipo de anomalia
Definir o tipo de anomalia Sdist vs Spca: Sdist Spca SVI-D + PCA: Falha de sensor Vazamento Protótipos + Classificação Hierárquica:
>> whos CURSO Name Size Bytes Class Attributes CURSO 66x11 1452 char
>> whos NOTAS Name Size Bytes Class Attributes NOTAS 66x8 4224 double
>> MIN MIN = 0.0600 0.0600 0 0 2.7700 2.0000 2.0000 5.0400 >> MAX MAX = 3.9300 4.3600 1.1100 48.0000 97.0000 7.0000 7.0000 9.8400 >> whos X1 X2 X3 X4 X Name Size Bytes Class Attributes X 66x8 4224 double X1 66x1 528 double X2 66x1 528 double X3 66x1 528 double X4 66x1 528 double
XMedio = 0.3117 0.3209 0.2113 0.1103 0.6014 0.4818 0.4333 0.6368
>> EE EE = 0.2861 0.0653 0.0259 0.0148 0.0111 0.0087 0.0032 0.0002 >> percE percE = 68.8564 15.7177 6.2445 3.5687 2.6778 2.1021 0.7741 0.0588
L = 0.0002 0.0032 0.0087 0.0111 0.0148 0.0259 0.0653 0.2861 IL = 1 2 3 4 5 6 7 8
>> percE percE = 68.8564 15.7177 6.2445 3.5687 2.6778 2.1021 0.7741 0.0588 S1=0.2652(X1-0.31168)+0.2732(X2-0.32086)+0.3981(X3-0.2113)+0.2389(X4-0.11027)+ ... ... +0.3536(X5-0.60135)+0.4353(X6-0.4818)+0.3905(X7-0. 4333)+0.4153(X8-0.6368) XMedio = 0.3117 0.3209 0.2113 0.1103 0.6014 0.4818 0.4333 0.6368