360 likes | 473 Views
Aproximação de Funções usando MLPs, RBFs e SVM. Prof. Júlio Cesar Nievola PPGIA PUCPR. Aproximação de Funções. Regressão : representar o relacionamento entre os dados de entrada e saída
E N D
Aproximação de Funções usando MLPs, RBFs e SVM Prof. Júlio Cesar Nievola PPGIA PUCPR
Aproximação de Funções • Regressão: representar o relacionamento entre os dados de entrada e saída • Classificação: considera-se a entrada como sendo pertencendo a várias classses e o objetivo é separá-la nas classes tão corretamente quanto possível • Aproximação de funções(AF): regressão linear é AF com topologias lineares e classificação é AF com funções especiais chamadas funções indicadoras Prof. Júlio Cesar Nievola
Mapeamento Entrada-Saída como Aproximação de Funções • Objetivo da Aprendizagem: descobrir a função f() dado um número finito (desejável pequeno) de pares entrada-saída (x,d) • RNAs são úteis para aproximação de funções porque: • elas são aproximadores universais • elas são aproximadores eficientes • elas podem ser implementadas como máquinas de aprendizagem Prof. Júlio Cesar Nievola
Treinamento supervisionado como aproximação de funções Prof. Júlio Cesar Nievola
Teorema da Projeção Linear • Objetivo da aproximação de funções: em uma área compacta S do espaço de entrada descrever uma função f(x), pela combinação de funções i(x) mais simples onde wi são elementos reais do vetor w=[w1,…,wN] tais que e pode ser arbitrariamente pequeno. A função é chamada de aproximante e as funções {i(x)} são chamadas de funções elementares Prof. Júlio Cesar Nievola
Implementação do Teorema da Projeção Prof. Júlio Cesar Nievola
Aproximação de Funções • Decisões básicas na aproximação de funções • escolha das funções elementares {i(x)} • como calcular os pesos wi • seleção do número de funções elementares • Se o número de vetores de entrada xi é igual ao número de funções elementares {i(x)} a solução torna-se • Condição importante: a inversa de deve existir Prof. Júlio Cesar Nievola
Interpretação Geométrica do Teorema da Projeção • Quando f(x) é externo ao espaço de projeção, o erro diminui fazendo mais próximo de f(x) • Isto pode ser feito aumentando o número de funções elementares Prof. Júlio Cesar Nievola
Escolhas para as funções elementares • Requisito: -1(x) deve existir. Isto é obtido se as funções elementares constituírem uma base, isto é, elas forem linearmente independentes, ou seja, • Hipótese simplificadora: impor que as funções elementares usem bases ortonormais: onde (x) é a função delta de Dirac Prof. Júlio Cesar Nievola
Função Elementar: sinc Exemplo 01 Prof. Júlio Cesar Nievola
Função elementar: série de Fourier Exemplo 02 Prof. Júlio Cesar Nievola
Função elementar: wavelet • A partir da wavelet mãe (x) obtém-se bases através de translação e escalamento: Prof. Júlio Cesar Nievola
Bases para Aproximação de Funções na Rede MLP • As funções elementares podem ser • globais, quando respondem a todo o espaço de entrada • locais, quando respondem de maneira especial a uma área limitada do espaço de entrada • Uma rede MLP com uma camada escondida com um PE de saída linear pode ser considerado como uma implementação de um sistema para aproximação de funções, onde as bases são os PEs escondidos • O PE sigmoidal responde a todo o espaço de entrada, ou seja, a MLP implementa uma aproximação com funções elementares globais Exemplo 03 Prof. Júlio Cesar Nievola
Aproximação de Funções usando Rede MLP • A rede MLPrealiza aproximação de funções com um conjunto adaptativo de bases, determinados a partir dos dados entrada-saída • As bases são alteradas em função dos dados, ou seja, o espaço de projeção é dependente dos dados • O treinamento é mais difícil pois não somente a projeção como também a base está sendo alterada • As representações são mais compactas • Devido à alta conectividade e natureza global das funções elementares, bom ajuste é obtido com poucas bases, isto é, com poucos PEs escondidos Prof. Júlio Cesar Nievola
Aproximação de Funções usando Rede MLP • O treinamento é mais difícil, pois as bases não são ortogonais • MLPs são mais eficientes que polinômios para aproximação de funções em espaços de alta dimensão Aproximação de funções usando função logística Exemplo 04 Prof. Júlio Cesar Nievola
MLP: Classificação x Aproximação de funções • Elemento de saída • Aproximação de funções: PE linear • Classificação: PE não-linear • Ponto de operação dos PEs escondidos • Aproximação de funções: longe da saturação para que mapeamento seja suave • Classificação: PEs operam na região de saturação, já que as saídas devem tender para 1 ou 0 Exemplo 05 Prof. Júlio Cesar Nievola
Base alternativa para sistemas não-lineares: rede RBF • Para as funções de base radial (RBF) tem-se onde () é normalmente uma função gaussiana: com variância 2 ou covariância = 2I. • Gaussiana centrada em xi com variância 2, ou seja, é uma função elementar local Prof. Júlio Cesar Nievola
Aproximação de RBFs em uma dimensão Exemplo 06 Prof. Júlio Cesar Nievola
Redes RBF • Aproximação de funções em área limitada do espaço de entrada requer • posicionamento das gaussianas localizadas para cobrir o espaço • controle da largura de cada gaussiana • ajuste da amplitude de cada gaussiana • Como as bases RBF são locais, alteração em uma delas não perturba a aproximação em outras áreas do espaço Prof. Júlio Cesar Nievola
Redes RBF • Necessita-se exponencialmente de mais RBFs para cobrir espaços de alta dimensão • Com os centros já determinados, as RBFs treinam eficientemente, já que o erro é linear nos pesos • Se os centros forem otimamente ajustados, isto garante a convergência para o mínimo global • Redes RBF possuem a propriedade de melhor aproximação como definido por Chebyshev Exemplo 07 Prof. Júlio Cesar Nievola
Interpretação probabilística do mapeamento • Redes MLP e RBF realizam regressão não-linear, generalizando o Adaline • Capazes de descobrir qualquer relação entrada-saída determinista com ruído aditivo de média zero • Requisitos • convergência para mínimo global • número graus de liberdade suficiente • dados suficientes para treinamento • Estas conclusões são válidas desde que se use o critério MSE no treinamento Exemplo 08 Prof. Júlio Cesar Nievola
Adaptação do centro e da variância das gaussianas • Método simples: distribuir uniformemente os centros das gaussianas • Para funções que cobrem todo o espaço OK • Para clusters de dados não é indicado • Métodos supervisionado e auto-organizado • Backpropagation pode ser usado para treinar RBFs • Treinamento lento • Variâncias se tornam muito grandes e RBF perde a sua natureza de processo local Prof. Júlio Cesar Nievola
Método auto-organizado de treinamento de RBFs • Treinamento em dois passos • Adaptação independente dos pesos da primeira camada: os clusters de dados atuam como atratores para os centros das gaussianas e as variâncias são estimadas para cobrir a distribuição dos dados de entrada • Adaptação dos pesos de saída, usando o algoritmo LMS já que o problema de adaptação é linear nos pesos, mantendo a primeira camada “congelada” Exemplo 09 Prof. Júlio Cesar Nievola
Seleção do número de bases • Com poucas bases a aproximação é fraca • Depende do tamanho da rede e dos valores dos coeficientes • Polinômio de grau muito baixo: bias do modelo • Polinômio de grau muito alto: grande oscilação, ou seja, variância do modelo • Compromisso entre baixo bias e baixa variância ao longo do domínio Prof. Júlio Cesar Nievola
Sub- e sobre-ajuste do polinômio Exemplo 10 Prof. Júlio Cesar Nievola
Dilema Bias-Variância • Problema da generalização: • Pontos fiduciais são os exemplos de treinamento • O domínio representa todos possíveis dados de teste para a máquina de aprendizagem • O polinômio é representado pelo mapa funcional entrada-saída da máquina de aprendizagem • Os pesos da máquina de aprendizagem são equivalentes aos coeficientes do polinômio • O tamanho do polinômio é o número de pesos Prof. Júlio Cesar Nievola
Dilema Bias-Variância • Com poucos parâmetros o desempenho no conjunto de treinamento (e de teste) é ruim, pois as superfícies de separação não são adequadamente colocadas • Com muitos parâmetros, há um ajuste exato (memorização) ao conjunto de treinamento, mas o resultado no conjunto de teste não é aceitável • A diferença entre o desempenho sobre os conjuntos de treinamento e teste é uma medida da variância do modelo • O objetivo da aprendizagem não deve ser o erro igual a zero no conjunto de treinamento Prof. Júlio Cesar Nievola
Penalizando o erro de treinamento • Generalização pode ser vista como encontrar um critério geral para a determinação da ordem do modelo para um problema • Erro de ajuste não é um critério do ótimo • O critério MDL (minimum description length) [Rissanen, 89] considera o comprimento do código do modelo e dos erros • O melhor compromisso em termos de comprimento de código reside entre máquinas menores e erros aceitáveis Prof. Júlio Cesar Nievola
Critério de Informação de Akaike • Penaliza o erro médio quadrático no treinamento incluindo um termo que aumenta com o tamanho do modelo onde J(k) é o MSE do conjunto de treinamento, k é o número de parâmetros livres do modelo e N é o número de amostras de dados • Funciona bem para sistemas de uma camada, especialmente lineares. Para várias camadas há problemas, pois o tamanho do modelo não é somente função do número de pesos Prof. Júlio Cesar Nievola
Critério de Informação de Akaike • Ponto positivo: usar todos os dados disponíveis para treinamento • Foi demonstrado que a validação cruzada é assintoticamente equivalente ao critério de informação de Akaike Melhor modelo segundo o critério de Akaike Exemplo 11 Prof. Júlio Cesar Nievola
Regularização • A teoria da regularização adiciona um termo extra ao custo da função: , onde Jc é a função custo, Jr é o regularizador e é o parâmetro que indica a influência do regulador versus o custo • Um regularizador é • Decaimento de pesos é um regulador: • deve ser selecionado experimentalmente Exemplo 12 Prof. Júlio Cesar Nievola
RBF como regressor: A rede neural probabilística • Pode-se utilizar a RBF para estimar a função de regressão de dados ruidosos seguindo as idéias de núcleo de regressão • Busca-se estimar a função densidade de probabilidade p(x,d) de pares entrada-saída (xi,di) usando o método da janela de Parzen: é a largura da gaussiana e deve ser determinada experimentalmente Exemplo 13 Exemplo 14 Exemplo 15 Prof. Júlio Cesar Nievola
SVM – Support Vector Machine • Idéias básicas • Transformar os dados para um espaço de alta dimensionalidade para tornar as funções discriminantes lineares práticas • Treinamento usando classificadores de margem larga • Quando usada como uma SVM, a RBF coloca uma gaussiana em cada amostra de dados de maneira tal que o espaço de características torna-se tão grande quanto o número de amostras • Treinar uma RBF para margem larga desacopla a capacidade do classificador do espaço de entrada e simultaneamente fornece boa generalização Prof. Júlio Cesar Nievola
Extensão do Adatron para Máquinas de Núcleo • Escreve-se a função discriminante da RBF em termos da representação dependente dos dados onde G(x,2) representa a função gaussiana, L é o número de PEs na RBF, wk são os pesos, N é o número de amostras e i são conjuntos de multiplicadores (um para cada amostra) • Este algoritmo, chamado Adatron de núcleo pode adaptar uma RBF para ter uma margem ótima, sendo a versão “online” da abordagem de otimização quadrática utilizada para SVM e pode encontrar as mesmas soluções que o algoritmo original de Vapnik Prof. Júlio Cesar Nievola
Topologia de uma máquina SVM com núcleo RBF Exemplo 16 Prof. Júlio Cesar Nievola
Adatron com núcleo e margem suave • Existem espaços de características em que os padrões não são linearmente separáveis • Introduz-se então uma margem suave e obtém-se novas funções g(xi) que podem ser implementadas como algoritmo iterativo • Grandes conjuntos de entrada produzem RBFs muito grandes, com uma gaussiana por amostra de dados • Como a camada de entrada não tem parâmetros livres o mapeamento pode realmente ser calculado uma vez e salvo em memória Exemplo 17 Prof. Júlio Cesar Nievola