440 likes | 605 Views
Aprendizagem Hebbiana e PCA. Prof. Júlio Cesar Nievola PPGIA PUCPR. Aprendizagem Hebbiana. A comunicação entre dois neurônios é facilitada pela excitação repetida A Regra de Hebb diz que se a saída do i -ésimo PE é y i e a ativação do j -ésimo PE é x j , então
E N D
Aprendizagem Hebbiana e PCA Prof. Júlio Cesar Nievola PPGIA PUCPR
Aprendizagem Hebbiana • A comunicação entre dois neurônios é facilitada pela excitação repetida • A Regra de Hebb diz que se a saída do i-ésimo PE é yi e a ativação do j-ésimo PE é xj, então onde é o tamanho do passo • Para aplicar a regra de Hebb, somente os sinais de entrada precisam fluir através da rede • A regra de Hebb é local ao peso Prof. Júlio Cesar Nievola
Sistemas biológico e artificial Prof. Júlio Cesar Nievola
Efeito da atualização Hebbiana • A aprendizagem Hebbiana atualiza os pesos de acordo com onde n é o número da iteração e o tamanho do passo • Para um PE linear, y = wx e, portanto, • A aprendizagem Hebbiana é intrinsecamente instável, produzindo pesos muito grandes Exemplo 01 Prof. Júlio Cesar Nievola
PE com várias entradas • Em notação vetorial a saída do PE é • Assumindo entradas e pesos normalizados, y maior significa que ele está mais “próximo” da direção do vetor peso • Durante a aprendizagem os pesos expostos aos dados condensam toda informação em seus valores • Os pesos são a memória de longo termo Prof. Júlio Cesar Nievola
Aprendizagem Hebbiana com várias entradas Saída de um PE linear no espaço vetorial PE linear com D entradas Exemplo 02 Prof. Júlio Cesar Nievola
Memória • O PE Hebbiano é simples e cria uma medida de similaridade (produto interno) no espaço de entrada de acordo com a informação contida nos pesos • A saída do PE responde em nível alto ou baixo, de acordo com a similaridade entre entrada atual e o que ele “recorda” do treinamento • O PE Hebbiano implementa um tipo de memória chamada memória associativa Exemplo 03 Prof. Júlio Cesar Nievola
Regra de Hebb e Aprendizagem por Correlação • Na aprendizagem batch a regra de Hebb atualiza os pesos com uma estimativa amostral da função de autocorrelação • Com a regra de Hebb, o algoritmo faz a subida do gradiente (busca do máximo) dos dados de entrada • A regra de adaptação on-line é simplesmente uma versão estocástica e tem o mesmo comportamento Exemplo 04 Prof. Júlio Cesar Nievola
Representação de Dados em Espaços Multidimensionais • Os pesos da rede treinada com a regra de aprendizagem de Hebb indicam a direção do gradiente do campo de entrada • A saída da rede indica a projeção de maior variância, ou seja, os eixos do sistema principal de coordenadas onde a saída projetada tem a maior variância • É uma forma de criar pesos de rede ajustados às estatísticas de segunda ordem dos dados de entrada Prof. Júlio Cesar Nievola
Sistema de coordenadas principais Prof. Júlio Cesar Nievola
Regra de Oja • Para criar uma forma útil da aprendizagem de Hebb é necessário normalizar os pesos • A forma mais simples foi proposta por Oja • Assumindo um tamanho de passo pequeno, Oja aproximou a equação anterior por Prof. Júlio Cesar Nievola
Regra de Oja • A regra de Oja pode ser considerada a atualização de Hebb com uma atividade normalizada • Ela evita o crescimento ilimitado dos pesos aplicando um “termo de esquecimento” proporcional ao quadrado da saída • Se o padrão não estiver presente freqüentemente, ele será esquecido, já que a rede esquece associações antigas Exemplo 05 Prof. Júlio Cesar Nievola
A Regra de Oja implementa o Máximo Autofiltro • O treinamento de um PE linear com o algoritmo de Oja produz • um vetor de pesos que é o autovetor da matriz de autocorrelação de entrada • na saída o maior autovalor • O vetor de pesos obtido usando o algoritmo de Oja indica a direção onde os dados produzem a maior projeção • Uma rede com um único PE treinada com a regra de Oja extrai o máximo possível de informação da entrada Prof. Júlio Cesar Nievola
Projeção de um agrupamento de dados nos componentes principais Prof. Júlio Cesar Nievola
Análise da Componente Principal • Suponha-se ter uma entrada de dados de uma alta dimensionalidade (D dimensões) • Busca-se projetar estes dados em um espaço de dimensionalidade M menor (M < D). Isto é chamado extração de características • Deseja-se esta projeção preservando ao máximo a dispersão (variância) sobre os dados de entrada • A projeção linear que realiza isto é chamada de PCA (“Principal Component Analysis”) Prof. Júlio Cesar Nievola
PCA • PCA é o melhor extrator linear de características para reconstrução de sinais. Com o uso de M características, o erro e na aproximação será de • Representando o sinal em subespaços cada vez maiores cujos eixos são determinados a partir dos dados é chamada decomposição subespacial • É usada para encontrar o melhor subespaço com uma dada dimensão que preserva ao máximo a informação dos dados Prof. Júlio Cesar Nievola
Rede PCA • Pode-se construir uma RNA que implementa PCA online com regras de aprendizagem local • Calcula-se o maior autovetor usando a regra de Oja • Projeta-se os dados sobre um espaço perpendicular ao maior autovetor • Aplica-se novamente o algoritmo para encontrar o segundo maior componente principal • Repete-se o procedimento até obter ordem MD • Método da deflação: a projeção sobre o espaço ortogonal é obtida subtraindo a saída de todos os componentes de saída anteriores (após convergência) da entrada Prof. Júlio Cesar Nievola
Rede PCA Prof. Júlio Cesar Nievola
Regra de Sanger • Assume-se que a rede tem D entradas e M saídas (MD), cada uma dada por • Os pesos são atualizados através da fórmula • Isto implementa a deflação após a convergência do sistema. • A atualização não é local Exemplo 06 Prof. Júlio Cesar Nievola
PCA em aplicações • Pode-se modelar compressão de dados como uma operação de projeção onde o objetivo é encontrar um conjunto de bases que produz uma grande concentração do sinal em poucos componentes • Embora a princípio imagine-se que pelo sistema PCA poder ser capaz de preservar o sinal em um subespaço, ele também é um projetor ótimo para classificação, tal idéia não corresponde à realidade Exemplo 07 Prof. Júlio Cesar Nievola
Relação entre autodireções e classificação Prof. Júlio Cesar Nievola
Aprendizagem Anti-Hebbiana • A regra anti-Hebbiana inclui um sinal de menos: • A adaptação busca o mínimo da superfície de desempenho e a variância de saída é minimizada • Os pesos buscam buscam direções no espaço de entrada onde os grupos de dados tem projeção pontual, chamada espaço nulo (ou ortogonal) dos dados • A saída da rede sempre produzirá saída zero Exemplo 08 Prof. Júlio Cesar Nievola
Aprendizagem Anti-Hebbiana • Se os dados preenchem o espaço de entrada a única maneira de minimizar a saída da rede é tornar os pesos iguais a zero • Se os dados existem em um subespaço os pesos encontram as direções onde os dados são projetados em um ponto • O comportamento de aprendizagem anti-Hebbiana decorrelaciona a saída de sua entrada Prof. Júlio Cesar Nievola
Convergência da RegraAnti-Hebbiana • A convergência da regra anti-Hebbiana pode ser controlada pelo tamanho do passo, pois será estável se < 2 / , onde é o autovalor da função de autocorrelação da entrada. Para um sistema com várias entradas o requisito deve ser onde max é o maior autovalor da função de autocorrelação de entrada Exemplo 09 Prof. Júlio Cesar Nievola
Estimando a Correlação Cruzada em Redes Hebbianas • Suponha-se ter dois conjuntos de dados formados por N exemplos de dados de dimensão D: x1,...,xD e d1,...,dD e deseja-se estimar a correlação cruzada entre eles • A correlação cruzada é uma medida de similaridade entre dois conjuntos de dados que estende a idéia do coeficiente de correlação • Para calcular a correlação cruzada, usa-se uma rede linear com D entradas x e com D saídas y. Substitui-se a saída y na regra Hebbiana pelo conjunto de dados d Prof. Júlio Cesar Nievola
Rede Hebbiana com várias entradas e várias saídas Prof. Júlio Cesar Nievola
Aprendizagem Hebbiana Forçada • Para calcular a correlação cruzada usa-se a aprendizagem Hebbiana forçada, dada por • Se wij(0)=0, após N iterações tem-se • Se =1/N e as condições iniciais são nulas os elementos da matriz de correlação cruzada são exatamente os pesos da rede linear • Uma rede linear treinada com a aprendizagem Hebbiana forçada é chamada correlacionador ou heteroassociador Exemplo 10 Prof. Júlio Cesar Nievola
Dissimilaridade • Tem-se dois conjuntos de dados x e d. Tomando x como entrada, deseja-se obter uma saída y tão dissimilar quanto possível do conjunto de dados d • Isto é equivalente a encontrar a rotação de x tal que y é ortogonal a d (ou seja, no espaço nulo de d) • Com a regra wij = - xjdi o sistema adiante realiza esta função: Função de um PE de decorrelação Exemplo 11 Prof. Júlio Cesar Nievola
Inibição Lateral • Outra estratégia útil para decorrelacionar sinais é criar conexões laterais entre PEs adaptados com aprendizagem anti-Hebbiana • É um método para construir redes que encontram o espaço da componente principal com uma regra local Conexões laterais de inibição Prof. Júlio Cesar Nievola
Modelo APEX para PCA • Diamantaras demonstrou que a rede APEX pode implementar o PCA adaptando os pesos através de • Neste caso, a regra de Oja adapta os pesos e a aprendizagem anti-Hebbiana as conexões laterais • A regra é local • As componentes principais são aprendidas em paralelo e não usando deflação Prof. Júlio Cesar Nievola
Topologia APEX para PCA Prof. Júlio Cesar Nievola
Whitening Transform • Ela ortogonaliza os dados de entrada e também normaliza os autovalores • Transforma quaisquer dados descritos por uma autocorrelação R com uma faixa de autovalores arbitrários em uma matriz ortonormal • Isto melhora sensivelmente a velocidade de sistemas de aprendizagem lineares, que usam métodos de primeira ordem Prof. Júlio Cesar Nievola
Whitening Transform • A topologia é a APEX, adaptando todos os vetores de uma só vez, levando a uma estrutura adaptativa simétrica. A regra de adaptação é • A adaptação dos pesos não é local, mas com a inibição lateral isto pode ser facilmente implementado por uma rede de camada única • Ela cria um espaço ortonormal na saída equalizando os autovalores e não rotacionando os eixos Prof. Júlio Cesar Nievola
Memória Associativa Linear (LAM) • O associador linear, também chamado memória associativa linear (LAM) fornece um paradigma alternativo à memória computacional • A topologia do associador linear, treinado com a regra Hebbiana forçada pode ser usado como uma memória associativa • Tal dispositivo pode ser treinado para associar uma entrada x a uma resposta d. Então, na ausência de d, x pode produzir uma saída y que é similar a d Exemplo 12 Prof. Júlio Cesar Nievola
Crosstalk em LAMs • Assume-se ter K pares de vetores entrada-saída xkdk. A memória associativa é treinada pela apresentação repetida de cada entrada • Usando o princípio da superposição a matriz de pesos final é a soma das matrizes individuais: • Quando um vetor de entrada xl é apresentado à rede, sua saída é Exemplo 13 Prof. Júlio Cesar Nievola
Crosstalk em LAMs • O segundo termo é o crosstalk e indica o quanto as outras saídas interfere com a verdadeira. Ele é uma função de quão similar a entrada xl é em relação a outras entradas xk • Se todas as entradas são ortogonais, o produto interno de xl e xk é zero (crosstalk zero) • Neste caso, o associador linear produz recuperação perfeita Prof. Júlio Cesar Nievola
Crosstalk em LAMs • Capacidade de armazenamento é definido como o máximo numero de padrões que pode ser armazenado e recuperado sem degradação • Na prática as entradas devem ser ortogonais entre si para que o crosstalk não seja grande. Para isto basta encontrar um conjunto de vetores ortogonais • Neste caso, o número de padrões para recuperação perfeita é igual ao tamanho da camada de entrada • O padrão mais próximo à entrada é recuperado Prof. Júlio Cesar Nievola
LMS como uma combinação de regras Hebbianas • A regra LMS é expressa por • Portanto, • A regra LMS é a combinação de um termo de Hebb entre a resposta desejada e a entrada e um termo anti-Hebbiano entre o PE de saída e sua entrada • Portanto, o princípio de correlação de Hebb também surge na aprendizagem supervisionada Prof. Júlio Cesar Nievola
Melhorando o desempenho de Memórias Associativas Lineares • Aprendizagem supervisionada pode ser aplicada para treinar um associador linear para hetero-associação. P.ex. treinar os pesos com LMS como • O segundo termo (anti-Hebbiano) reduz crosstalk em cada iteração. LAM com LMS é ótima (OLAM) • Memórias associativas com termo de Hebb forçado trabalham bem somente com padrões esparsos, tal como o cérebro humano que tem muitos neurônios Exemplo 14 Prof. Júlio Cesar Nievola
LAM e Regressão Linear • As topologias da LAM e do problema do regressor linear são semelhantes. O que isto implica? • Quantidade de padrões x camada de entrada: • LAM: mais equações que dados • Regressor: mais dados que equações • A rede linear pode memorizar (trabalhando como uma LAM) ou generalizar as propriedades estatísticas dos pares entrada-saída (trabalhando como um regressor) • Uma função de aproximação com um pequeno número de exemplos (para regressão não-linear ou classificação) torna-se no final uma memória associativa e não generaliza bem!!! Prof. Júlio Cesar Nievola
Auto-associação • Em auto-associação o padrão de saída é igual à entrada e o sistema é treinado com aprendizagem Hebbiana forçada ou com o LMS • O auto-associador realiza uma autodecomposição da função de autocorrelação, isto é, as saídas serão os autovalores da função de autocorrelação e os pesos serão os autovetores associados • Se as entradas não forem ortogonais e o sistema é treinado com LMS o crosstalk decai até zero, o que não acontece com a aprendizagem Hebbiana forçada (crosstalk diferente de zero) Prof. Júlio Cesar Nievola
Reconstrução de sinal Prof. Júlio Cesar Nievola
Auto-associador com W2 = W1T Exemplo 15 Prof. Júlio Cesar Nievola
Auto-Associador • A rede auto-associadora é normalmente treinada com o backpropagation (com PEs lineares) • O quadrado dos sinais zi são realmente os autovalores e seu número seleciona o tamanho do espaço de reconstrução • A superfície de desempenho do auto-associador é não-convexa, com pontos de sela mas não tem mínimos locais, ou seja, a convergência para os mínimos locais é assegurada pelo controle das taxas de aprendizagem Exemplo 16 Exemplo 17 Exemplo 18 Exemplo 19 Prof. Júlio Cesar Nievola