920 likes | 1.11k Views
Capítulo 8. Métodos de Aprendizagem Não Supervisionados. Introdução.
E N D
Capítulo 8 • Métodos de Aprendizagem Não Supervisionados Introdução • A análise de dados multivariados tem um papel fundamental em Data Mining e KDD (Knowledge Discovery in Databases). Dados multivariados consistem de diversos atributos ou variáveis tomados sobre cada registro, caso ou observação.
X(n x p) matriz de dados variáveis X1 X2 ... Xp 1 x11 x12 ... x1p 2 x21 x22 ... x2p ... ... ... ... n xn1 xn2 ... xnp • As linhas de X(n x p) são supostamente independentes, mas as colunas são, em geral, correlacionadas.
Principais objetivos: • Reduzir a dimensionalidade: espaço p-dimensional bidimensional ; • Obter escores (índice composto) para todas as observações; • Formar agrupamentos (clusters) de observações similares com base em diversas variáveis. Métodos de aprendizagem supervisionados e não supervisionados: Método de aprendizagem supervisionado: a relação entre as variáveis de entrada e saída (target, objetivo, variável resposta) são estabelecidas pelo pesquisador. Método de aprendizagem não supervisionado: não é definida a variável de saída (variável resposta)
Métodos de aprendizagem não supervisionados: • Modelos de variáveis latentes (Técnicas estatísticas de Componentes Principais (Principal Components) e Análise de fatores (Factor Analysis)) e Modelos de equações estruturais (Structural equations modeling) • Análise de agrupamentos (Análise de Conglomerados, em inglês, Cluster Analysis). Componentes Principais: reduz a dimensionalidade dos dados multivariados, transformando variáveis correlacionadas em variáveis não correlacionadas transformadas linearmente. Análise de Fatores: uns poucos fatores não correlacionados são extraídos, que explicam a máxima quantidade de variância comum e são responsáveis pela correlação observada entre os dados multivariados. As relações entre as variáveis e os fatores são, então, estudadas (investigadas). Análise de conglomerados: é usado para combinar observações (casos) em grupos ou clusters de tal forma que cada grupo seja homogêneo para um conjunto de variáveis. São grupos com características similares.
Aplicações dos métodos não supervisionados Lembrando que mais de um método pode ser usado para resolver o mesmo objetivo. • Análise de componentes principais: um analista de negócios está interessado em rankear (posto que ele ocupa, primeiro, segundo,...) 2000 fundos baseado na performance mensal dos últimos dois anos de 20 indicadores financeiros e índices. Seria muito difícil criar os escores para cada fundo baseado nos 20 indicadores e interpretá-los. Assim, o analista realizou uma análise de Componentes Principais sobre uma matriz de dados padronizados de dimensão 2000 x 20 e extraiu os dois primeiros componentes. Os dois primeiros componentes contabilizaram 74% da variabilidade contida nas 20 variáveis. Assim, o analista usou os dois componentes para calcular os escores e criar um rank para os fundos.
Análise exploratória de fatores: pode ser usado para estratégias de marketing. Pode-se criar postos (ranks) para os consumidores através dos escores fatoriais, e diferentes promoções podem ser adotadas para cada consumidor baseado nos valores dos escores fatoriais. • Análise de conglomerados: um banco coleta e mantém uma grande base de dados sobre os padrões dos correntistas para vários serviços bancários, como, conta corrente, poupança, certificados de depósitos, empréstimos, e cartão de crédito. Baseado em atributos bancários, o banco desejaria segmentar os correntistas em muito ativo, moderados e passivos, baseado nos dados dos últimos três anos dos correntistas. O analista realiza uma análise de cluster e obtém os conglomerados (grupos). A divisão de marketing usou a segmentação para montar estratégias diferenciadas de marketing para os vários grupos.
Análise de Componentes Principais Definição de componentes principais O objetivo da análise é tomar p variáveis X1,X2,....,Xpe encontrar combinações dessas para produzir variáveis latentes Z1,Z2,...,ZP, que são não correlacionadas. A falta de correlação é uma propriedade muito útil porque isto significa que estas variáveis latentes estão medindo diferentes “dimensões” dos dados. Os componentes principais são ordenados de acordo com a quantidade de variância explicada: onde var(Zi) representa a variância de Zino conjunto de dados. Sempre que realizamos uma análise de componentes principais, esperamos conseguir explicar quase toda a variabilidade dos dados com uns poucos componentes principais.
Se as variáveis originais não são correlacionadas, então a análise de componentes principais não tem efeito algum. Os melhores resultados são obtidos quando as variáveis originais são altamente correlacionadas, positiva ou negativamente. Breve descrição da realização da análise de componentes principais Vamos considerar os dados de porcentagens de pessoas empregadas em 9 grupos de atividades diferentes em 26 paises europeus, ano de 1979. Na tabela a seguir Apresenta-se parte dos dados:
De acordo com a tabela abaixo, temos variáveis muito correlacionadas, por exemplo, agricultura e serviços pessoais, outras estão medianamente correlacionadas, por exemplo, mineração e finanças, e outras, ainda, pouco correlacionadas, por exemplo, agricultura e mineração. Portanto, este conjunto de dados é razoavelmente bom para análise de componentes principais. Isto indica que vários componentes serão necessários para contabilizar a variabilidade dos dados .
Os primeiros 4 componentes principais tem variâncias iguais a: 3,49, 2,130, 1,10 e 0,99, respectivamente. Estes 4 componentes são os mais importantes para representar a variabilidade das variáveis dos 26 países. Este 4 componentes principais explicam 85,6752% da variabilidade dos dados. Porém, vamos considerar que um menor número de componentes é suficiente para apresentar os aspectos principais das diferenças entre os países. Assim, vamos considerar apenas os dois primeiros componentes (inclusive, são os únicos que apresentam autovalores bem superior a 1).
Os dois primeiros componentes representam aproximadamente 62% da variância, e são dados por: Olhando-se para o primeiro componente, podemos verificar que ele é um contraste entre o número de empregados na agricultura e o número de empregados em manufatura, energia, construção, serviços na indústria, serviços pessoais e transporte. As variáveis com coeficientes próximos de zero são desprezíveis.
O segundo componente é um contraste entre o número de empregados em mineração e manufatura com o número em serviços da indústria e finanças. A figura a seguir representa os 26 países versus os valores Z1 e Z2. A maioria dos países democráticos do oeste estão associados com baixos valores de Z1 e Z2. Irlanda, Portugal, Espanha e Grécia, apresentam altos valores de Z1. Turquia e Iugoslávia apresentam valores bem altos de Z1. Países comunistas, com exceção da Iugoslávia, estão agrupados com valores altos de Z2.
Escores fatoriais (Factor scores) O escore fatorial do i-ésimo caso para o -ésimo fator é dado por: J=1,2,...,p é o número de variáveis. Exemplo: 26 países europeus. O escore do primeiro país, Bélgica, para o primeiro componente principal, é dado por: u={0.523791 0.001323 -0.347495 -0.255716 -0.325179 -0.378920 -0.074374 -0.387409 -0.366823}; X={-1.01828056, -0.364773448, 0.0845216534, -0.0204465205, 0.0210352914, 1.34250672, 0.783876729, 0.963010831, 0.469896479}; (Valores padronizados). =3.487151;
Procedimento de cálculo dos componentes principais A análise de componentes principais inicia com dados de p variáveis quantitativas, isto é, seus valores são dados numa escala numérica, para n observações. O primeiro componente principal é então a combinação linear das variáveis X1, X2,...,Xp, Sujeito a restrição: A var(Z1) é a maior possível sujeita a restrição sobre as constantes a1j. A restrição é incluída para a variância não aumentar pelo simples fato de adicionar um valor a1j.
Exemplo: vamos obter os componentes principais relativos às variáveis X1 e X2 cuja matriz de variâncias-covariâncias é dada por: Resolução: A equação característica é dada por: Isto é:
As raízes próprias ou auto valores, obtidos desta equação são: A soma dessas duas raízes dá 14,44. Sobre esse total elas correspondem, em porcentagem, a: 88,9% para 1e 11,1% 2. Então o componente principal, relativo a 1vai explicar 88,9% da variação, em comparação com apenas 11,1% para o componente 2. Vamos calcular o componente principal, correspondente à raiz maior 1=12,844. Ele será dado pela equação:
Obtemos: Este sistema de equações é indeterminado, uma vez que temos:
Podemos, pois, abandonar uma das equações (por exemplo, a segunda) e dar um valor arbitrário, não nulo, a uma das incógnitas (por exemplo x12=1). Fica: A solução inicial é:
A soma dos quadrados dos coeficientes obtidos é: Para obter uma solução com soma de quadrados igual a 1,00 (vetor normalizado), multiplicamos a solução obtida por: Obtemos: Logo, o primeiro componente principal é: Responsável por 88,9% da variação.
O segundo componente principal é dado pelo sistema de equações relativo à outra raíz, 2=1,596. A solução inicial obtida é:
A solução final é: O segundo componente principal, responsável por 11,1% da variação e ortogonal ao primeiro é dado por: Outra solução para os componentes principais As vezes, as unidades das variáveis envolvidas na análise são completamente diferentes. Nestes casos é indicado usar as variáveis reduzidas ou padronizadas, isto é, cada uma dividida pelo desvio padrão:
Mas isto é equivalente a trabalhar com a matriz de correlações(estimativa): Onde: Exemplo: a matriz de correlação do exemplo é dada por:
Onde o valor 0,7645 é obtido através de: Com, Portanto,
No exemplo, as variáveis padronizadas são dadas por: A equação característica será: As raízes próprias (os autovalores) são:
A porcentagem de explicação para cada um deles é: Primeiro componente principal (1=1,7382) Desprezando a última equação e fazendo x12=1 x11=1
O componente principal fica: A soma dos quadrados dos coeficientes é: 12+12=2. Para obter uma solução normalizada (com soma da quadrados igual a 1), multiplicamos a solução obtida por 1/2=0,7071. Obtemos: Logo, o componente principal é dado por: Substituindo-se os valores de x1 e x2, temos:
Passos na análise de componentes principais: • Inicia-se codificando as variáveis X1,X2,...,Xp para ter média zero e variância 1. Isto é o usual, mas é omitido em alguns casos. • Calcular a matriz de covariâncias C. Se a padronização do passo 1 for realizada, então, esta matriz será a matriz de correlação. • Encontrar os auto-valores 1, 2,..., p e os correspondentes auto-vetores u1, u2,...,up. Os coeficientes do i-ésimo componente são então dados por ui enquanto i é a sua variância. • Descartar os componentes que apresentam baixa explicação da variação dos dados. Por exemplo, considere que tenhamos 20 variáveis para a análise e encontramos que 3 componentes explicam 90% da variabilidade total. Assim os outros 17 componentes devem ser ignorados.
Análise de Conglomerados (‘Cluster Analysis’) Introdução A análise de conglomerados é uma técnica multivariada para reunir casos, registros, em grupos não definidos pelos dados (não são definidos à priori), de tal forma que o grau de associação entre os casos dentro de um mesmo grupo é forte e é fraca entre casos de diferentes grupos. Na exploração e descrição de grandes bases de dados, é útil resumir a informação designando cada observação a um grupo com características similares. Conglomeração pode ser usada para reduzir o tamanho dos dados e induzir a grupos. Como resultado, a análise de conglomerados pode revelar similaridades em dados multivariados, difíceis de serem encontrados de outra forma. Por exemplo, no estudo de aprovação de um novo produto, temos um número enorme de cidades e, portanto, impossível estudar-se todas elas. Se as cidades puderem ser reunidas em uns poucos grupos de cidades similares, então uma cidade de cada grupo pode participar do estudo.
A Análise de conglomerados procura determinar um conjunto de grupos os quais minimizam a variância dentro deles e maximizam a variância entre eles. Portanto, os conglomerados são homogêneos. Se a análise de conglomerados gerar grupos não esperados, então, significa que ela própria está sugerindo novos relacionamentos que devem ser investigados. Tipos de análise de conglomerados • Muitos algoritmos têm sidos propostos para análise de conglomerados. Será dada atenção a duas abordagens: • Técnicas hierárquicas: estas técnicas produzem os dendogramas, como mostrado na figura a seguir. Esses métodos iniciam com o cálculo de distâncias de cada observação com todas as outras observações. Grupos são formados por dois processos: • Aglomerativos: todas as observações iniciam como sendo um grupo (unitário); grupos próximos são, então gradualmente juntados até, finalmente, todas as observações constituírem um único grupo. • Divisivos: todas as observações iniciam num único grupo. Após são separados em dois grupos e assim por diante, até que cada observação seja o próprio grupo.
Tipos de análise de conglomerados 10 9 Método do vizinho mais próximo(aglomerativo) 8 7 6 Distância 5 4 3 2 1 0 A B C D E 10 9 Método do vizinho mais distante (aglomerativo) 8 7 6 Distância 5 4 3 2 1 0 A B C D E
10 9 Método das médias das distâncias (aglomerativo) 8 7 6 Distância 5 4 3 2 1 0 A B C D E Figura. Exemplos de dendogramas de análise de conglomerados de 5 registros. A B C D E F A B E C D F A B E C D F A B D F Figura. Exemplo de algoritmo divisivo de 6 registros.
Técnicas de partição: estas técnicas permitem às observações moverem-se de um grupo para outro em diferentes estágios da análise. • A análise inicia com a atribuição arbitrária de medidas de tendência central do grupo e as observações são alocadas na vizinhança do centro do grupo. Novos centros são então calculados. Uma observação é então transferida para um novo grupo se ele está mais próximo do centro deste grupo do que do centro do seu grupo atual. Grupos próximos são juntados; grupos cujas observações estão bastante afastadas são divididos. O processo continua até encontrar a estabilidade com um número de grupos pré-determinado. Usualmente utiliza-se uma faixa de valores para o número final de grupos. Outra sugestão é, inicialmente realizar o método hierárquico e usar o número de conglomerados encontrados nesta análise como sugestão para o método de partição.
Em geral, os métodos de partição são mais eficientes em grandes bases de dados. Observação: 100 ou mais registros. Métodos hierárquicos aglomerativos Para ilustrar os procedimentos de diversos algoritmos vamos usar o seguinte exemplo. Exemplo: pretende-se investigar, de forma exploratória, o histórico de crescimento corpóreo das pessoas. O pesquisador gostaria de escolher representantes “típicos” da população para tentar traçar diferentes históricos. O objetivo operacional passou a ser o de agrupar os indivíduos da população alvo segundo as variáveis peso e altura. Os dados de seis pessoas foram:
Como temos duas variáveis com unidades diferentes, usar-se-á a padronização dos dados, isto é, cada valor será subtraído da média de todas as observações e dividida pelo desvio padrão de todas as observações. A nova tabela fica:
Os métodos hierárquicos aglomerativos iniciam com uma matriz de distâncias entre os casos (observações, registros). Todos os registros estão separados (cada registro é um grupo). Os grupos que estão mais ”próximos” são juntados (agregados). Vamos estudar três casos: • Método do vizinho mais próximo • Método do vizinho mais longe • Método das médias das distâncias • Método do vizinho mais próximo (Método da ligação simples- Single Linkage) • Para o nosso exemplo suponha a seguinte matriz de distâncias: A B C D E B Sempre é uma matriz quadrada e simétrica C D * E F
Passo 1: inicialmente, consideramos uma distância igual a zero e, portanto, cada caso forma um grupo, isto é, temos 6 grupos iniciais. • Passo 2: olhando-se a matriz de distâncias, observa-se que as duas observações mais próximas são D e F, corresponde a uma distância de 0,37, assim, esta duas observações são agrupadas, formando o primeiro grupo. Necessita-se, agora, das distâncias deste grupo aos demais. A partir da matriz de distâncias iniciais têm-se: Com isso, temos a seguinte matriz de distâncias:
A B C E B C E DF • Passo 3: Agrupar A e B ao nível de 0,67, e recalcular: A matriz resultante será:
C E DF E DF AB • Passo 4: Agrupar AB com E ao nível de 0,67, e recalcular: Matriz resultante: C DF DF ABE
Passo 5: Agrupar C com ABE ao nível de 0,74, e recalcular: Matriz resultante: DF ABCE • Passo 6: O último passo cria um único agrupamento contendo os 6 objetos, que serão similares a um nível de 0,77.
Resumindo-se, temos: Dendograma: 1,0 0,9 0,8 0,7 0,6 Distância 0,5 0,4 0,3 0,2 0,1 0,0 D F A B E C
Método do vizinho mais longe (Método da ligação completa – Complete Linkage) Define-se a distância entre os grupos X e Y como: Convém ressaltar que a fusão de dois grupos ainda é feita com os grupos mais parecidos, menor distância. • Passo 1: inicialmente, consideramos uma distância igual a zero e, portanto, cada caso forma um grupo, isto é, temos 6 grupos iniciais. • Passo 2: olhando-se a matriz de distâncias, dada no slide número 37, observa-se que as duas observações mais próximas são D e F, corresponde a uma distância de 0,37, assim, estas duas observações são agrupadas, formando o primeiro grupo. Necessita-se, agora, das distâncias deste grupo aos demais. A partir da matriz de distâncias iniciais tem-se:
A B C E B C E DF • Passo 3: Agrupar A e B ao nível de 0,67, e recalcular:
Temos: C E DF E DF AB
Passo 4: Agrupar AB com E ao nível de 0,79, e recalcular: Matriz resultante: C DF DF ABE
Passo 5: Agrupar C com DF ao nível de 1,13, e recalcular: Matriz resultante: CDF ABE • Passo 6: O último passo cria um único agrupamento contendo os 6 objetos, que serão similares a um nível de 2,49.
Resumindo-se, temos: Dendograma: 2,5 1,3 1,2 1,1 1,0 0,9 0,8 0,7 0,6 Distância 0,5 0,4 0,3 0,2 0,1 0,0 D F C A B E
Método das médias das distâncias Dada a matriz de distâncias: A B C D E B C D E F • Passo 1: inicialmente, consideramos uma distância igual a zero e, portanto, cada caso forma um grupo, isto é, temos 6 grupos iniciais. • Passo 2: olhando-se a matriz de distâncias, observa-se que as duas observações mais próximas são D e F, corresponde a uma distância de 0,37, assim, esta duas observações são agrupadas, formando o primeiro grupo. Necessita-se, agora, das distâncias deste grupo aos demais. A partir da matriz de distâncias iniciais tem-se: