290 likes | 376 Views
An álise de Agrupamentos. Valério De Patta Pillar Departamento de Ecologia Universidade Federal do Rio Grande do Sul Porto Alegre vpillar@ufrgs.br http://ecoqua.ecologia.ufrgs.br. An álise de dados com MULTIV. Dispon ível em http://ecoqua.ecologia.ufrgs.br. 7. 6. 4. 3. 2. 5. 1. 0.
E N D
Análise de Agrupamentos Valério De Patta Pillar Departamento de Ecologia Universidade Federal do Rio Grande do Sul Porto Alegre vpillar@ufrgs.br http://ecoqua.ecologia.ufrgs.br
Análise de dados com MULTIV Disponível em http://ecoqua.ecologia.ufrgs.br
7 6 4 3 2 5 1 0 4 8 Análise de Agrupamentos(método de ligação simples)
Análise de Agrupamentos • Agrupamento hierárquico • Algoritmos podem ser aglomerativos ou divisivos • Processo de agrupamento representado por um dendrograma • Não produz uma classificação mas n-1 possibilidades de classificação, pois o número de grupos é definidoa posteriori • Alguns algoritmos aglomerativos: Ligação simples, ligação completa, ligação média (UPGMA, WPGMA), soma de quadrados (Ward) • Agrupamento não-hierárquico • Número de grupos é especificado a priori e o resultado é uma classificação.
Algoritmo de agrupamento aglomerativo hierárquico Baseado em uma matriz de semelhança comparando n objetos (unidades amostrais ou variáveis) aos pares: (1) São agrupados os dois objetos (ou dois grupos de objetos) que forem mais semelhantes na matriz de semelhança. (2) A matriz de semelhança é redefinida de acordo com o grupo que foi formado. (3) Repete-se o processo até que todos os objetos formem um único grupo (n-1 passos de agrupamentos).
Alguns critérios para a redefinição da matriz de semelhança após cada passo aglomerativo (Extraído de Podani 1994:82)
Ligação Simples • Quando a matriz contém dissimilaridades, a dissimilaridade entre os grupos P e Q é: • dPQ = INF [ djk, para j=1, ..., n-1 e k=j+1, ..., n objetos, desde que j pertença ao grupo P e k ao grupo Q ] onde: • djké um elemento da matriz de dissimilaridades • INF é valor mínimo no conjunto entre [] • Quando a matriz contém similaridades, SUP (máximo) é usado ao invés de INF.
Ligação Completa • Quando a matriz contém dissimilaridades, a dissimilaridade entre os grupos P e Q é • dPQ = SUP [ djk, para j=1, ..., n-1 and k=j+1, ..., n objetos, desde que j pertença ao grupo P e k ao grupo Q ] onde: • djké um elemento da matrizx de dissimilaridades • SUP é o valor máximo no conjunto entre [] • Quando a matriz contém similaridades, INF é usado aon invés de SUP.
Ligação Média (UPGMA)Rohlf (1963) • UPGMA: Unweighted Pair Group Method using Arithmetic Averages • A distância entre dois objetos ou grupos M e N é dada pela média aritmética das distâncias entre os elementos dos dois grupos.
Soma de quadrados progressiva(Ward 1963, Orlóci 1967) O critério de agrupamento minimiza o aumento na soma de quadrados dentro do grupo formado a cada passo de agrupamento, i.e. QPQ = QP+Q - QP - QQ Onde QP+Qé a soma de quadrados total no grupo P+Q e QP e QQ são as somas de quadrados dentro dos grupos P e Q.
Nitidez de grupos e suficiência amostral em análise de agrupamentos • Análise de agrupamentos é uma ferramenta para classificação de quaisquer objetos. • Métodos de agrupamento revelam grupos mesmo quando não existe estrutura clara de grupos nos dados. Os grupos revelados são reais? Como escolher um nível de partição adequado? • Seria estável a classificação se o levantamento fosse repetido muitas vezes? • O tamanho da amostra é suficientepara responder essas questões?
Análise de agrupamentos (soma de quadrados) com dados simulados: 50 unidades descritas por quatro variáveis aleatórias. Análise de agrupamentos (soma de quadrados) com dados simulados: 50 unidades descritas por quatro variáveis aleatórias definindo 2 grupos nítidos. Quantos grupos? (onde “cortar” o dendrograma)
São nítidos os grupos? Análise de agrupamentos de 20 comunidades em vegetação de campo (quadros 0.1 x 1 m) (Cadenazzi 1996). O método de agrupamentos é variância mínima e a análise é baseada em distâncias Euclidianas. Qual a probabilidade de que uma classificação (e.g., tipos de comunidades) obtida de um levantamento se mantenha ao se repetir o levantamento no mesmo universo amostral?
Avaliação da nitidez de grupos por auto-reamostragem (bootstrap) Análise de agrupamentos é realizada com uma amostra, e grupos são definidos a um dado nível de partição. Amostras bootstrap são tomadas reamostrando a amostra com reposição. Análise de agrupamentos é realizada com cada amostra bootstrape os grupos encontrados são comparados com os grupos originais. Quanto mais nítidos forem os grupos na amostra, mais estáveis serão os grupos encontrados nas amostras bootstrap. Quanto mais difusos forem os grupos na amostra, mais instáveis serão os grupos nas amostras bootstrap. Pillar, V.D. 1999. How sharp are classifications? Ecology80: 2508-2516.
Avaliação da nitidez de grupos por bootstrap combinada com amostragem em processo Dada uma amostra de n unidades amostrais e p variáveis submetida a análise de agrupamentos, o método gera as probabilidades necessárias para avaliar a significância das partições com k grupos usando tamanhos crescentes de amostra nz ≤ n. Pillar, V.D. 1998. Sampling sufficiency in ecological surveys. Abstracta Botanica 22: 37-48.
Avaliação de nitidez de grupos por auto-reamostragem (bootstrap)
Dimensions: 245 sampling units, 9 variables Data type: (5) mixed Type: 3 3 3 3 3 2 3 3 3 Resemblance measure: (5)Gower index, (1)between sampling units Clustering criterion: (4)average linkage (UPGMA) SAMPLER Bootstrap resampling Sample attribute: sharpness of group structure (G*) Considering partitions with 2 to 5 groups. Sample size at 1 sampling step(s): 245 Probabilities P(GNull<=G*) generated in 1000 iterations of bootstrap resampling: 2 groups: 0.281 3 groups: 0.141 4 groups: 0.106 5 groups: 0.027
Cluster analysis (UPGMA) of 245 vegetation patches delimited on grassland, Morro Santana, Porto Alegre (Klebe 2003). Description used 6 structural variables and the analysis was based on Gower similarities.
Types of grassland vegetation patches, Morro Santana, Porto Alegre (Klebe 2003). Classification based on 9 variables describing vegetation structure.