170 likes | 311 Views
Introducció a l’anàlisi d’agrupaments ( cluster ). Llicenciatura de Biologia Disseny d’Experiments i Anàlisi de Dades Jordi Ocaña Rebull. Objectiu i característiques de l’anàlisi.
E N D
Introducció a l’anàlisi d’agrupaments (cluster) Llicenciatura de Biologia Disseny d’Experiments i Anàlisi de Dades Jordi Ocaña Rebull
Objectiu i característiques de l’anàlisi • Donats m “objectes” (espècies, poblacions, individus, ...) trobar un esquema d’agrupament en classes, de manera que els “semblants” pertanyin a la mateixa classe • Mètode completament numèric: • Cada objecte caracteritzat per p variables • Dissimilaritat (o semblança) entre objectes basada en aquestes variables • Agrupament basat en aquestes dissimilaritats • Nombre de classes no conegut prèviament
Esquema del mètode Dades Matriu de distàncies
Tipus d’anàlisi d’agrupaments • Mètodes jeràrquics: obtenció d’un arbre de classes o “dendrograma” • Aglomeratius (els més freqüents): partir de m classes d’un sol objecte i anar creant classes cada vegada més àmplies, ajuntant-les segons màxima semblança • Divisius: partir d’una gran classe que conté tots m objectes i anar dividint en subclasses • Mètodes de particionament: objectes es poden moure d’un grup a l’altre fins a complir algun criteri d’optimalitat
Dades de grups sanguinis per diverses (m=4) poblacions • Freqüències relatives dels al·lels possibles per a s = 5 sistemes de grups sanguinis: AB0, CDE, DI, FY i MNS • En sengles mostres de m = 4 poblacions: Bantús, Anglesos, Esquimals i Coreans. etc...
Procés de formació del dendrograma. I • Pas 1: les poblacions més semblants són els coreans i els esquimals: formem una primera classe, (Esk,Kor) a un grau de dissimilaritat de 0,19672 • Pas 2: Què ajuntem ara? Tres possibles continuacions: • Agregar Ban a (Esk, Kor) • Agregar Eng a (Esk, Kor) • Agregar (Ban, Eng) • Això pot dependre del criteri per a avaluar la distància entre classes i / o poblacions soles, p.e. mínim, màxim o mitjana (UPGMA: Unweighted Pair-Group Method using Arithmetic averages)
Procés de formació del dendrograma. II • Si hem adoptat el criteri del mínim, la més petita distància (0,24418) és entre Ban i (Esk, Kor), hem d’unir-les (a una distància de 0,24418) i les classes resultants seran Eng, (Ban, Esk, Kor) • Tant si el criteri és el màxim com si és la mitjana, la distància més petita és 0,24588, entre Ban i Eng. Les classes resultants serien (Ban, Eng), (Esk, Kor)
Matriu de distàncies després del pas 2 segons criteri del mínim
Matriu de distàncies després del pas 2 segons criteri del màxim
Matriu de distàncies després del pas 2 segons criteri de la mitjana
Resolució final del dendrograma • Pas 3: sigui quin sigui el criteri adoptat, ara solament falta constituir la darrera classe, que conté totes les poblacions • Però diferent dendrograma segons el criteri: • Mínim: darrera classe global, ajuntant Eng i (Ban, Esk, Kor) a una distància 0,24588 • Màxim: darrera classe global, ajuntant (Eng, Bant) amb (Esk, Kor) a distància 0,40946 • Mitjana: darrera classe global, ajuntant (Eng, Bant) amb (Esk, Kor) a distància 0,33246