610 likes | 732 Views
Onderwijsenquête . Resultaten en gevolgen. Dus…. informele transparanten + simplistische uitleg Vandaag: formules! te grote opdrachten Kleinere opdrachten 2 en 3 ipv grote opdracht 2 duidelijkere beschrijving hopelijk ;-) “Vlugge vragen” Studenten aanwijzen. Opdracht 1.
E N D
Onderwijsenquête Resultaten en gevolgen
Dus… • informele transparanten + simplistische uitleg • Vandaag: formules! • te grote opdrachten • Kleinere opdrachten 2 en 3 ipv grote opdracht 2 • duidelijkere beschrijving • hopelijk ;-) • “Vlugge vragen” • Studenten aanwijzen
Opdracht 1 • Ter herinnering: 22 mei 2007 • een week van vandaag! • De bedoeling: • de redeneerder(s) kunnen met jullie stellingen omgaan! • Hebben jullie vragen?
Kennissysteem Softwaresysteem, die kennis verwerft, op een expliciete manier voorstelt, over deze kennis redeneert en gebruikt om een opdracht uit te voeren.
Verwerven Waar zijn we beland? machinaal leren niet gesuperviseerd leren scheidend clustering
Huiswerk 14 • Een belangrijk probleem is het clusteren van XML documenten. • Welke technieken zou je ervoor gebruiken? • Aanbevolen: • “Clustering XML documents by structure” van Theodore Dalamagas, Tao Cheng, Klaas-Jan Winkel, and Timos Sellis • In te leveren ten laatste op 29 mei 2007
2.17 7.00 6.67 7.08 6.92 3.83 3.42 3.92 6.25 7.33 Onelijkheidsmaat: objecten (1) • “Gelijke objecten moeten samen zijn” • In welke mate zijn twee objecten gelijk? • Soms: expliciet aangegeven: • Gelijkenisgraad: • Bepaald door studenten van politieke wetenschappen • 1 – gelijk, 10 – verschillend • symmetrisch
Als de ongelijkheidsmaat niet expliciet is • Moeten we ons op de eigenschappen van de objecten baseren: • welke eigenschappen van deze twee objecten zijn voor ons van belang? • in welke mate zijn de eigenschappen gelijk? • hoe combineer je de (on)gelijkenissen van de eigenschappen tot een maat?
Ongelijkheidsmaten: getallen • Absolute afstand • d(x,y) = |x – y| • Euclidische afstand • d(x,y) = (x – y)2 • we schrijven ook ||x - y|| • Correlatie • zie les Statistiek Smeltpunten Aantal isotopen
Ongelijkheidsmaat: namen • Fout • d(x,x) = 0 • d(x,y) > 0 • vaak: d(x,y) = 1 zodra x y Ontdekkers
Ongelijkenismaat: objecten (2) • Objecten x en y • waarden van de gekozen eigenschappen: x1, …, xn en y1, …, yn:
Vlugge Vraag Voor welke elementen x, y is D(x,y) het kleinst?
Scheidend clustering met minimaal opspannende boom 1) Voorbeelden vormen een kliek met ongelijkheidsmaten als gewichten van kanten 2) Bereken de minimaal opspannende boom 3) Verwijder k-1 langste kanten Hier k = 2 4) Stukjes zijn clusters
Vlugge Vraag B 1 Als we minimaal opspannende boom gebruiken voor 2 clusters… 3 • A en B • D en E C 5 A 4 5 5 5 5 1 E D 4 wie zit dan in dezelfde cluster?
Ter herinnering:Maximale snede • Gegeven een graaf G = (V,E), een paar (V1,V2) is een maximale snede als • V1 V2 = V en • de som van de gewichten verbonden aan de kanten tussen V1 en V2 zo groot mogelijk is • Vinden van een maximale snede is NP-volledig!
Vlugge Vraag B 1 3 C Wat is het grootste gewicht van de kanten tussen de twee delen van een snede? 5 A 4 5 5 5 5 1 E D 4 • 25 • 26 • 27 • geen enkele antwoord is juist
Max-Cut 1) Voorbeelden vormen een kliek met ongelijkenismaten als gewichten van kanten 4) Als het aantaal delen kleiner is dan k, kies een deel en ga naar stap 2). Anders, stop. 2) Bereken de maximale snede 3) Verwijder de kanten van de snede
Vlugge Vraag B 1 3 C Als we maximale snede gebruiken voor k = 2… 5 wie zit dan in dezelfde cluster? A 4 5 5 5 5 3 E D 4 • A en B • D en E
Maximale snede • Splitsend clustering: • 1 cluster 2 clusters 3 clusters… • We kunnen een dendrograam van maken: C1 Komt het bekend voor? C2 C3 C5 C4 Hierarchisch clustering
Hiërarchisch clustering • Kan ook top-down! • ook verdelend clustering genoemd • Kan bereikt worden door • In 2 clusters verdelen (hoe dan ook) • een van de clusters kiezen • en herhalen…
Scheidend clustering • grafenteoretisch • minimale opspannende boom • maximale snede • statistisch • k gemiddelde, • k centroïden, • vage k gemiddelde • hoe bepaal je het aantal clusters? Wij zijn hier
K gemiddeld Voorbeeld 1) Kies randomaal K clustercentra 2) Bepaal voor ieder voorbeeld het dichtstbijzijnde clustercentrum
K gemiddeld 3) Herbereken de clustercentra als massamiddelpunten van de bijbehorende voorbeelden 4) Herhaal tot de clustercentra niet meer veranderen
Vlugge Vraag Welke van de volgende stellingen zijn juist? • Eindclusters zijn onafhankelijk van de oorspronkelijke keuze van de clustercentra • Clusters voor een grotere k verfijnen clusters voor een kleinere k • Nog A nog B is juist
Toepassing: beeld- en signaalcompressie Splits het beeld op in blokjes 2*2 pixels Ieder blokje is een vector in R4 Gebruik K-gemiddelde clustering. Vervang ieder blokje bij “zijn” clustercentrum Sir Ronald A. Fisher (1890-1962) N*N pixels, iedere pixel m-bit grijswaarde, N=1024, m = 8 K = 4 K = 200
Compressie? • Oorspronkelijk: N2 * m • Voor ieder blokje – zijn clustercentrum • N2/4 blokjes • per clustercentrum: log2(K) bits (kan beter…) • dus, N2/4 * log2(K) • Compressie is dus: log2(K)/(4m) • Gecomprimeerd beeld: • 23,9% (K = 200, m = 8) • 6,3% (K = 4, m = 8)
Vlugge Vraag Wanneer • minimale opspannende boom of maximale snede wel kunnen gebruikt worden • terwijl k gemiddeld niet?
Antwoord • K gemiddeld is niet van toepassing… • op niet numerieke eigenschappen • als de ongelijkheid met de “nieuwe” punten niet te bepalen is • bijv. als die expliciet aangegeven is in een tabel • als de ongelijkheidsmaat asymmetrisch is
Wij willen… • Kwaliteit van K gemiddeld • maar ook toepasbaar voor • niet numerieke eigenschappen • expliciete ongelijkheidsmaten • en minder gevoelig voor de “abnormale” voorbeelden: Centrum ligt buiten het echte cluster
Oplossing: k centroïden (1) • Centroïde (ook wel medoïde genoemd) van een cluster K = voorbeeld x zodanig dat som van de afstanden van andere voorbeelden van K tot x is minimaal
2.17 0.00 6.67 6.92 7.00 6.67 0.00 3.83 7.08 6.92 3.83 0.00 3.42 3.92 6.25 7.33 Vlugge Vraag • Gegeven een cluster van België, Frankrijk en Israël, de centroïde is • België • Frankrijk • Israël
k centroïden (2) • Bepaal willekeurig de initiële plaatsing van de centroïden. • Verdeel voorbeelden bij de dichtstbijzijnde centroïden. • Herbereken de centroïden • Herhaal 2) en 3) tot de verdeling niet meer veranderd.
2.17 0.00 6.67 6.92 7.00 6.67 0.00 3.83 7.08 6.92 3.83 0.00 3.42 3.92 6.25 7.33 Vlugge Vraag Beginnende met België en Frankrijk als centroïden, welke clusters produceert het algoritme? In hoeveel stappen?
k centroïden, k = 2 2 stappen
Wat gebeurt er als een voorbeeld bij meerdere clusters kan horen? • Vaagheid: in welke mate maakt het voorbeeld deel van een cluster? • Ter herinnering: vage predicaat is een functie van een meeting naar een graad [0,1] van het predicaat • Hier: “is element van” is vaag! • Vage K (of vage c) gemiddelde!
K gemiddelde vs. Vage K gemiddelde (1) • K gemiddelde minimaliseert Euclidische afstand • Vage K gemiddelde minimaliseert
K gemiddelde vs. Vage K gemiddelde (2) • K gemiddelde past aan: • Vage K gemiddelde past aan: • K gemiddelde stopt: als de centra niet meer veranderen • Vage K gemiddelde stopt als de “bijna” niet meer veranderd (tot e) en
Kies en op een willekeurige manier. • Herhaal: en 3. Stop als
Vage K gemiddelde in actie e m Clustercentra en de u-waardes worden eerst willekeurig gekozen voorbeelden En het resultaat is:
Vlugge Vraag • Parameters voor vage k gemiddelde: vaagheid (m), nauwkeurigheid () • Initiële lidmaatschapsfunctie • Voor welke waarden van deze parameters wordt “vage k gemiddelde” gewone “k gemiddelde”?
Wat gebeurt als de voorbeelden on-line komen? • Geen enkele techniek werkt! • Zelforganiserend netwerk • K gemiddelde • maar • voorbeeld per voorbeeld • de clustercentra worden in een rooster georganiseerd • ook goed als de voorbeelden te veel eigenschappen hebben
Het idee • Kies clustercentra. • Klasseer voorbeeld X bij het dichtstbijzijnde clustercentrum • Voor alle clustercentra z.d. pas aan
Parameters Grenswaarde Leertempo Beide parameters dalen naar mate het leerproces vordert.
Vlugge Vraag Leven in kuddes. Verplaatsen zich veel tussen kuddes. Vind subpopulaties in een radiogemarkeerde kudde. Welke clusteringtechniek zal je gebruiken? Waarom? • minimaal opspannende boom • maximale snede • k gemiddelde • k centroïden • vage k gemiddelde • zelforganiserende netwerken Kariboe, Noord-am. rendier.
Tot nu toe • Alle technieken konden k clusters vinden. • Maar hoe bepaal je het aantal clusters? • Soms is het gegeven: • verzekeringsmaatschappij met k makelaars • ieder makelaar moet zo mogelijk uniforme klanten hebben • Anders: zoveel dat de clusters goed zijn.
Wanneer is een clusterverdeling goed? • Verschilmaat voor een clusterverdeling: • Voor k gemiddelde geeft het
Bepalen van k • Bereken clusters voor 1, …, Kmax. • Scenario • Aanname: in de werkelijkheid zijn er K* clusters • Als k < K* (en de clustering met de werkelijkheid overeenkomt) dan W(k) – W(k+1) “vrij groot” • Als k > K* dan is W(k) – W(k+1) “nogal klein” • Dus, kijk naar de helling van de grafiek W(k)