240 likes | 481 Views
Self Organizing Tree Algorithm. Bastian Jarzembinski Enrico Bade Tobias Aagard. Gliederung. Theorie Hintergrund Lernverfahren Experimente Attributskalierung Wachstumssteuerung Bewertung Vergleich mit anderen Verfahren Einsatz. Theorie. Hintergrund Lernverfahren.
E N D
SelfOrganizingTreeAlgorithm Bastian JarzembinskiEnrico BadeTobias Aagard
Gliederung • Theorie • Hintergrund • Lernverfahren • Experimente • Attributskalierung • Wachstumssteuerung • Bewertung • Vergleich mit anderen Verfahren • Einsatz
Theorie Hintergrund Lernverfahren
Theorie Hintergrund • Bioinformatik • Microarrays • Ähnliches Aussehen = Ähnliche Funktion?
Theorie Lernverfahren n-dimensionale Vektoren mit metrischen Attributen Knoten bilden Clusterzentren Knoten mit größter Varianz wird geteilt
Theorie Lernverfahren Inputvektor Repräsentant Distanz Lernrate Fehler
Theorie Lernverfahren Wurzel Blatt Zuordnung
Theorie Lernverfahren Variability /Spannweite Ressource /mittlere Abweichung
Theorie Lernverfahren Ancestor / Vorfahre Sister / Schwester
Experimente Attributskalierung Fallbeispiel
Experimente Attributskalierung • Parameter in KNIME können das zyklisches Wachsen des Treesbeeinflussen: • Lerningrates • min. variablity und min. ressourcenur bei „Usevariablity“ berücksichtigt • min. Error • Distance: Euclid. Oder Cosinus • Clustern ohne Zielattribut
Experimente Fallbeispiel • IRIS-Datenset • 4 Attribute, metrisch skaliert • Zielattribut mit 3 Klassen • LIVE DEMO • Quantitativer Vergleich zu Klassifikationsalgorithmen • i.d.F. k-Means • Keine signifikanten Unterschiede • Anwendung des SOTA auf Daten mit und ohne Zielattribut • Keine signifikanten Unterschiede
Bewertung Vergleich mit anderen Verfahren Einsatz
Bewertung Vergleich mit anderen Verfahren • Eigenschaften k-Means • Wenige Iterationen • Einfaches Verfahren • Anfällig für Rauschen / Ausreißer • Ergebnis von initialen Zerlegung abhängig
Bewertung Vergleich mit anderen Verfahren Eigenschaften SOTA Annähernd lineares Laufzeitverhalten Punkt für k-Means Resistent Unabhängig • Eigenschaften k-Means • Wenige Iterationen • Einfaches Verfahren • Anfällig für Rauschen / Ausreißer • Ergebnis von initialen Zerlegung abhängig
Bewertung Vergleich mit anderen Verfahren • Hierarchisches Clustern • Divisiv oder agglomerativ • Knoten sind einfache Darstellung der Teilmengen • Zwischenschritte sind irreversibel
Bewertung Vergleich mit anderen Verfahren Eigenschaften SOTA Divisives Verfahren Knoten sind Mittelwerte sämtlicher folgenden Knoten Zuordnung wird ständig angepasst • Hierarchisches Clustern • Divisiv oder agglomerativ • Knoten sind einfache Darstellung der Teilmengen • Zwischenschritte sind irreversibel
Bewertung Vergleich mit anderen Verfahren • SelfOrganizingMap (KohonenMap) • Ähnliches Verfahren, aber andere Topologie • SOM: vorgegebenes Netz, wird bestmöglich an den Eingaberaum angepasst • SOTA: wächst dynamisch, um den Eingaberaum bestmöglich darzustellen; Hierarchie vorhanden
Bewertung Einsatz • Methodisch vielversprechend • Erfolge nicht reproduzierbar • Mögliche Ursachen • Ungeeignete Daten • Ungeeignete Parameterjustierung • Mangelndes (Aufgaben-)Verständnis • Weitere Untersuchung • Hintergrundwissen Bioinformatik • Microarray-Datensätze wählen