Self Organizing Tree Algorithm
Self Organizing Tree Algorithm. Bastian Jarzembinski Enrico Bade Tobias Aagard. Gliederung. Theorie Hintergrund Lernverfahren Experimente Attributskalierung Wachstumssteuerung Bewertung Vergleich mit anderen Verfahren Einsatz. Theorie. Hintergrund Lernverfahren.
Self Organizing Tree Algorithm
E N D
Presentation Transcript
SelfOrganizingTreeAlgorithm Bastian JarzembinskiEnrico BadeTobias Aagard
Gliederung • Theorie • Hintergrund • Lernverfahren • Experimente • Attributskalierung • Wachstumssteuerung • Bewertung • Vergleich mit anderen Verfahren • Einsatz
Theorie Hintergrund Lernverfahren
Theorie Hintergrund • Bioinformatik • Microarrays • Ähnliches Aussehen = Ähnliche Funktion?
Theorie Lernverfahren n-dimensionale Vektoren mit metrischen Attributen Knoten bilden Clusterzentren Knoten mit größter Varianz wird geteilt
Theorie Lernverfahren Inputvektor Repräsentant Distanz Lernrate Fehler
Theorie Lernverfahren Wurzel Blatt Zuordnung
Theorie Lernverfahren Variability /Spannweite Ressource /mittlere Abweichung
Theorie Lernverfahren Ancestor / Vorfahre Sister / Schwester
Experimente Attributskalierung Fallbeispiel
Experimente Attributskalierung • Parameter in KNIME können das zyklisches Wachsen des Treesbeeinflussen: • Lerningrates • min. variablity und min. ressourcenur bei „Usevariablity“ berücksichtigt • min. Error • Distance: Euclid. Oder Cosinus • Clustern ohne Zielattribut
Experimente Fallbeispiel • IRIS-Datenset • 4 Attribute, metrisch skaliert • Zielattribut mit 3 Klassen • LIVE DEMO • Quantitativer Vergleich zu Klassifikationsalgorithmen • i.d.F. k-Means • Keine signifikanten Unterschiede • Anwendung des SOTA auf Daten mit und ohne Zielattribut • Keine signifikanten Unterschiede
Bewertung Vergleich mit anderen Verfahren Einsatz
Bewertung Vergleich mit anderen Verfahren • Eigenschaften k-Means • Wenige Iterationen • Einfaches Verfahren • Anfällig für Rauschen / Ausreißer • Ergebnis von initialen Zerlegung abhängig
Bewertung Vergleich mit anderen Verfahren Eigenschaften SOTA Annähernd lineares Laufzeitverhalten Punkt für k-Means Resistent Unabhängig • Eigenschaften k-Means • Wenige Iterationen • Einfaches Verfahren • Anfällig für Rauschen / Ausreißer • Ergebnis von initialen Zerlegung abhängig
Bewertung Vergleich mit anderen Verfahren • Hierarchisches Clustern • Divisiv oder agglomerativ • Knoten sind einfache Darstellung der Teilmengen • Zwischenschritte sind irreversibel
Bewertung Vergleich mit anderen Verfahren Eigenschaften SOTA Divisives Verfahren Knoten sind Mittelwerte sämtlicher folgenden Knoten Zuordnung wird ständig angepasst • Hierarchisches Clustern • Divisiv oder agglomerativ • Knoten sind einfache Darstellung der Teilmengen • Zwischenschritte sind irreversibel
Bewertung Vergleich mit anderen Verfahren • SelfOrganizingMap (KohonenMap) • Ähnliches Verfahren, aber andere Topologie • SOM: vorgegebenes Netz, wird bestmöglich an den Eingaberaum angepasst • SOTA: wächst dynamisch, um den Eingaberaum bestmöglich darzustellen; Hierarchie vorhanden
Bewertung Einsatz • Methodisch vielversprechend • Erfolge nicht reproduzierbar • Mögliche Ursachen • Ungeeignete Daten • Ungeeignete Parameterjustierung • Mangelndes (Aufgaben-)Verständnis • Weitere Untersuchung • Hintergrundwissen Bioinformatik • Microarray-Datensätze wählen