160 likes | 333 Views
ID3 vs. Apriori. Christian Schulz, Marc Thielbeer , Sebastian Boldt. Inhaltsverzeichnis. Klassifikation ( ID3 ) Assoziationsanalyse ( Apriori ) Klassifikation anhand von Assoziationsregeln Realisierung in KNIME Probleme Auswertung der Ergebnisse Zusammenfassung & Ausblick.
E N D
ID3 vs. Apriori Christian Schulz, Marc Thielbeer, Sebastian Boldt
Inhaltsverzeichnis • Klassifikation ( ID3 ) • Assoziationsanalyse ( Apriori ) • Klassifikationanhand von Assoziationsregeln • Realisierung in KNIME • Probleme • Auswertung der Ergebnisse • Zusammenfassung & Ausblick
Klassifikation • Zuordnung von ObjektenmitgemeinsamenEigenschaftenzuGruppen/Klassen • ImGegensatzzum Clustering Klassenbereitsbekannt • Erstellen von Klassifikationsregeln (z.B “guterKunde” wenn Alter > 20 und …) • Verwendung von Stichproben (Trainigsdaten) Trainingsdaten Klassifikator If object.rank <= 1 && object.age <= 20 { object.skill = “High” }
ID3-Algorithmus • Algorithmus der zurEntscheidungsfindungdient • Generierung von Entscheidungsbäumen • Iterative Basisstruktur • FürjedesnichtbenutztesAttributwerdenEntropienbezüglich der Traningsmengeberechnet • AusAttributmithöchstenInformationsgehaltwirdBaumknotengeneriert • Das VerfahrenterminiertwennalleTraningsmengenklassifiziertwordensind
Assoziationsanalyse • AssoziationsregelnbeschreibenKorrelationenzwischengemeinsamauftretendenDingen • Zweck : Auffinden von ElementeneinerMenge die das AuffindenandererElementeimplizieren • Beispielregel(Warenkorbanalyse): Kunden die Brotkaufen, werdenmiteinerWahrscheinlichkeit von 60 % auchMilchkaufen • Support & KonfidenzspielenwichtieRolle
Apriori-Algorithmus • IterativesVerfahrenzurErzeugung von Assoziationsregeln • Funktionsweise: • Übergabe von: Datensätzen, min. Support, min. Konfidenz • Bestimmung von Frequent Itemsetsderen relative Häufigkeit min. Support übersteigt • Bildung von Assoziationsregeln aus Itemsets die min. Konfidenz erfüllen
Klassifikationanhand von Assoziationsregeln • Assoziationsregelnfür die Klassifikationnutzen • Aufstellen der Assoziationsregeln (AprioriAlgorithmus) • Klassifikation des DatensatzesanhanddieserRegeln Trainingsdaten Assoziationsregeln If object.rank <= 1 && object.age <= 20 { object.skill = “High” }
Realisierung in Knime • NutzungbestehenderBausteine (ID3 , Apriori , Decision Tree ) • Vergleich von unterscheidlichenDatensätzen • Datenvorverarbeitungmittelsbestimmter Module • Aufteilung von Daten in Trainings und Test-Daten • Ausgabe der Ergebnisse
Apriori in Knime • Auslesen der Datenüber File Reader • Aufteilung der kontinuierlichenGrößen in diskreteWertemit Numeric Binner • Partionierung der Daten in Test und Trainingsdaten
Apriori in Knime • ManuellesFiltern der RelevantenRegeln • Eintragen in die Rule Engine
Apriori in Knime • WennZielattributkeinboolscher Wert -> One2Many Element notwendig • AufteilungjedesmöglichenWertes in einzelneSpaltenmitboolschemWert
ID3 & Decision Tree Knime • Einlesen der Datenüber File-Reader • Aufteilung in Intervallemittels Numeric Binner • Partionierung der Datensätze und Training und Testdaten • Vorhersagemittels Predictor
Vergleich der Genauigkeiten • Vergleich von 4 Datensätzen • BeiKlassenanzahl = 1 keinegravierendenUnterscheide • BeihöhererKlassenanzahlbessereKlassifizierungmittelsApriori • BeigroßenDatensätzenzuhoherAufwand
Probleme • KNIME-Module bietennicht die nötigenEin & Ausgänge • Abbildung von numerischenDaten auf Intervalle • AbbildungdieserIntervalle auf boolscheWerte • MitAnzahl der Klassensteigt der Konfigurationsaufwand in KNIME • A-Priori imGegensatzzum ID3 unterKnimedeshalbsehraufwändig
Zusammenfassung & Ausblick • Zielstellung : AprioriRegelnfür die Klassififkation von Datenbessergeeignetals ID3 ? • Knime Module erweitern • FürGroßeDatensätzeaufgrund des manuellenZwischenschrittes in Knimemomentannochungeeignet • VergleichbareErgebnisse der unterscheidlichenAnsätze • BeihöhererAnzahl von KlassenbessereKlassifizierung