240 likes | 367 Views
Demo izrade mining modela: Business Intelligence Development Studio. Koraci izrade mining modela: priprema SQL Server baze podataka, priprema Analysis Services baze podataka, i izrada mining modela Priprema SQL Server baze podataka
E N D
Demo izrade mining modela: Business Intelligence Development Studio • Koraci izrade mining modela: • priprema SQL Server baze podataka, • priprema Analysis Services baze podataka, i • izrada mining modela • Priprema SQL Server baze podataka Adventure Works DW baza podataka je instalirana zajedno sa SQL Serverom i već sadrži poglede koji se koriste za kreiranje mining modela • Priprema Alalysis Services baze podataka • Kreiranje Analysis Services projekta. Svaki Analysis Services projekat određuje šema objekata u jednoj Analysis Services bazi podataka. Ona je definisana mining modelima, OLAP kockama i dodatnim objektima koje sadrži • Kreiranje izvora podataka. Izvor podataka (Data Source) sadrži ime servera i naziv relevantne baze podataka kao i bilo koje druge neophodne informacije. Ove informacije su uključene u ovaj projekat kao i u Analysis Services bazu podataka • Kreiranje pogleda izvora podataka. Pogled izvora podataka (Data Source View) omogućava da izmenimo strukturu podataka kako bi bili podesniji za ovaj projekat. Njime možemo odabrati samo tabele koje se odnose na projekat, uspostaviti veze između tabela i dodavati obračunate kolone bez izmene originalnog izvora podataka. • Upotrebom Data Source View Editora možemo vršiti izmenu načina na koji su podaci prikazani u izvoru podataka. Na primer, možemo promeniti ime bilo kog objekta u neko prikladnije našem projektu a da pri tome ime u originalnom izvoru podataka nije promenjeno.
3. Izrada mining modela • Data Mining Editor sadrži sve alate i view-ere koji se koriste za izradu i rad sa mining modelima. Data mining editor
Primer scenarija Targeted Mailing • Business problem • Odsek za marketing je zainteresovan za povećanje prodaje određivanjem ciljne grupe potrošača za kampanju putem pošte (targeted mailing) • Ispitivanjem atributa poznatih potrošača, žele da otkriju neku vrstu obrasca koji se može koristiti za predviđanje mogućnosti da potencijalni potrošač postane kupac • Žele da otkriju koji su to zajednički atributi, tj. da otkriju logičko grupisanje potrošača koji se već nalaze u bazi. Na primer, grupisanje može sadržati potrošače sa sličnim kupovnim navikama i slične demografske strukture • Cilj: • Skup mining modela koji će biti u mogućnosti da nagoveste koja grupa potencijalnih potrošača će biti najverovatniji kupci • Klastering njihovih sadašnjih potrošača • Scenario: • Kreirati strukturu mining modela • Kreirati mining modele • Istražiti mining modele • Ispitati preciznost mining modela • Kreirati predviđanja na osnovu mining modela • U cilju realizacije scenarija, koristiće se Microsoft Naive Bayes, Decision Trees i Clustering algoritmi
Kreiranje strukture mining modela • Prvi korak je upotreba Mining Model Wizard-a koji kreira početni mining model • U Wizard-u vršimo: • izbor podataka za mining model (postojeća relaciona baza ili DW) • Tehnike za data mining (u našem slučaju Decision trees, kao prva opcija) • Opcije vezane za case, ključ i predviđanje • Nakon selekcije ulaznih kolona, pokrećemo algoritam koji proverava numeričke podatke i utvrđuje da li numeričke kolone sadrže neprekidne ili pojedinačne vrednosti (npr., kolona može da sadrži informacije o plati u vidu stvarnog iznosa zarade, što je neprekidna vrednost ili može sadržati integere koji predstavljaju odgovarajuće opsege (1 - < €25.000, 2 – €25.000- € 50.000, itd.) što je pojedinačna vrednost) • Početna mining struktura sadrži samo model zasnovan na Microsoft Decision Trees modelu. Možemo definisati dva dodatna modela: Microsoft Naïve Bayes model i Microsoft Clustering model. • Nakon određivanja strukture i parametara za mining modele možemo rasporediti i procesirati modele.
Istraživanje mining modela • Mining Model Viewer tab u startu otvara prvi model u strukturi Targeted Mailing mining modela. Tree viewer sadrži dva taba: • Decision Tree tab - Ovde možemo ispitati sva tri modela koja čine Targeted Mailing model. Za svaki atribut za koji se vrši predviđanje u modelu postoji jedan model stabla. Pošto naš model sadrži samo jedan atribut za predviđanje, Bike Buyer (kupac bicikla), imamo pregled samo jednog stabla. U slučaju kada imamo više stabla, možemo koristiti Tree box da izaberemo drugo stablo. • Tree viewer u startu prikazuje samo prva tri nivoa stabla. Ukoliko stablo ima manje od tri nivoa, Tree viewer prikazuje samo postojeće nivoe. • Svaki čvor u stablu odlučivanja sadrži sledeće informacije: • stanje neophodno za pristup tom čvoru od strane čvora koji mu prethodi. Možemo videti kompletnu strukturu u legendi ili u ToolTip-u, • histogram koji opisuje distribuciju stanja kolone za predviđanje u zavisnosti od popularnosti. Možemo kontrolisati koliko će se stanja pojaviti u histogramu pomoću Histogram opcije, • koncentraciju slučajeva, ukoliko je stanje atributa za predviđanje određeno u Background opciji.
Dependency Network tab • Prikazuju se odnosi između atributa koji pospešuju sposobnost predviđanja mining modela. • Centralni čvor na slici, Bike Buyer, predstavlja atribut za predviđanje u mining modelu. • Svaki čvor koji ga okružuje predstavlja atribut koji utiče na rezultat atributa za predviđanje. • Pomoću slajdera sa leve strane određujemo jačinu veza koje su prikazane. Pomeranjem slajdera na dole, biće prikazane samo najjače veze. Pomoću legende na dnu možemo videti čvorove koje određeni čvor predviđa ili čvorove koji predviđaju određeni čvor.
Microsoft Clustering Model • Viewer za ovaj model, Cluster viewer, sadrži četiri taba: Cluster Diagram, Cluster Profiles, Cluster Characteristics i Cluster Discrimination Cluster Diagram • Pomoću Cluster Diagram taba možemo istražiti odnose između klastera otkrivenih od strane algoritama • Linije između klastera predstavljaju „bliskost“ i zatamnjeni su na osnovu sličnosti između klastera • Boja klastera predstavlja učestalost promenljive i stanja za svaki klaster • Početna vrednost promenljive je Population, ali možemo staviti bilo koji atribut modela da bi pronašli koji klasteri sadrže članove sa atributima koje želimo • Pomoću slajdera određujemo koje veze između klastera želimo da prikažemo • Na primer, ako u opciji Shading Variable stavimo Bike Buyer, a u opciji State broj 1, uočićemo da klaster 5 sadrži najveću koncentraciju kupaca bicikala. Najjača veza postoji između klastera 4 i klastera 7.
Cluster Profiles • Cluster Profiles tab omogućava celokupan pregled Targeted Mailing Clustering modela • Sadrži kolonu za svaki klaster u modelu • Prva kolona sadrži atribute koji su povezani sa najmanje jednim klasterom • Distribucija stanja atributa za svaki klaster prikazana je u ostatku tabele • Distribucija pojedinačnih promenljivih je prikazana kao obojena šipka • Maksimalni broj šipki određen je u Bars Per Histogram box-u • Neprekidni atributi su prikazani pomoću romb dijagrama koji prikazuje odstupanje za svaki klaster.
Cluster Characteristics • Pomoću Cluster Characteristics taba možemo detaljnije ispitati karakteristike svakog klastera. Na primer, možemo uočiti da ljudi u klasteru 5 (Bike Buyers) uglavnom imaju karakteristike kao što su: prelaze kratke razdaljine (0 – 1 milje), ne poseduju automobil i nemaju dece.
Cluster Discrimination • Cluster Discrimination tab nam omogućava da ispitamo karakteristike koje razlikuju jedan klaster od drugog. • Kada izaberemo dva klastera u polju Cluster 1 i polju Cluster 2, viewer utvrđuje razlike i prikazuje ih po atributima koji se najviše razlikuju između klastera. • Na primer, uporedimo klaster 5 i klaster 10 u Targeted Mailing Clustering modelu. Klaster 5 sadrži najveću koncentraciju kupaca bicikala dok klaster 10 sadrži najmanju koncentraciju. Takođe, potrošači u klasteru 10 su uglavnom iz Severne Amerike, starosti od 23 – 31 godine, dok su u klasteru 5 uglavnom potrošači iz Evrope i prelaze kratke razdaljine (0 – 1 milje).
Microsoft Naïve Bayes Model • Viewer za ovaj model obuhvata četiri taba: Dependency Network, Attribute Profiles, Attribute Characteristics i Attribute Discrimination. Dependency Network • Ovaj tab radi na isti način kao Dependency Network tab za Tree viewer. Svaki čvor predstavlja atribut, a linije između čvorova predstavljaju odnose. Na slici su prikazani svi atributi koji utiču na stanje atributa za predviđanje Bike Buyer. • Ako spustimo slajder, primetićemo da će ostati samo oni atributi koji imaju najveći uticaj na Bike Buyer (u ovom primeru Broj Automobila U Posedu /Number Cars Owned/ je najveći faktor u određivanju da li je neko kupac bicikla).
Attribute Profiles • Attribute Profiles tab opisuje kako različita stanja ulaznih atributa utiču na ishod atributa za predviđanje. Atributi koji utiču na stanje atributa za predviđanje su prikazani sa vrednostima svakog stanja ulaznih atributa i njihovih distribucija u svako stanje atributa za predviđanje.
Attribute Characteristics • Attribute Characteristics tab nam omogućava da izaberemo atribut i vrednost da bi smo videli koliko se često vrednosti za druge atribute pojavljuju u pomenutim slučajevima (na primer, ljudi koji nemaju decu kupuju najviše bicikala).
Attribute Discrimination • Pomoću Attribute Discrimination taba možemo ispitati odnos između dve pojedinačne vrednosti određenog atributa za predviđanje kao i druge vrednosti atributa. • Pošto Targeted Mailing Naïve Bayes model ima samo dva stanja 1 i 0, ne moramo vršiti nikakve izmene u vieweru. • Na primer, ljudi koji ne poseduju automobil najčešće kupuju bicikl, dok ljudi koji poseduju dva automobila uglavnom ne kupuju bicikl
Ispitivanje preciznosti mining modela • Nakon što smo procesirali i istražili mining modele, moramo izvršiti proveru koliko dobro oni vrše predviđanje i da li neki od Targeted Mailing modela pokazuje bolje rezultate od ostalih • Pomoću Mining Accuracy Chart taba možemo izračunati koliko dobro svaki od modela vrši predviđanje i nakon toga, uporediti rezultate direktno između modela • Ovaj metod upoređivanja se ponekad naziva i lift chart • Mining Accuracy Chart tab koristi test podatke koji su odvojeni od originalne grupe podataka za trening, radi upoređivanja predviđanja sa poznatim rezultatom • Rezultati se potom sortiraju i iscrtavaju na dijagramu zajedno sa idealnim modelom da bi se stekao uvid kako model obavlja predviđanja - Idealni model predstavlja grafikon za teorijski model koji 100% tačno vrši predviđanje rezultata • Lift chart je važan jer nam omogućava da napravimo razliku između gotovo identičnih modela u strukturi, u isto vreme utvrđujući koji od njih obezbeđuje najbolja predviđanja. On prikazuje koji tip algoritma obavlja najtačnija predviđanja u zadatoj situaciji.
Povezivanje (mapiranje) ulaznih kolona • Prvi korak u kreiranju novog Mining Accuracy dijagrama je da odredimo koje će kolone u modelu učestvovati kao test podaci - to činimo povezivanjem (mapiranjem) kolona. • Kolone u mining strukturi se automatski povezuju sa kolonama sa istim imenom u ulaznoj tabeli. Povezivanje kolona u Mining Accuracy Chart tabu
Ispitivanje preciznosti mining modela (nastavak) Filtriranje ulaznih nizova • Možemo upotrebiti opciju Filter The Input Data Used To Generate The Lift Chart da bi smo izvršili filtriranje ulaznih podataka • Ova opcija je korisna ukoliko želimo da ograničimo ulazne nizove samo na one kod kojih su ispunjeni određeni uslovi (na primer, godišnji prihod > $30.000) Izbor modela, kolona za predviđanje i vrednosti • Sledeći korak je da izaberemo modele koje želimo da uključimo u lift chart i kolonu za predviđanje sa kojom će se porediti • Možemo kreirati dve vrste dijagrama tačnosti (accuracy charts). Ako izaberemo vrednost za predviđanje, dobićemo dijagram kao na sledećoj slici (slika a) koji prikazuje koliki učinak model može da obezbedi. Ukoliko ne uključimo vrednost za predviđanje dijagram će prikazati koliko je model precizan (slika b) Pregled Lift Chart-a • Kada kliknemo na Lift Chart tab, upit predviđanja se obraća serveru i bazi podataka za mining strukturu i ulaznu tabelu. Rezultati predviđanja se upoređuju sa stvarnim vrednostima koje su poznate i sortirane po verovatnoći i potom se iscrtavaju na dijagramu. • Ukoliko smo naveli vrednost za predviđanje, Lift Chart je iscrtan kao na slici a)
Preciznost svakog modela u odnosu na idealni model • Ukoliko nismo naveli vrednost za predviđanje, lift chart prikazuje preciznost predviđanja mining modela Slika b.
Kreiranje predviđanja • Na kraju, kada smo zadovoljni sa mining modelima, možemo početi sa kreiranjem DMX upita predviđanja pomoću Prediction Query Builder-a • Prediction Query Builder je sličan Access Query Builder-u u kome koristimo drag-and-drop operacije za izradu upita • Ovaj alat se sastoji iz tri prozora: • Design • Query • Result • Design i Query nam omogućavaju izradu i pregled upita. Zatim možemo izvršiti upit i videti rezultate u Result prozoru.