640 likes | 1.16k Views
ANALIZA I OBRADA PODATAKA. Rudarenje podataka Dubinska analiza podataka Data Mining. SSCSS Split - AOP – Igor Nazor. Traženje znanja u podacima. Rudarenje podataka Data Mining. Traženje znanja u podacima. Pokušaji da se predviđaju pojave datiraju još iz antičkih civilizacija
E N D
ANALIZA I OBRADA PODATAKA Rudarenje podataka Dubinska analiza podataka Data Mining SSCSS Split - AOP – Igor Nazor
Traženje znanja u podacima • Rudarenje podataka • Data Mining
Traženje znanja u podacima • Pokušaji da se predviđaju pojave datiraju još iz antičkih civilizacija • Matematičke formule - predviđanje neke veličine na temelju poznatih • Geometrija - određivanje međusobnih odnosa među objektima na temelju nekih poznatih vrijednosti - Euklid, Pitagora • Zakoni fizike - Međudjelovanje objekata - Newton • Odnosi među varijablama su prepoznati • Teorija vjerojatnosti - Pokušaj predviđanja nekih događaja na temelju onih koji su se već dogodili - Laplace.
Traženje znanja u podacima • Današnji problem • Postoji velika količina podataka • Postoji mnogo izvora podataka • Poznate su samo neke varijable, odnose među njima je potrebno pronaći • Poslovna inteligencija - Business Intelligence - BI
Traženje znanja u podacima • Konkurentno okruženje • Velika konkurencija među trgovačkim lancima • Želi se postići "osobni ugođaj" kod kupca • Nastoji se izbjeći "rat cijenama" • Velika konkurencija među proizvođačima • Brze izmjene trendova • Jaka "pregovaračka pozicija" kupaca • imaju puno alternativa • Proizvođači traže "niše" gdje je manja konkurencija
Traženje znanja u podacima • Pitanja na koja tražimo odgovore koristeći BI • Kakva vrsta kupaca kupuje i našoj tvrtci? • Koji profil kupaca ne kupuje naše proizvode? • Kako prepoznati kupce koj će prijeći kod nas iz konkurentske firme? • Koji naši korisnici će najvjerojatnije promijeniti operatera u slijedećih mjesec dana? • Koja je najrizičnija skupina korisnika zdravstvenog osiguranja? • Kod kojih proizvoda kupci ne gledaju previše na cijenu?
Tipična pitanja iz poslovanja... Traženje znanja u podacima • Koji radnici imaju najbolji omjer rada i učinka? • Koji profil kupaca ne kupuje naše proizvode? • Kako prepoznati kupce koji više ne namjeravaju kupovati u Konzumu, i kako ih zaržati? • Koji su najuspješniji prodavači? • Koji naši korisnici će najvjerojatnije promijeniti operatera u slijedećih mjesec dana? • Koja je najrizičnija skupina korisnika zdravstvenog osiguranja? • Kako ide prodaja kave po vrsti, regiji i godišnjem dobu? • Gdje najviše prodajemo kave?
Koji sustav za koji problem Traženje znanja u podacima
Koji sustav za koji problem Traženje znanja u podacima • Transakcijski sustav, skladište podataka • Gdje najviše prodajemo kave? • Koji su najuspješniji prodavači?
Koji sustav za koji problem Traženje znanja u podacima • Transakcijski sustav, skladište podataka • Gdje najviše prodajemo kave? • Koji su najuspješniji prodavači? • OLAP • Kako ide prodaja kave po vrsti, regiji i godišnjem dobu? • Koji radnici imaju najbolji omjer rada i učinka?
Koji sustav za koji problem Traženje znanja u podacima • Transakcijski sustav, skladište podataka • Gdje najviše prodajemo kave? • Koji su najuspješniji prodavači? • OLAP • Kako ide prodaja kave po vrsti, regiji i godišnjem dobu? • Koji radnici imaju najbolji omjer rada i učinka? • ??? • Koji profil kupaca ne kupuje naše proizvode? • Koji naši korisnici će najvjerojatnije promijeniti operatera u slijedećih mjesec dana? • Koja je najrizičnija skupina korisnika zdravstvenog osiguranja? • Kako prepoznati kupce koji više ne namjeravaju kupovati u Konzumu, i kako ih zadržati?
Što sve postoji u današnjim bazama podataka? Traženje znanja u podacima • Povijest svih odnosa sa kupcima i dobavljačima • Narudžbe • Ulaz i izlaz robe na skladišta • Ponude • Podaci o plaćanju • Svaka poslovna transakcija je registrirana u bazi podataka • Tragovi komunikacije sa korisnicima ( call centri) • Potpun skup podataka o svim poslovnim događajima
Data Mining Traženje znanja u podacima • Što je data mining ? • Primjena statističkih i programskih metoda za analizu velike količine podataka. Postojeći povijesni podaci se “provlače” kroz različite statističke modele. • Rezultati • Nalaženje veza među podacima • Prepoznavanje do sada neprimijećenih veza • Prepoznavanje trendova i ponašanja • Predviđanje budućnosti na temelju uočenih trendova
OLAP <--> Data Mining Traženje znanja u podacima • OLAP • Analitičar određuje put analize • dimenzije • koje se dimenzije želi uspoređivati • glavni cilj - izrada izvještaja • DATA MINING • automatizirani postupci za određivanje veza među podacima • nakon analize "naslućuju" se dimenzije • Rezultat Data Mining-a - ulaz u OLAP
Arhitektura Data Mining-a Traženje znanja u podacima Izvor: http://www.thearling.com
Tehnike Data Mining-a Traženje znanja u podacima • Neuronske mreže - "učenje na primjerima“ • Stabla odluke - grane predstavljaju skupove odluka. • Genetički algoritmi - simuliraju evolucijske procese (genetsko kombiniranje, mutiranje, prirodni odabir). • Metoda najbližeg susjeda - kako su klasificirani najsličiniji podaci? • Indukcija prema pravilima - definiranje if - then sekvenci, i klasificiranje podataka prema njima. (ništa, malo, srednje, puno narudžbi)
Postupak Data Mining-a • Pred-obrada - pripremanje skupa podataka • Obrada podataka • Interpretiranje rezultata • Testiranje uzorka Izvor: http://www.thearling.com
Pred - obrada podataka • Razlozi: • U transakcijskom sustavu je previše podataka da bi ih se sve obradilo • Svi podaci nisu na istom nivou granularnosti • Sve relacijske veze među podacima možda nisu uspostavljene Izvor: http://www.thearling.com
Pred - obrada podataka • Postupak: • Eliminiranje ekstremnih vrijednosti – greški • Nedostajuće vrijednosti (popunjavanje ili ignoriranje) • Kategoriziranje (visok, nizak) ovisno o kriterijima • Odabir reprezentativnog uzorka • Mora dobro predstavljati cijeli skup podataka • Problem – odabrati podatke da se ne izgube trendovi koje tražimo • Nakon pred-obrade - jedna tablica sa podacima Izvor: http://www.thearling.com
Obrada podataka • Metode obrade podataka • Klasifikacija • Ubacivanje podataka u već određene grupe. • Neuronske mreže • Stabla odluke • Metoda najbližeg susjeda • Indukcija prema pravilima Izvor: http://www.thearling.com
Metode obrade podataka • Grupiranje ( klasterizacija ) • Stavljanje podataka koji su po nečemu slični u odvojene grupe • Algoritamsko određivanje grupa podataka • Zahtijeva korekciju korisnika sa iskustvom, ovako dobivene grupe često nemaju smisla Izvor: http://www.thearling.com
Metode obrade podataka Regresijska analiza Traženje funkcije koja najbolje predstavlja međuovisnost nekih varijabli Izvor: http://download-west.oracle.com
Metode obrade podataka • Klasteriranje • Pronalaženje grupa sličnih podataka (kupaca, korisnika, proizvoda...) • Pomoću statističkih metoda određuju se: • Način određivanja udaljenosti (npr, 2d ili 3d prostor) • Metoda grupiranja • hijerarhijske • k-means klasteriranje http://upload.wikimedia.org/wikipedia/commons/thumb/c/c8/Cluster-2.svg/220px-Cluster-2.svg.png
Metode obrade podataka • Hijerarhijsko klasteriranje • - definira se način određivanja udaljenosti • - definira se kriterij za grupiranje • - određuju se grupe dob broj polaganja http://upload.wikimedia.org/wikipedia/commons/thumb/c/c8/Cluster-2.svg/220px-Cluster-2.svg.png http://upload.wikimedia.org/wikipedia/commons/thumb/b/b5/Clusters.svg/250px-Clusters.svg.png
Metode obrade podataka • Hijerarhijsko klasteriranje • Formiranje matrice udaljenosti A [n,n] n – broj elemenata koji se klasteriraju • Iterativno • spajanje redova i stupaca, formiranje grupa • Računanje udaljenosti među dobivenim grupama – novim elementima dob broj polaganja
Metode obrade podataka • Hijerarhijsko klasteriranje – priprema podataka • Klasteriranje - izračun udaljenosti među podacima • - Numerički podaci • - Normirati podatke (dob 10-60, zarada 1000-10.000) • - Opisne varijable u numeričke • veliko, malo • Hrvatska, BiH
Metode obrade podataka • Particionalno grupiranje - k-means • Unaprijed određen broj grupa (ručno ili nekom drugom metodom DM-a) • Unaprijed postavljene koordinate centroida • Računanje udaljenosti svake toke od centroida, grupiranje prema najbližima • Pogodna za računalnu primjenu, jednostavno mijenjanje koordinata i broja centroida u i iterativno traženje najboljeg rezultata
Metode obrade podataka Neuronske mreže • Analogija sa neuronima u živim bićima. • Međusobno povezana mjesta za jednostavnu obradu podataka • Neuroni međusobno spojeni pomoću sinapsi • Programska simulacija • Čvorovi na kojima se obrađuju impulsi pomoću programskog koda. • Čvorovi su organizirani u slojeve • Ulazni • jedan ili više skrivenih • Izlazni
Metode obrade podataka Neuronske mreže • Biološki neuron • Ulaz impulsa kroz dendrite • Impulsi se proslijeđuju narednim neuronima kroz sinapse • “Učenje” – olakšan prolaz jačih i češćih impulsa
Neuronske mreže Metode obrade podataka • Softverski “neuron” • Ulazne vrijednosti se množe sa težinskim faktorima i zbrajaju • Aktivacijska funkcija – ovisnost izlazne vrijednosti o ulaznima. • “Učenje” – mijenjanje težinskih faktora
Neuronske mreže - učenje Metode obrade podataka • Nadzirano (supervised learning) • Učenje na testnim podacima • Učitelj korigira rezultate ( povratna veza) • Nakon nekoliko testnih podataka neuronska mreža bi trebala sama izvoditi točne zaključke • Nenadzirano (unsupervised learning) • Samoorganizirajuće mape • Pojačavajuće (Reinforcement Learning) • Interakcija sa okolinom (nagrada i kazna)
Metode obrade podatakaFuzzy ekspertni sustavi Koriste spremljeno znanje eksperata Znanje je spremljeno u obliku indukcijskih pravila: AKO promet_zadnjih_6_mjeseci = mali I troškovi_promocije_zadnjih_6_mjeseci = veliki TADA kategorija_klijenta = neprofitabilan. Izvor: http://www.thearling.com
Metode obrade podatakaFuzzy ekspertni sustavi Fuzzy ekspertni sustavi Problemi koje rješavaju: scoriranje - bodovanje određenih grupa prema kriterijima iz baze znanja Praćenje trendova kroz vrijeme - koliko kupaca mjesečno prelazi iz kategorije "profitabilni" u kategoriju "neprofitabilni" Ulazni podaci: složeni na način da su formirane varijable promet_zadnjih_6_mjeseci, i troškovi_promocije_zadnjih_6_mjeseci Obrada: kategorizacija kupaca prema dimenziji Profitabilnost Izlaz: Kategorije kupaca Izvor: http://www.thearling.com
Metode obrade podatakaBayesove mreže Problemi koje rješavaju: Određivanje vjerojatnosti nekog događaja uz uvjet da se je dogodio neki drugi događaj, ili više njih. Ulazni podaci: Podaci u kategorijama ili diskretne vrijednosti - bitno je kvalitetno odrediti kategorije, ovisno o traženom rezultatu. Tablice uvjetnih vjerojatnosti - unaprijed obrađeni podaci, o vjerojatnosti odvijanja pojedinog događaja uz uvjet nekog drugog događaja. Podaci o sigurnim događajima (onima koji su se već dogodili) - evidence. Izvor: http://www.thearling.com
Metode obrade podatakaBayesove mreže • Daju odgovor na pitanja: • Utiče li na iznos kupovinu tehničke robe činjenica što kupac dolazi u dućan samo u jutarnjim satima, i što plaća gotovinom? • Je li starija populacija sklonija kupovini mobitela na pretplatu od mlađe populacije? • Metodologija rada: • Definira se evidence, i traži vjerojatnost traženog događaja (kupovina mobitela na pretplatu). • evidence je starija populacija • evidence je mlađa populacije • Izlazni podaci: • Popis vjerojatnosti da se svaki od traženih događaja dogodi. Izvor: http://www.thearling.com
Metode obrade podatakaSurvival modeli Problemi koje rješavaju: Dijagnostika i analiza prekida poslovnih odnosa (kupovine, korisničkog ugovora, pretplate). Temelje se na medicinskim ispitivanjima, procjeni uspješnosti različitih terapija kroz vrijeme. Ulazni podaci: Kategorizirani podaci o kupcima, te da li su prekinuli odnos ( oznaka 1), ili nisu (oznaka 0), vrijeme korištenja usluge, ostale karakteristike (prediktivne varijable). Izvor: http://www.thearling.com
Metode obrade podatakaSurvival modeli • Izlazni podaci: • -statistička povezanost (npr. koeficijent korelacije) izmežu različitih varijabli, mogućih uzroka prekida odnosa. • npr. najveću vjerojatnost odlaska imaju mladi kupci koji su tri puta reklamirali proizvod unutar jamstvenog roka. • varijable među kojima se traži povezanost: • broj reklamacija • dob • duljina ugovornog odnosa / statusa kupca Izvor: http://www.thearling.com
Metode obrade podatakaAsocijativni modeli • Odgovaraju na pitanja: • Koliko se neki događaji pojavljuju zajedno, te koliko se pojavljuju u ukupnom promatranom skupu događaja. • Primjer: - rezultat analize • 30% kupnji gdje je kupljeno pivo, kupljen je i čips. • 10% svih kupnji sadrži pivo i čips. • Pravilo: gdje je kupljeno pivo, kupljen je i čips • Mjera pouzdanosti pravila: 30% • Mjera podrške pravila: 10% Izvor: http://www.thearling.com
Metode obrade podatakaAsocijativni modeli Ulazni podaci: Potrebno je definirati smislena pravila (koja daju bitne informacije) - ušteda vremena obrade. Vrijeme obrade jako ovisi o veličini ulaznog skupa podataka. Varijanta: Pravila mogu biti iskazana i u negacijskoj formi: AKO artikal_a TADA NE artikal_b Izvor: http://www.thearling.com
Interpretiranje rezultata • Izvesti zaključke iz dobivenih podataka • “Kupci mlađi od 25 godina iz Osijeka imaju najveću šansu promijeniti operatera” • Studenti koji se nisu pojavljivali na predavanjima u zadnjim mjesecima ljetnog semestra imaju najveću šansu pasti kolegij. • Testiranje uzorka • Napraviti regresijsku analizu između varijabli “dob” i "mjesto boravka” na svim podacima, i vidjeti da li se ponaša na isti način • Testirati pretpostavke • Polovini mladih kupaca iz Osijeka dati bonus, i vidjeti da li ih manje odlazi Izvor: http://www.thearling.com
Testiranje uzorka • Napraviti regresijsku analizu između varijabli “dob” i "mjesto boravka” na svim podacima, i vidjeti da li se ponaša na isti način • Testirati pretpostavke • Polovini mladih kupaca iz Osijeka dati bonus, i vidjeti da li ih manje odlazi Izvor: http://www.thearling.com
ANALIZA I OBRADA PODATAKA Rudarenje podataka Dubinska analiza podataka Data Mining SSCSS Split - AOP – Igor Nazor
Osnovni pojmoviVjerojatnost Vjerojatnost jednog događaja: P =Broj ostvarenih događaja / broj ponavljanja eksperimenta Vjerojatnost kombinacije dvaju događaja: Pkombinacije = Pprvog događaja * Pdrugog događaja Vjerojatnost ostvarivanja drugog dugađaja nakon što se je već ostvario prvi događaj: Pdrugog događaja Izvor: http://www.thearling.com
Osnovni pojmoviVjerojatnost Vježba: Kolika ja vjerojatnost da ćemo iz tri bacanja kocke dobiti svaki put broj 3? Kolika je vjerojatnost da ćemo iz tri bacanja kocke dobiti brojeve 1, 2 i 3 ? Ako lutrija ima 1 000 000 kombinacija, kolika je vjerojatnost da će biti izvučen broj 150, ako je isti broj bio izvučen i prethodni tjedan? Izvor: http://www.thearling.com
Osnovni pojmoviVarijable u statističkoj analizi • Nezavisne - prediktori - vrijednosti kojima manipuliramo. • Kontrolirane - faktori čije bi mijenjanje uticalo na ishod ispitivanja, ali ih se ne mijenja. • Zavisne - parametar / svojstvo čiju vrijednost tražimo • Primjer: • Ispitivanja uticaja količine gnojiva na rast biljke. • nezavisna varijabla je količina dodatka (promjenjivi dio eksperimenta) • Zavisne varijable su: masa, veličina biljke (svojstva na koja se utiče tijekom eksperimenta) • Kontrolirane varijable su: vrsta gnojiva, količina sunca... Izvor: http://www.thearling.com
Osnovni pojmoviVrijednosti varijabli u statističkoj analizi • Diskretne: sastoje se od konačnog broja diskretnih vrijednosti (dob, ocjena) • Kontinuirane varijable: neograničeni broj mogućih vrijednosti u nekom intervalu (vrijeme, temperatura) • Kategorizirane: stavljanje više vrijednosti (kontinuiranih ili diskretnih) u manji broj grupa ( kategorija): • dob: • < 18 • 18-35 • 35-55 • > 55 Izvor: http://www.thearling.com
Osnovni pojmoviEntropija • Entropija - sadržaj informacija - mjera koliko informacija sadrži neki podatak ili niz podataka. (jedinica mjere - bit) • rezultati 5 bacanja novčića sadrži 5 bita informacije • niz od 5 istih znakova sadrži manje informacije • Primjena - koliko se podaci mogu komprimirati da se ne izgube informacije - najviše do veličine njihove entropije. Izvor: http://www.thearling.com
Alati za Data mining • Specijalizirani • SPSS • SAS Enterprise Miner • Hugin • Neurotran • U sklopu poslovnog paketa / baze podataka • SAP NetWeaver • Oracle Data Mining • Microsoft SQL Server Analisys Services • Open source • Rapid-I RapidMiner • Orange, Weka, GeNIE Izvor: http://www.thearling.com
Data Mining - aplikacije Traženje znanja u podacima • SPSS (Statistical Package for Social Sciences) • Najpoznatiji alat za statističku obradu podataka • Osnovnu varijantu je moguće proširivati dodatnim modulima • regresijski modeli • klasifikacijska stabla • vremenska analiza • analiza malih uzoraka • SPSS Modeler (Clementine) • text mining Izvor: http://www.thearling.com