1 / 49

ANALIZA I OBRADA PODATAKA

ANALIZA I OBRADA PODATAKA. Rudarenje podataka Dubinska analiza podataka Data Mining. SSCSS Split - AOP – Igor Nazor. Traženje znanja u podacima. Rudarenje podataka Data Mining. Traženje znanja u podacima. Pokušaji da se predviđaju pojave datiraju još iz antičkih civilizacija  

kaleb
Download Presentation

ANALIZA I OBRADA PODATAKA

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. ANALIZA I OBRADA PODATAKA Rudarenje podataka Dubinska analiza podataka Data Mining SSCSS Split - AOP – Igor Nazor

  2. Traženje znanja u podacima • Rudarenje podataka • Data Mining

  3. Traženje znanja u podacima • Pokušaji da se predviđaju pojave datiraju još iz antičkih civilizacija   • Matematičke formule - predviđanje neke veličine na temelju poznatih • Geometrija - određivanje međusobnih odnosa među objektima na temelju nekih poznatih vrijednosti - Euklid, Pitagora • Zakoni fizike - Međudjelovanje objekata - Newton • Odnosi među varijablama su prepoznati • Teorija vjerojatnosti - Pokušaj predviđanja nekih događaja na temelju onih koji su se već dogodili - Laplace. 

  4. Traženje znanja u podacima • Današnji problem • Postoji velika količina podataka • Postoji mnogo izvora podataka • Poznate su samo neke varijable, odnose među njima je potrebno pronaći • Poslovna inteligencija  - Business Intelligence - BI

  5. Traženje znanja u podacima • Konkurentno okruženje • Velika konkurencija među trgovačkim lancima • Želi se postići "osobni ugođaj" kod kupca • Nastoji se izbjeći "rat cijenama"  • Velika konkurencija među proizvođačima • Brze izmjene trendova • Jaka "pregovaračka pozicija" kupaca • imaju puno alternativa • Proizvođači traže "niše" gdje je manja konkurencija

  6. Traženje znanja u podacima • Pitanja na koja tražimo odgovore koristeći BI • Kakva vrsta kupaca kupuje i našoj tvrtci? • Koji profil kupaca ne kupuje naše proizvode? • Kako prepoznati kupce koj će prijeći kod nas iz konkurentske firme? • Koji naši korisnici će najvjerojatnije promijeniti operatera u slijedećih mjesec dana? • Koja je najrizičnija skupina korisnika zdravstvenog osiguranja? • Kod kojih proizvoda kupci ne gledaju previše na cijenu?

  7. Tipična pitanja iz poslovanja... Traženje znanja u podacima • Koji radnici imaju najbolji omjer rada i učinka? • Koji profil kupaca ne kupuje naše proizvode? • Kako prepoznati kupce koji više ne namjeravaju kupovati u Konzumu, i kako ih zaržati?  • Koji su najuspješniji prodavači? • Koji naši korisnici će najvjerojatnije promijeniti operatera u slijedećih mjesec dana? • Koja je najrizičnija skupina korisnika zdravstvenog osiguranja? • Kako ide prodaja kave po vrsti, regiji i godišnjem dobu? • Gdje najviše prodajemo kave?

  8. Koji sustav za koji problem Traženje znanja u podacima

  9. Koji sustav za koji problem Traženje znanja u podacima • Transakcijski sustav, skladište podataka • Gdje najviše prodajemo kave? • Koji su najuspješniji prodavači?

  10. Koji sustav za koji problem Traženje znanja u podacima • Transakcijski sustav, skladište podataka • Gdje najviše prodajemo kave? • Koji su najuspješniji prodavači? • OLAP • Kako ide prodaja kave po vrsti, regiji i godišnjem dobu? • Koji radnici imaju najbolji omjer rada i učinka?

  11. Koji sustav za koji problem Traženje znanja u podacima • Transakcijski sustav, skladište podataka • Gdje najviše prodajemo kave? • Koji su najuspješniji prodavači? • OLAP • Kako ide prodaja kave po vrsti, regiji i godišnjem dobu? • Koji radnici imaju najbolji omjer rada i učinka? • ??? • Koji profil kupaca ne kupuje naše proizvode? • Koji naši korisnici će najvjerojatnije promijeniti operatera u slijedećih mjesec dana? • Koja je najrizičnija skupina korisnika zdravstvenog osiguranja? • Kako prepoznati kupce koji više ne namjeravaju kupovati u Konzumu, i kako ih zadržati?

  12. Što sve postoji u današnjim bazama podataka? Traženje znanja u podacima • Povijest  svih odnosa sa kupcima i dobavljačima • Narudžbe • Ulaz i izlaz robe na skladišta • Ponude • Podaci o plaćanju • Svaka poslovna transakcija je registrirana u bazi podataka • Tragovi komunikacije sa korisnicima ( call centri) • Potpun skup podataka o svim poslovnim događajima

  13. Data Mining Traženje znanja u podacima • Što je data mining ? • Primjena statističkih i programskih metoda za analizu velike količine podataka. Postojeći povijesni podaci se “provlače” kroz različite statističke modele. • Rezultati • Nalaženje veza među podacima • Prepoznavanje do sada neprimijećenih veza • Prepoznavanje trendova i ponašanja • Predviđanje budućnosti na temelju uočenih trendova

  14. OLAP <--> Data Mining Traženje znanja u podacima • OLAP • Analitičar određuje put analize • dimenzije • koje se dimenzije želi uspoređivati • glavni cilj - izrada izvještaja • DATA MINING • automatizirani postupci za određivanje veza među podacima • nakon analize "naslućuju" se dimenzije • Rezultat Data Mining-a - ulaz u OLAP

  15. Arhitektura Data Mining-a Traženje znanja u podacima Izvor: http://www.thearling.com

  16. Tehnike Data Mining-a Traženje znanja u podacima • Neuronske mreže - "učenje na primjerima“ • Stabla odluke - grane predstavljaju skupove odluka. • Genetički algoritmi - simuliraju evolucijske procese (genetsko kombiniranje, mutiranje, prirodni odabir). • Metoda najbližeg susjeda - kako su klasificirani najsličiniji podaci? • Indukcija prema pravilima - definiranje if - then sekvenci, i klasificiranje podataka prema njima. (ništa, malo, srednje, puno narudžbi)

  17. Postupak Data Mining-a • Pred-obrada - pripremanje skupa podataka • Obrada podataka • Interpretiranje rezultata • Testiranje uzorka Izvor: http://www.thearling.com

  18. Pred - obrada podataka • Razlozi: • U transakcijskom sustavu je previše podataka da bi ih se sve obradilo • Svi podaci nisu na istom nivou granularnosti • Sve relacijske veze među podacima možda nisu uspostavljene Izvor: http://www.thearling.com

  19. Pred - obrada podataka • Postupak: • Eliminiranje ekstremnih vrijednosti – greški • Nedostajuće vrijednosti (popunjavanje ili ignoriranje) • Kategoriziranje (visok, nizak) ovisno o kriterijima • Odabir reprezentativnog uzorka • Mora dobro predstavljati cijeli skup podataka • Problem – odabrati podatke da se ne izgube trendovi koje tražimo • Nakon pred-obrade - jedna tablica sa podacima Izvor: http://www.thearling.com

  20. Obrada podataka • Metode obrade podataka • Klasifikacija • Ubacivanje podataka u već određene grupe.  • Neuronske mreže • Stabla odluke • Metoda najbližeg susjeda • Indukcija prema pravilima Izvor: http://www.thearling.com

  21. Metode obrade podataka • Grupiranje ( klasterizacija ) • Stavljanje podataka koji su po nečemu slični u odvojene grupe • Algoritamsko određivanje grupa podataka • Zahtijeva korekciju korisnika sa iskustvom, ovako dobivene grupe često nemaju smisla Izvor: http://www.thearling.com

  22. Metode obrade podataka Regresijska analiza Traženje funkcije koja najbolje predstavlja međuovisnost nekih varijabli Izvor: http://download-west.oracle.com

  23. Metode obrade podataka • Klasteriranje • Pronalaženje grupa sličnih podataka (kupaca, korisnika, proizvoda...) • Pomoću statističkih metoda određuju se: • Način određivanja udaljenosti (npr, 2d ili 3d prostor) • Metoda grupiranja • hijerarhijske • k-means klasteriranje http://upload.wikimedia.org/wikipedia/commons/thumb/c/c8/Cluster-2.svg/220px-Cluster-2.svg.png

  24. Metode obrade podataka • Hijerarhijsko klasteriranje • - definira se način određivanja udaljenosti • - definira se kriterij za grupiranje • - određuju se grupe dob broj polaganja http://upload.wikimedia.org/wikipedia/commons/thumb/c/c8/Cluster-2.svg/220px-Cluster-2.svg.png http://upload.wikimedia.org/wikipedia/commons/thumb/b/b5/Clusters.svg/250px-Clusters.svg.png

  25. Metode obrade podataka • Hijerarhijsko klasteriranje • Formiranje matrice udaljenosti A [n,n] n – broj elemenata koji se klasteriraju • Iterativno • spajanje redova i stupaca, formiranje grupa • Računanje udaljenosti među dobivenim grupama – novim elementima dob broj polaganja

  26. Metode obrade podataka • Hijerarhijsko klasteriranje – priprema podataka • Klasteriranje - izračun udaljenosti među podacima • - Numerički podaci • - Normirati podatke (dob 10-60, zarada 1000-10.000) • - Opisne varijable u numeričke • veliko, malo • Hrvatska, BiH

  27. Metode obrade podataka • Particionalno grupiranje - k-means • Unaprijed određen broj grupa (ručno ili nekom drugom metodom DM-a) • Unaprijed postavljene koordinate centroida • Računanje udaljenosti svake toke od centroida, grupiranje prema najbližima • Pogodna za računalnu primjenu, jednostavno mijenjanje koordinata i broja centroida u i iterativno traženje najboljeg rezultata

  28. Metode obrade podataka Neuronske mreže • Analogija sa neuronima u živim bićima. • Međusobno povezana mjesta za jednostavnu obradu podataka • Neuroni međusobno spojeni pomoću sinapsi • Programska simulacija • Čvorovi na kojima se obrađuju impulsi pomoću programskog koda. • Čvorovi su organizirani u slojeve • Ulazni • jedan ili više skrivenih • Izlazni

  29. Metode obrade podataka Neuronske mreže • Biološki neuron • Ulaz impulsa kroz dendrite • Impulsi se proslijeđuju narednim neuronima kroz sinapse • “Učenje” – olakšan prolaz jačih i češćih impulsa

  30. Neuronske mreže Metode obrade podataka • Softverski “neuron” • Ulazne vrijednosti se množe sa težinskim faktorima i zbrajaju • Aktivacijska funkcija – ovisnost izlazne vrijednosti o ulaznima. • “Učenje” – mijenjanje težinskih faktora

  31. Neuronske mreže - učenje Metode obrade podataka • Nadzirano (supervised learning) • Učenje na testnim podacima • Učitelj korigira rezultate ( povratna veza) • Nakon nekoliko testnih podataka neuronska mreža bi trebala sama izvoditi točne zaključke • Nenadzirano (unsupervised learning) • Samoorganizirajuće mape • Pojačavajuće (Reinforcement Learning) • Interakcija sa okolinom (nagrada i kazna)

  32. Metode obrade podatakaFuzzy ekspertni sustavi Koriste spremljeno znanje eksperata Znanje je spremljeno u obliku indukcijskih pravila: AKO promet_zadnjih_6_mjeseci  = mali I troškovi_promocije_zadnjih_6_mjeseci = veliki TADA kategorija_klijenta = neprofitabilan. Izvor: http://www.thearling.com

  33. Metode obrade podatakaFuzzy ekspertni sustavi Fuzzy ekspertni sustavi Problemi koje rješavaju: scoriranje - bodovanje određenih grupa prema kriterijima iz baze znanja Praćenje trendova kroz vrijeme - koliko kupaca mjesečno prelazi iz kategorije "profitabilni" u kategoriju "neprofitabilni" Ulazni podaci: složeni na način da su formirane varijable promet_zadnjih_6_mjeseci, i troškovi_promocije_zadnjih_6_mjeseci  Obrada: kategorizacija kupaca prema dimenziji Profitabilnost Izlaz: Kategorije kupaca Izvor: http://www.thearling.com

  34. Metode obrade podatakaBayesove mreže Problemi koje rješavaju: Određivanje vjerojatnosti nekog događaja uz uvjet da se je dogodio neki drugi događaj, ili više njih. Ulazni podaci: Podaci u kategorijama ili diskretne vrijednosti - bitno je kvalitetno odrediti kategorije, ovisno o traženom rezultatu.  Tablice uvjetnih vjerojatnosti - unaprijed obrađeni podaci, o vjerojatnosti odvijanja pojedinog događaja uz uvjet nekog drugog događaja.  Podaci o sigurnim događajima (onima koji su se već dogodili) - evidence. Izvor: http://www.thearling.com

  35. Metode obrade podatakaBayesove mreže • Daju odgovor na pitanja: • Utiče li na iznos kupovinu tehničke robe činjenica što kupac dolazi u dućan samo u jutarnjim satima, i što plaća gotovinom? • Je li starija populacija sklonija kupovini mobitela na pretplatu od mlađe populacije? • Metodologija rada: • Definira se evidence, i traži vjerojatnost traženog događaja (kupovina mobitela na pretplatu). • evidence je starija populacija • evidence je mlađa populacije • Izlazni podaci: • Popis vjerojatnosti da se svaki od traženih događaja dogodi. Izvor: http://www.thearling.com

  36. Metode obrade podatakaSurvival modeli Problemi koje rješavaju: Dijagnostika i analiza prekida poslovnih odnosa (kupovine, korisničkog ugovora, pretplate). Temelje se na medicinskim ispitivanjima, procjeni uspješnosti različitih terapija kroz vrijeme.  Ulazni podaci: Kategorizirani podaci o kupcima, te da li su prekinuli odnos ( oznaka 1), ili nisu (oznaka 0), vrijeme korištenja usluge, ostale karakteristike (prediktivne varijable). Izvor: http://www.thearling.com

  37. Metode obrade podatakaSurvival modeli • Izlazni  podaci: • -statistička povezanost (npr. koeficijent korelacije) izmežu različitih varijabli, mogućih uzroka prekida odnosa. • npr. najveću vjerojatnost odlaska imaju mladi kupci koji su tri puta reklamirali proizvod unutar jamstvenog roka. • varijable među kojima se traži povezanost: • broj reklamacija • dob • duljina ugovornog odnosa / statusa kupca Izvor: http://www.thearling.com

  38. Metode obrade podatakaAsocijativni modeli • Odgovaraju na pitanja: • Koliko se neki događaji pojavljuju zajedno, te koliko se pojavljuju u ukupnom promatranom skupu događaja. • Primjer: - rezultat analize • 30% kupnji gdje je kupljeno pivo, kupljen je i čips. • 10% svih kupnji sadrži pivo i čips. • Pravilo:  gdje je kupljeno pivo, kupljen je i čips • Mjera pouzdanosti pravila: 30% • Mjera podrške pravila: 10% Izvor: http://www.thearling.com

  39. Metode obrade podatakaAsocijativni modeli Ulazni podaci: Potrebno je definirati smislena pravila (koja daju bitne informacije) - ušteda vremena obrade. Vrijeme obrade jako ovisi o veličini ulaznog skupa podataka. Varijanta: Pravila mogu biti iskazana i u negacijskoj formi: AKO artikal_a TADA NE artikal_b  Izvor: http://www.thearling.com

  40. Interpretiranje rezultata • Izvesti zaključke iz dobivenih podataka • “Kupci mlađi od 25 godina iz Osijeka imaju najveću šansu promijeniti operatera” • Studenti koji se  nisu pojavljivali na predavanjima u zadnjim mjesecima ljetnog semestra imaju najveću šansu pasti kolegij. • Testiranje uzorka • Napraviti regresijsku analizu između varijabli “dob” i "mjesto boravka” na svim podacima, i vidjeti da li se ponaša na isti način • Testirati pretpostavke • Polovini mladih kupaca iz Osijeka dati bonus, i vidjeti da li ih manje odlazi Izvor: http://www.thearling.com

  41. Testiranje uzorka • Napraviti regresijsku analizu između varijabli “dob” i "mjesto boravka” na svim podacima, i vidjeti da li se ponaša na isti način • Testirati pretpostavke • Polovini mladih kupaca iz Osijeka dati bonus, i vidjeti da li ih manje odlazi Izvor: http://www.thearling.com

  42. ANALIZA I OBRADA PODATAKA Rudarenje podataka Dubinska analiza podataka Data Mining SSCSS Split - AOP – Igor Nazor

  43. Osnovni pojmoviVjerojatnost Vjerojatnost jednog događaja:  P =Broj ostvarenih događaja / broj ponavljanja eksperimenta Vjerojatnost kombinacije dvaju događaja: Pkombinacije = Pprvog događaja * Pdrugog događaja Vjerojatnost ostvarivanja drugog dugađaja nakon što se je već ostvario prvi događaj:  Pdrugog događaja Izvor: http://www.thearling.com

  44. Osnovni pojmoviVjerojatnost Vježba: Kolika ja vjerojatnost da ćemo iz tri bacanja kocke dobiti svaki put broj 3? Kolika je vjerojatnost da ćemo iz tri bacanja kocke dobiti brojeve 1, 2 i 3 ?    Ako lutrija ima 1 000 000 kombinacija, kolika je vjerojatnost da će biti izvučen broj 150, ako je isti broj bio izvučen i prethodni tjedan? Izvor: http://www.thearling.com

  45. Osnovni pojmoviVarijable u statističkoj analizi • Nezavisne - prediktori - vrijednosti kojima manipuliramo. • Kontrolirane - faktori čije bi mijenjanje uticalo na ishod ispitivanja, ali ih se ne mijenja. • Zavisne - parametar / svojstvo čiju vrijednost tražimo • Primjer:  • Ispitivanja uticaja količine gnojiva na rast biljke. • nezavisna varijabla je količina dodatka (promjenjivi dio eksperimenta) • Zavisne varijable su: masa, veličina biljke (svojstva na koja se utiče tijekom eksperimenta) • Kontrolirane varijable su: vrsta gnojiva, količina sunca...  Izvor: http://www.thearling.com

  46. Osnovni pojmoviVrijednosti varijabli u statističkoj analizi • Diskretne: sastoje se od konačnog broja diskretnih vrijednosti (dob, ocjena) • Kontinuirane varijable: neograničeni broj mogućih vrijednosti u nekom intervalu (vrijeme, temperatura) • Kategorizirane: stavljanje više vrijednosti (kontinuiranih ili diskretnih) u manji broj grupa ( kategorija): • dob: • < 18 • 18-35 • 35-55 • > 55 Izvor: http://www.thearling.com

  47. Osnovni pojmoviEntropija  • Entropija - sadržaj informacija - mjera koliko informacija sadrži neki podatak ili niz podataka. (jedinica mjere - bit) • rezultati 5 bacanja novčića sadrži 5 bita informacije • niz od 5 istih znakova sadrži manje informacije • Primjena - koliko se podaci mogu komprimirati da se ne izgube informacije - najviše do veličine njihove entropije. Izvor: http://www.thearling.com

  48. Alati za Data mining • Specijalizirani • SPSS • SAS Enterprise Miner • Hugin • Neurotran • U sklopu poslovnog paketa / baze podataka • SAP NetWeaver • Oracle Data Mining • Microsoft SQL Server Analisys Services • Open source • Rapid-I RapidMiner • Orange, Weka, GeNIE Izvor: http://www.thearling.com

  49. Data Mining - aplikacije Traženje znanja u podacima • SPSS (Statistical Package for Social Sciences) • Najpoznatiji alat za statističku obradu podataka • Osnovnu varijantu je moguće proširivati dodatnim modulima • regresijski modeli • klasifikacijska stabla • vremenska analiza • analiza malih uzoraka • SPSS Modeler (Clementine)  • text mining Izvor: http://www.thearling.com

More Related