490 likes | 635 Views
UNIVERSIT ATEA “AL EXANDRU I OAN CUZA” DIN IAŞI FACULT ATEA DE INFORMATIC Ă. Semantica și pragmatica limbajului natural Daniela G ÎFU http://students.info.uaic.ro/~daniela.gifu/. Cursul nr. 9. Data mining. Modele şi Cunoştinţe din Date. Ce este Data Mining?.
E N D
UNIVERSITATEA “ALEXANDRU IOAN CUZA” DIN IAŞI FACULTATEA DE INFORMATICĂ Semanticași pragmatica limbajului natural Daniela GÎFU http://students.info.uaic.ro/~daniela.gifu/
Cursul nr. 9 Data mining. ModeleşiCunoştinţe din Date
Ce este Data Mining? “Procesul de analiză a unor cantităţi mari de date în scopul determinării de relaţii care apar între elementele prezente în bazele de date și a determinării de machete (potenţial utile) care pot caracteriza global bazele de date.” (din Advances in Knowledge Discovery and Data Mining, Fayyad, Piatetsky-Shapiro, Smyth, and Uthurusamy, (Chapter 1), AAAI/MIT Press 1996
Analiza Datelor Inteligentă Artificială, Machine Learning Statistică Data Mining Baze de Date
Definirea procesului de descoperire acunoştinţelor din baze de date maricuprinde mai multe etape: • definirea scopului urmărit; • interogarea surselor de date și definirea structurii datelor • supuse prelucrării; • pre-procesarea datelor (selectarea, curăţarea, transformarea • acestora); • 4. explorarea datelor pentru extragerea de tipare şi • de modele apropiate; • 5. evaluarea şi interpretarea tiparelor extrase pentru a decide • ce constituie ”cunoştinţă” (knowledge); • 6. consolidarea cunoştinţelor şi rezolvarea conflictelor • dintre cunoştinţele extrase anterior,oferirea cunoştinţelor • spre utilizare.
Data Mining: Tehnici • Clasificare • Corelatii • Grupare • Asociații
Analiza Datelor (cont.) Y1 Numerice Numerice X1 f Modele corelaționale 3, 4.5, 102, CNP, varsta … Categorice X2 Y2 Categorice fierbinte, rece, , mare, … Modele de tip Clasificare Nominale X3 Y3 Nominale 0, 1, da, nu, … Variabile de Iesire sau Variabile Dependente sau Clase Variabile de Intrare sau Variabile Independente sau Atribute
Data MiningClasificare Tehnica prin care se atașează un element necunoscut la un set de clase predefinite (cunoscute).
Data MiningModele Corelaționale- principiu - • Model corelațional w0 + w1 x + w2 y >= 0 • Se calculează wi din date; să fie minimizată eroarea medie pătratică. • Dă posibilitatea de a obține informații legate de legătura dintre atributele ce caracterizează obiectele. • Nu este suficient de flexibilă. Analiza corelaţională permite obţinerea unor modele analitice (machete) ce definesc datele ce caracterizează setul de date.
Data MiningModele Corelationale- exemplu - Considerăm un set de date de volum n. Fiecare element din setul de date poate fi caracterizat de un ansamblu de atribute. În setul de date relative la performanţele sistemelor de calcul aceste atribute sunt: memoria principală, memorie cache, etc. Predicţia performanţelor CPU avem 209 date în set (7 atribute) modelul (clasificatorul) care poate fi obţinut este de forma: PRP = -55.9 + 0.0489 MYCT + 0.0153 MMIN + 0.0056 MMAX + 0.6410 CACH - 0.2700 CHMIN + 1.480 CHMAX
Data MiningArbori de decizie- principiu - Y if X > 5 then orange else if Y > 3 then orange else if X > 2 then kaki else orange 3 X 2 5
Data MiningArbori de decizie - exemplu - windy outlook If overcast then Play (4/4) elseif sunny then Don’t Play (3/5) else if rain then Play (3/5) Precizie = 10/14 (71.4%) If true then Don’t Pay (3/6) else if false then Play (6/8) Precizie = 9/14 (64.3%)
Data Mining Grupare- principiu - Gruparea (Cluster analysis) reprezintă o tehnică de împărţire a unui set de date pentru care nu există nici o clasă predefinităîntr-un set de clase - grupuri Venit Vârsta
Data Mining Grupare- exemplu 1 - • Se dă: • Baza de date de clienţi care conţine un istoric al achiziţiilor făcute. • Scop: • Găsirea grupurilor de clienţi cu o comportare similară. • Găsirea clienţilor cu un mod de cumpărare neobişnuit.
Data Mining Grupare - exemplu 2- In urma partiţionării setului de obiecte au rezultat un număr de 3 clustere. Utilizând obiectele din acest cluster se poate găsi o machetă (printr-o regulă de asociere) ce va defini profilul celor care pot cumpăra o asigurare de viaţă. Regula este următoarea: IF Sex = Female & 43 >= Age >= 35 & Credit Card Insurance = No THEN Class = 3 Rule Accuracy: 100.00% Rule Coverage: 66.67%
Data Mining Asociatii - principiu - • Progresul în tehnologia codurilor de bare a făcut posibil ca firmele de comercializare a produselor să colecteze şi să stocheze cantităţi imense de date despre vânzări, referite ca şi basket data – basket market (date despre coşul de cumpărături) • Descoperirea regulilor de asociere are ca scop descoperirea unui set de atribute comune care aparţin unui număr mare de obiecte dintr-o bază dedate. • Având o bază de date de forma: 1. chips, coke, chocolate 2. gum, chips 3. chips, coke 4. … Probabilitatea (chips, coke) ?
Data Mining Asociații - exemplu - Având o bază de date de tranzacţii ale clienţilor şi fiecare tranzacţie fiind o listă de obiecte (cumpărăturile unui client într-o vizită la magazin). Găseşte toate regulile care corelează prezenţa unui set de obiecte cu alt set de obiecte. If se cumpărăBooks then se cumpărăDVD with support 55.6% and confidence 83.3% Obs.
Data Mining: Tehnici • Clasificare • Corelare • Linear Discriminant Analysis • Naïve Bayes / Bayesian Network • 1R • Neural Networks • Decision Tree (ID3, C4.5, …) • K-Nearest Neighbors • Support Vector Machines • … • Multiple Linear Regression • Principal Components Regression • Partial Least Square • Neural Networks • Regression Tree (CART, MARS, …) • K-Nearest Neighbors • Support Vector Machines • … • Grupare • Asociere • K-Mean Clustering • Self Organizing Map • Bayesian Clustering • … • A Priori • Markov Chain • Hidden Markov Models • …
Etape de construire a unuimodel în Data Mining • Definirea problemei • Construirea bazei de date de tip data mining • Explorarea datelor • Pregătirea datelor pentru modelare • Construirea modelului • Evaluarea modelului • Utilizarea modelului
Definirea domeniului Data Mining Explozia datelor Introducere în data mining Exemple de data mining în ştiinţă Provocări și oportunităţi
Exemple de data mining în inginerie • 1. Data mining în inginerie Biomedicală • “Controlul unui braț robotic utilizând Tehnici Data Mining” • 2. Data mining în inginerie Chimică • “Data Mining pentru Monitorizarea imagini din procesul de extrudere mase plastice”
Supination Pronation Flexion Extension 1. Definirea problemei “Controlul unui braț robotic prin intermediul semnalelor EMG culese de pe mușchii biceps și triceps.”
2. Construireabazei de date de tip data mining • Setul de date are un număr de 80 înregistrări. • Există două variabile de intrare: semnalul de la biceps și semnalul de la triceps. • Există o variabilă de ieşire cu patru posibile valori: supination, pronation, flexion si extension.
Scatter Plot Triceps Record# FlexionExtensionSupinationPronation 3. Explorarea datelor
Scatter Plot Biceps Record# FlexionExtensionSupinationPronation 3. Explorarea datelor(cont.)
4. Pregătirea datelor pentru modelare • Translatarea setului de date în format ARFF: @relation EMG @attribute Triceps real @attribute Biceps real @attribute Move {Flexion,Extension,Pronation,Supination} @data 13,31,Flexion 14,30,Flexion 10,31,Flexion 13,29,Flexion ……
5. Construirea modelului • Clasificare • 1R • Decision Tree • Naïve Bayesian • K-Nearest Neighbors • Neural Networks • Linear Discriminated Analysis • Support Vector Machines • …
1R • Construiește cea mai bună regula utilizând următorul algoritm în pseudo-cod: For fiecare atribut For fiecare valoare a acestui atribut, construiește o regulă astfel: contorizează de câte ori apare în fiecare clasă găseste cea mai frecventă clasă construiește o regulă prin care se asignează clasei atributul și valoarea găsită Calculează precizia (sau eroarea introdusă) regulei găsită Alege regula cu cea mai mică eroare (cea mai mare precizie) găsită Triceps: < 17.5 -> Flexion < 33.5 -> Pronation < 46.5 -> Supination >= 46.5 -> Extension (65/80 instances correct)
Naïve Bayesian Prior Probability Likelihood Posterior Probability Normalization factor Rec#1: Triceps=13, Biceps=31 C = {Flexion, Extension, Supination and Pronation) P(C|Triceps=13, Biceps=31) = P(Triceps=13|C) x P(Biceps=31|C) x P(C) / P(X)
Neuron i Neural Networks Output Node(s) Input Nodes Weights
Decision Tree Găsește atributul care clasifică cel mai bine setul de antrenare. Utilizează acest atribut ca rădăcină a arborelui de decizie. Repetă procesul pentru fiecare subarbore. Triceps >37 <=37 Triceps Biceps <=14 >14 <=17 >17 Flexion Pronation Extension Supination
Decision Tree (cont.) Q: Ce înseamnă a fi atributul care asigură cea mai bună clasificare? A: Se utilizează atributul cu cel mai mare câștig informațional Mărime subset date Entropia Mărime set date Procentul de exemple din S care aparțin clasei i
K-Nearest Neighbors • KNN - tehnică prin care datele sunt clasificate în grupe (clustere) funcție bazată pe o măsură de similaritate. Distanța Euclideană este o funcție de similaritate:
6. Evaluarea modelului • Validarea modelului utilizând setul de testare Rezultate validare
7. Utilizarea modelului • S-a implementat modelul de tip reţea neuronală într-un braț robotic.
Exemple de data mining în ştiinţă 1. Data mining în Astronomie 1. “Detectarea de noi obiecte astronomice” 2. “Clasificarea galaxiilor” 2. Data mining în Relatii Internaționale Sistem de căutare a relațiilor între evenimente ....
Detectarea de noi obiecte astronomice • Scop: Definirea tipului de obiect astronomic (stea sau galaxie), prezent în imaginile achiziționate de la Observatorul astronomic Palomar - 3000 imagini cu 23,040 x 23,040 pixels / imagine. • Mod de abordare: - Segmentarea imaginii - Crearea unui număr de 40 caracteristici (atribute). - Construirea unui model de grupare. • Rezultat: Găsirea unui numar de 16 quasari!
Clasificarea galaxiilor Clasa:Atribute: Caracteristici imagine, Etapa de formare Caracteristici lungime de undă primită etc.
Clasificarea galaxiilor • Galaxii care se formează: • Prin fuziune • Prin splitare Utikizarea tehnicilor de Grupare și Clasificare pentru a le distinge de o galaxie normală
Sistem de căutare a relațiilor intre evenimente • - Permite utilizatorului să găsească corelații între evenimente. In ce măsura un eveniment este cauza sau efect al unui alt eveniment. • - Atributele cuprind informații geografice, politice, configuraționale care se intind pe perioade determinate de timp.
Data Mining Software (cont.) Mining Multimedia Databases în MultiMediaMiner
Data Mining Software (cont.) DBMiner Enterprise Este destinat obținerii de cunoștințe din date din lumea afacerilor
Data Mining Software (cont.) DataFit
Data Mining Software (cont.) NeuroShell
Data Mining Software (cont.) • mining software cu licență • SAS Enterprise Miner, SPSS Clementine, Statistica Data Miner, MS SQL Server, Polyanalyst, KnowledgeSTUDIO, … • listaadresehttp://www.kdnuggets.com/software/suites.html • mining software fărălicență • WEKA (Waikato Environment for Knowledge Analysis) • Free (GPLed) Java package with GUI • adresawww.cs.waikato.ac.nz/ml/weka • Witten and Frank, 2000. Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations.