1 / 49

Semantica și pragmatica limbajului natural Daniela G ÎFU

UNIVERSIT ATEA “AL EXANDRU I OAN CUZA” DIN IAŞI FACULT ATEA DE INFORMATIC Ă. Semantica și pragmatica limbajului natural Daniela G ÎFU http://students.info.uaic.ro/~daniela.gifu/. Cursul nr. 9. Data mining. Modele şi Cunoştinţe din Date. Ce este Data Mining?.

carina
Download Presentation

Semantica și pragmatica limbajului natural Daniela G ÎFU

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. UNIVERSITATEA “ALEXANDRU IOAN CUZA” DIN IAŞI FACULTATEA DE INFORMATICĂ Semanticași pragmatica limbajului natural Daniela GÎFU http://students.info.uaic.ro/~daniela.gifu/

  2. Cursul nr. 9 Data mining. ModeleşiCunoştinţe din Date

  3. Ce este Data Mining? “Procesul de analiză a unor cantităţi mari de date în scopul determinării de relaţii care apar între elementele prezente în bazele de date și a determinării de machete (potenţial utile) care pot caracteriza global bazele de date.” (din Advances in Knowledge Discovery and Data Mining, Fayyad, Piatetsky-Shapiro, Smyth, and Uthurusamy, (Chapter 1), AAAI/MIT Press 1996

  4. Analiza Datelor Inteligentă Artificială, Machine Learning Statistică Data Mining Baze de Date

  5. Definirea procesului de descoperire acunoştinţelor din baze de date maricuprinde mai multe etape: • definirea scopului urmărit; • interogarea surselor de date și definirea structurii datelor • supuse prelucrării; • pre-procesarea datelor (selectarea, curăţarea, transformarea • acestora); • 4. explorarea datelor pentru extragerea de tipare şi • de modele apropiate; • 5. evaluarea şi interpretarea tiparelor extrase pentru a decide • ce constituie ”cunoştinţă” (knowledge); • 6. consolidarea cunoştinţelor şi rezolvarea conflictelor • dintre cunoştinţele extrase anterior,oferirea cunoştinţelor • spre utilizare.

  6. Procesul de descoperire de cunoştinţe (etape)

  7. Data Mining: Tehnici • Clasificare • Corelatii • Grupare • Asociații

  8. Analiza Datelor (cont.) Y1 Numerice Numerice X1 f Modele corelaționale 3, 4.5, 102, CNP, varsta … Categorice X2 Y2 Categorice fierbinte, rece, , mare, … Modele de tip Clasificare Nominale X3 Y3 Nominale 0, 1, da, nu, … Variabile de Iesire sau Variabile Dependente sau Clase Variabile de Intrare sau Variabile Independente sau Atribute

  9. Data MiningClasificare Tehnica prin care se atașează un element necunoscut la un set de clase predefinite (cunoscute).

  10. Data MiningModele Corelaționale- principiu - • Model corelațional w0 + w1 x + w2 y >= 0 • Se calculează wi din date; să fie minimizată eroarea medie pătratică. • Dă posibilitatea de a obține informații legate de legătura dintre atributele ce caracterizează obiectele. • Nu este suficient de flexibilă. Analiza corelaţională permite obţinerea unor modele analitice (machete) ce definesc datele ce caracterizează setul de date.

  11. Data MiningModele Corelationale- exemplu - Considerăm un set de date de volum n. Fiecare element din setul de date poate fi caracterizat de un ansamblu de atribute. În setul de date relative la performanţele sistemelor de calcul aceste atribute sunt: memoria principală, memorie cache, etc. Predicţia performanţelor CPU avem 209 date în set (7 atribute) modelul (clasificatorul) care poate fi obţinut este de forma: PRP = -55.9 + 0.0489 MYCT + 0.0153 MMIN + 0.0056 MMAX + 0.6410 CACH - 0.2700 CHMIN + 1.480 CHMAX

  12. Data MiningArbori de decizie- principiu - Y if X > 5 then orange else if Y > 3 then orange else if X > 2 then kaki else orange 3 X 2 5

  13. Data MiningArbori de decizie - exemplu - windy outlook If overcast then Play (4/4) elseif sunny then Don’t Play (3/5) else if rain then Play (3/5) Precizie = 10/14 (71.4%) If true then Don’t Pay (3/6) else if false then Play (6/8) Precizie = 9/14 (64.3%)

  14. Data Mining Grupare- principiu - Gruparea (Cluster analysis) reprezintă o tehnică de împărţire a unui set de date pentru care nu există nici o clasă predefinităîntr-un set de clase - grupuri Venit Vârsta

  15. Data Mining Grupare- exemplu 1 - • Se dă: • Baza de date de clienţi care conţine un istoric al achiziţiilor făcute. • Scop: • Găsirea grupurilor de clienţi cu o comportare similară. • Găsirea clienţilor cu un mod de cumpărare neobişnuit.

  16. Data Mining Grupare - exemplu 2- In urma partiţionării setului de obiecte au rezultat un număr de 3 clustere. Utilizând obiectele din acest cluster se poate găsi o machetă (printr-o regulă de asociere) ce va defini profilul celor care pot cumpăra o asigurare de viaţă. Regula este următoarea: IF Sex = Female & 43 >= Age >= 35 & Credit Card Insurance = No THEN Class = 3 Rule Accuracy: 100.00% Rule Coverage: 66.67%

  17. Data Mining Asociatii - principiu - • Progresul în tehnologia codurilor de bare a făcut posibil ca firmele de comercializare a produselor să colecteze şi să stocheze cantităţi imense de date despre vânzări, referite ca şi basket data – basket market (date despre coşul de cumpărături) • Descoperirea regulilor de asociere are ca scop descoperirea unui set de atribute comune care aparţin unui număr mare de obiecte dintr-o bază dedate. • Având o bază de date de forma: 1. chips, coke, chocolate 2. gum, chips 3. chips, coke 4. … Probabilitatea (chips, coke) ?

  18. Data Mining Asociații - exemplu - Având o bază de date de tranzacţii ale clienţilor şi fiecare tranzacţie fiind o listă de obiecte (cumpărăturile unui client într-o vizită la magazin). Găseşte toate regulile care corelează prezenţa unui set de obiecte cu alt set de obiecte. If se cumpărăBooks then se cumpărăDVD with support 55.6% and confidence 83.3% Obs.

  19. Data Mining: Tehnici • Clasificare • Corelare • Linear Discriminant Analysis • Naïve Bayes / Bayesian Network • 1R • Neural Networks • Decision Tree (ID3, C4.5, …) • K-Nearest Neighbors • Support Vector Machines • … • Multiple Linear Regression • Principal Components Regression • Partial Least Square • Neural Networks • Regression Tree (CART, MARS, …) • K-Nearest Neighbors • Support Vector Machines • … • Grupare • Asociere • K-Mean Clustering • Self Organizing Map • Bayesian Clustering • … • A Priori • Markov Chain • Hidden Markov Models • …

  20. Etape de construire a unuimodel în Data Mining • Definirea problemei • Construirea bazei de date de tip data mining • Explorarea datelor • Pregătirea datelor pentru modelare • Construirea modelului • Evaluarea modelului • Utilizarea modelului

  21. Definirea domeniului Data Mining Explozia datelor Introducere în data mining Exemple de data mining în ştiinţă Provocări și oportunităţi

  22. Exemple de data mining în inginerie • 1. Data mining în inginerie Biomedicală • “Controlul unui braț robotic utilizând Tehnici Data Mining” • 2. Data mining în inginerie Chimică • “Data Mining pentru Monitorizarea imagini din procesul de extrudere mase plastice”

  23. Supination Pronation Flexion Extension 1. Definirea problemei “Controlul unui braț robotic prin intermediul semnalelor EMG culese de pe mușchii biceps și triceps.”

  24. 2. Construireabazei de date de tip data mining • Setul de date are un număr de 80 înregistrări. • Există două variabile de intrare: semnalul de la biceps și semnalul de la triceps. • Există o variabilă de ieşire cu patru posibile valori: supination, pronation, flexion si extension.

  25. Scatter Plot Triceps Record# FlexionExtensionSupinationPronation 3. Explorarea datelor

  26. Scatter Plot Biceps Record# FlexionExtensionSupinationPronation 3. Explorarea datelor(cont.)

  27. 4. Pregătirea datelor pentru modelare • Translatarea setului de date în format ARFF: @relation EMG @attribute Triceps real @attribute Biceps real @attribute Move {Flexion,Extension,Pronation,Supination} @data 13,31,Flexion 14,30,Flexion 10,31,Flexion 13,29,Flexion ……

  28. 5. Construirea modelului • Clasificare • 1R • Decision Tree • Naïve Bayesian • K-Nearest Neighbors • Neural Networks • Linear Discriminated Analysis • Support Vector Machines • …

  29. 1R • Construiește cea mai bună regula utilizând următorul algoritm în pseudo-cod: For fiecare atribut For fiecare valoare a acestui atribut, construiește o regulă astfel: contorizează de câte ori apare în fiecare clasă găseste cea mai frecventă clasă construiește o regulă prin care se asignează clasei atributul și valoarea găsită Calculează precizia (sau eroarea introdusă) regulei găsită Alege regula cu cea mai mică eroare (cea mai mare precizie) găsită Triceps: < 17.5 -> Flexion < 33.5 -> Pronation < 46.5 -> Supination >= 46.5 -> Extension (65/80 instances correct)

  30. Naïve Bayesian Prior Probability Likelihood Posterior Probability Normalization factor Rec#1: Triceps=13, Biceps=31 C = {Flexion, Extension, Supination and Pronation) P(C|Triceps=13, Biceps=31) = P(Triceps=13|C) x P(Biceps=31|C) x P(C) / P(X)

  31. Neuron i Neural Networks Output Node(s) Input Nodes Weights

  32. Decision Tree Găsește atributul care clasifică cel mai bine setul de antrenare. Utilizează acest atribut ca rădăcină a arborelui de decizie. Repetă procesul pentru fiecare subarbore. Triceps >37 <=37 Triceps Biceps <=14 >14 <=17 >17 Flexion Pronation Extension Supination

  33. Decision Tree (cont.) Q: Ce înseamnă a fi atributul care asigură cea mai bună clasificare? A: Se utilizează atributul cu cel mai mare câștig informațional Mărime subset date Entropia Mărime set date Procentul de exemple din S care aparțin clasei i

  34. K-Nearest Neighbors • KNN - tehnică prin care datele sunt clasificate în grupe (clustere) funcție bazată pe o măsură de similaritate. Distanța Euclideană este o funcție de similaritate:

  35. 6. Evaluarea modelului • Validarea modelului utilizând setul de testare Rezultate validare

  36. 7. Utilizarea modelului • S-a implementat modelul de tip reţea neuronală într-un braț robotic.

  37. Exemple de data mining în ştiinţă 1. Data mining în Astronomie 1. “Detectarea de noi obiecte astronomice” 2. “Clasificarea galaxiilor” 2. Data mining în Relatii Internaționale Sistem de căutare a relațiilor între evenimente ....

  38. Detectarea de noi obiecte astronomice • Scop: Definirea tipului de obiect astronomic (stea sau galaxie), prezent în imaginile achiziționate de la Observatorul astronomic Palomar - 3000 imagini cu 23,040 x 23,040 pixels / imagine. • Mod de abordare: - Segmentarea imaginii - Crearea unui număr de 40 caracteristici (atribute). - Construirea unui model de grupare. • Rezultat: Găsirea unui numar de 16 quasari!

  39. Clasificarea galaxiilor Clasa:Atribute: Caracteristici imagine, Etapa de formare Caracteristici lungime de undă primită etc.

  40. Clasificarea galaxiilor • Galaxii care se formează: • Prin fuziune • Prin splitare Utikizarea tehnicilor de Grupare și Clasificare pentru a le distinge de o galaxie normală

  41. Sistem de căutare a relațiilor intre evenimente • - Permite utilizatorului să găsească corelații între evenimente. In ce măsura un eveniment este cauza sau efect al unui alt eveniment. • - Atributele cuprind informații geografice, politice, configuraționale care se intind pe perioade determinate de timp.

  42. Data Mining Software

  43. Data Mining Software (cont.) Mining Multimedia Databases în MultiMediaMiner

  44. Data Mining Software (cont.) DBMiner Enterprise Este destinat obținerii de cunoștințe din date din lumea afacerilor

  45. Data Mining Software (cont.) Weka

  46. Data Mining Software (cont.) DataFit

  47. Data Mining Software (cont.) NeuroShell

  48. Data Mining Software (cont.) • mining software cu licență • SAS Enterprise Miner, SPSS Clementine, Statistica Data Miner, MS SQL Server, Polyanalyst, KnowledgeSTUDIO, … • listaadresehttp://www.kdnuggets.com/software/suites.html • mining software fărălicență • WEKA (Waikato Environment for Knowledge Analysis) • Free (GPLed) Java package with GUI • adresawww.cs.waikato.ac.nz/ml/weka • Witten and Frank, 2000. Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations.

  49. VĂ MULŢUMESC!

More Related