1 / 30

Metode de organizare a informaţiei pe WEB

Metode de organizare a informaţiei pe WEB. Referat de doctorat nr.1 as. univ. ing. Daniel MORARIU coordonator: prof. univ. dr. ing. Lucian VIN ŢAN. Sibiu, 2005. Cuprinsul prezentării. Mineritul datelor Mineritul bazelor de date Mineritul fişierelor text Mineritul pe Web

cianna
Download Presentation

Metode de organizare a informaţiei pe WEB

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Metode de organizare a informaţiei pe WEB Referat de doctorat nr.1 as. univ. ing. Daniel MORARIU coordonator: prof. univ. dr. ing. Lucian VINŢAN Sibiu, 2005

  2. Cuprinsul prezentării • Mineritul datelor • Mineritul bazelor de date • Mineritul fişierelor text • Mineritul pe Web • Sisteme de descoperire şi reprezentare a informaţiilor relevante de pe Web • Categorii Web (Web Directories) • Reprezentarea rezultatelor căutării • Monitorizarea unor pagini specificate • Monitorizarea comportamentului utilizatorului • Rafinarea căutării • Profilul utilizator

  3. Data mining ca o etapă (fază) în procesul de extragere de cunoştinţe

  4. Mineritul bazelor de date • Preprocesarea datelor • Ştergerea zgomotului din date • Înlocuirea valorilor lipsă • Filtrarea • Clusterarea • Integrarea şi transformarea datelor • Eliminarea redundanţelor în date • Generalizarea datelor • Normalizarea datelor • Selecţia şi reducerea datelor • Agregarea • Compresia • Discretizarea şi generarea conceptului ierarhic

  5. Mineritul bazelor de date – etape preliminare • Selecţia datelor relevante • Tipul de cunoştinţe care vor fi minerite • Cunoştinţele de fundal • Măsurarea gradului de interes • Încrederea (local) • Susţinerea (global) • Prezentarea şi vizualizarea regulilor găsite

  6. Mineritul bazelor de date - metode • Extragerearegulilor de asociere • Algoritmul Apriori • Algoritmul FP-tree • Clasificarea şi predicţia datelor • Construirea modelului • Arbori de decizie • Reţele neuronale • Testarea modelului • Utilizarea modelului • Clusterizarea datelor • Metode de partiţionare • Metode ierarhice

  7. Algoritmul Apriori

  8. Algoritmul FP-Tree

  9. Mineritul bazelor de date - metode • Extragerearegulilor de asociere • Algoritmul Apriori • Algoritmul FP-tree • Clasificarea şi predicţia datelor • Construirea modelului • Arbori de decizie • Reţele neuronale • Testarea modelului • Utilizarea modelului • Clusterizarea datelor • Metode de partiţionare • Metode ierarhice

  10. Evaluarea metodelor de data mining • Criterii • Acurateţea • Viteza de procesare • Robusteţea • Scalabilitatea • Interpretabilitatea

  11. Cuprinsul prezentării • Mineritul datelor • Mineritul bazelor de date • Mineritul fişierelor text • Mineritul pe Web • Sisteme de descoperire şi reprezentare a informaţiilor relevante de pe Web • Categorii Web (Web Directories) • Reprezentarea rezultatelor căutării • Monitorizarea unor pagini specificate • Monitorizarea comportamentului utilizatorului • Rafinarea căutării • Profilul utilizator

  12. Mineritul fişierelor text -etape preliminare • Mineritul bazelor de date – date structurate • Mineritul fişierelor text – date ne/semi-structurate • Măsuri folosite • Precizie regăsite – proporţia de documente relevante găsite din documentele găsite • Precizie relevante - proporţia de documente relevante găsite din total de documente relevante

  13. Mineritul fişierelor text - metode • Similarităţi bazate pe cuvinte cheie • Probleme: sinonime, polisemie • Crearea vectoruluiataşat documentului • Extragerea rădăcinii cuvântului • Eliminarea cuvintelor de legătură • Determinarea similarităţii • Asocieri bazate pe cuvinte cheie • Găsire de reguli de asociere • Asociere între termeni şi cuvinte cheie

  14. Cuprinsul prezentării • Mineritul datelor • Mineritul bazelor de date • Mineritul fişierelor text • Mineritul pe Web • Sisteme de descoperire şi reprezentare a informaţiilor relevante de pe Web • Categorii Web (Web Directories) • Reprezentarea rezultatelor căutării • Monitorizarea unor pagini specificate • Monitorizarea comportamentului utilizatorului • Rafinarea căutării • Profilul utilizator

  15. Mineritul pe Web • Mineritul conţinutului • Mineritul textului şi al tagurilor (metainformaţii) • Mineritul structurii • Mineritul link-urilor web • Paginile web autoritare şi hub-urile • Mineritul utilizării • Mineritul fişierelor log

  16. Mineritul structurii web – metrici utilizate • PageRank • HITS – Hyperlink induced topic search

  17. Cuprinsul prezentării • Mineritul datelor • Mineritul bazelor de date • Mineritul fişierelor text • Mineritul pe Web • Sisteme de descoperire şi reprezentare a informaţiilor relevante de pe Web • Categorii Web (Web Directories) • Reprezentarea rezultatelor căutării • Monitorizarea unor pagini specificate • Monitorizarea comportamentului utilizatorului • Rafinarea căutării • Profilul utilizator

  18. Sisteme de descoperire şi reprezentare a informaţiilor • Necesitate • Imensitatea informaţiilor de pe Web • Incapacitatea utilizatorului de a formula interogări corecte • Organizarea nesatisfăcătoare a rezultatelor • Accesibilitatea greoaie a interfeţelor

  19. Criterii de evaluare Aranjarea componentelor Numărul de elemente Gradul de expresivitate Funcţionalitate Gruparea rezultatelor Naturaleţe Cantitate Atracţie Comoditate Intuitivitate Sisteme de descoperire şi reprezentare a informaţiilor(2)

  20. Categorii Web (Web Directories) • Reprezentare ierarhică creată static • Organizare după domenii de interes (topicuri) • Uşor de înţeles pentru utilizator • Structură fixă • Actualizare • Manuală • Semi-automată

  21. Reprezentarea ierarhică a rezultatelor • Reprezentarea ierarhică creată dinamic • Algoritm monothetic – foloseşte o singură trăsătură • Algoritm polythetic – foloseşte trăsături multiple • Evaluarea ierarhiei (taxonomiei) • Acoperirea documentelor (acurateţea taxonomiei) • Integritatea şi disjunctivitatea claselor • Etichetarea sugestivă a nodurilor • Timpul mediu de localizare a informaţiei • Organizare de la general la specific

  22. Reprezentare graficăa rezultatelor • Tendinţă de trecere la reprezentarea 3D • Avantaje • Lărgirea dimensiunii de reprezentare • Naturaleţea utilizării • Intuitivitatea • Cerinţe • Mod natural, intuitiv de reprezentare • Posibilitatea de navigare • Posibilitatea de interacţiune cu conţinutul

  23. Monitorizarea unei pagini specificate • Agentul DICA – “Do-I-Care” • Periodic analizează pagina • Identifică modificările • Evaluează relevanţa modificărilor • Notifică utilizatorul • Utilizează feedback-ul • Permite schimb de informaţii între agenţi • Agentul “GrantLearner”

  24. Monitorizarea unei pagini specificate (2) • Agentul “Syskill & Webert” • Crearea profilului utilizator • Crearea interogării • Cuvinte care apar în documentele interesante • Cuvinte care diferenţiază documentele interesante de cele neinteresante • Analizarea paginilor • Efectuarea de recomandări

  25. Monitorizarea comportamentului utilizatorului • Creare profilului utilizator • Detectarea documentelor relevante • Analiza textului fişierului HTML • Numărare de hyperlinkuri utilizate • Activitatea utilizatorului pe acea pagină (scrolling şi mouse) • Găsirea de noi documente posibil relevante

  26. Rafinarea căutării • Îngustarea domeniului de căutare • Sinonime • Manual • Automat • Domenii posibile • Tipuri de pagini • Detecţia de noi cuvinte posibile • Ex: Agentul “WebMate” • Învăţarea incrementală a intereselor • Ajută utilizatorul în rafinarea căutării

  27. Profilul utilizatorului • Profil static – neactualizat la timp • Profil dinamic – reactualizat continuu în mod automat • Crearea profilului – ţine cont de: • Profilul iniţial • Acţiunile utilizatorului • Interpretarea semantică a interogării • Actualizarea profilului – în raport cu: • Interesul curent al utilizatorului • Decăderea interesului în timp

  28. Profilul utilizatorului (2) • Creare de grupuri de utilizatori pe baza documentelor utilizate • Metode • Filtru bazat pe context – clasifică documente noi (nevizitate) pe baza asemănării • Filtru colaborativ – clasifică pe baza specificaţiilor făcute de ceilalţi utilizatori • Învăţarea colaborativă de ansamblu – hibrid • CBF – crearea profilului utilizator • CF – gruparea preferinţele utilizatorilor

  29. Direcţii actuale de cercetare • Reorganizarea Web-ului • Web-ul semantic - trecerea de la orientarea pe documente la orientarea pe date relevante • Reorganizarea vizualizării Web-ului din punctul de vedere al utilizatorului • Găsirea informaţiilor relevante • Reprezentarea rezultatelor • Ghidarea utilizatorului în găsirea informaţiilor

  30. Intenţii de viitor • Extragerea trăsăturilor caracteristice folosind frecvenţa cuvintelor • Selecţia trăsăturilor caracteristice • Clasificare utilizând tehnici bazate pe vectori suport (SVM) • Clusterare utilizând tehnici bazate pe vectori suport (c-SVM)

More Related