300 likes | 494 Views
Metode de organizare a informaţiei pe WEB. Referat de doctorat nr.1 as. univ. ing. Daniel MORARIU coordonator: prof. univ. dr. ing. Lucian VIN ŢAN. Sibiu, 2005. Cuprinsul prezentării. Mineritul datelor Mineritul bazelor de date Mineritul fişierelor text Mineritul pe Web
E N D
Metode de organizare a informaţiei pe WEB Referat de doctorat nr.1 as. univ. ing. Daniel MORARIU coordonator: prof. univ. dr. ing. Lucian VINŢAN Sibiu, 2005
Cuprinsul prezentării • Mineritul datelor • Mineritul bazelor de date • Mineritul fişierelor text • Mineritul pe Web • Sisteme de descoperire şi reprezentare a informaţiilor relevante de pe Web • Categorii Web (Web Directories) • Reprezentarea rezultatelor căutării • Monitorizarea unor pagini specificate • Monitorizarea comportamentului utilizatorului • Rafinarea căutării • Profilul utilizator
Data mining ca o etapă (fază) în procesul de extragere de cunoştinţe
Mineritul bazelor de date • Preprocesarea datelor • Ştergerea zgomotului din date • Înlocuirea valorilor lipsă • Filtrarea • Clusterarea • Integrarea şi transformarea datelor • Eliminarea redundanţelor în date • Generalizarea datelor • Normalizarea datelor • Selecţia şi reducerea datelor • Agregarea • Compresia • Discretizarea şi generarea conceptului ierarhic
Mineritul bazelor de date – etape preliminare • Selecţia datelor relevante • Tipul de cunoştinţe care vor fi minerite • Cunoştinţele de fundal • Măsurarea gradului de interes • Încrederea (local) • Susţinerea (global) • Prezentarea şi vizualizarea regulilor găsite
Mineritul bazelor de date - metode • Extragerearegulilor de asociere • Algoritmul Apriori • Algoritmul FP-tree • Clasificarea şi predicţia datelor • Construirea modelului • Arbori de decizie • Reţele neuronale • Testarea modelului • Utilizarea modelului • Clusterizarea datelor • Metode de partiţionare • Metode ierarhice
Mineritul bazelor de date - metode • Extragerearegulilor de asociere • Algoritmul Apriori • Algoritmul FP-tree • Clasificarea şi predicţia datelor • Construirea modelului • Arbori de decizie • Reţele neuronale • Testarea modelului • Utilizarea modelului • Clusterizarea datelor • Metode de partiţionare • Metode ierarhice
Evaluarea metodelor de data mining • Criterii • Acurateţea • Viteza de procesare • Robusteţea • Scalabilitatea • Interpretabilitatea
Cuprinsul prezentării • Mineritul datelor • Mineritul bazelor de date • Mineritul fişierelor text • Mineritul pe Web • Sisteme de descoperire şi reprezentare a informaţiilor relevante de pe Web • Categorii Web (Web Directories) • Reprezentarea rezultatelor căutării • Monitorizarea unor pagini specificate • Monitorizarea comportamentului utilizatorului • Rafinarea căutării • Profilul utilizator
Mineritul fişierelor text -etape preliminare • Mineritul bazelor de date – date structurate • Mineritul fişierelor text – date ne/semi-structurate • Măsuri folosite • Precizie regăsite – proporţia de documente relevante găsite din documentele găsite • Precizie relevante - proporţia de documente relevante găsite din total de documente relevante
Mineritul fişierelor text - metode • Similarităţi bazate pe cuvinte cheie • Probleme: sinonime, polisemie • Crearea vectoruluiataşat documentului • Extragerea rădăcinii cuvântului • Eliminarea cuvintelor de legătură • Determinarea similarităţii • Asocieri bazate pe cuvinte cheie • Găsire de reguli de asociere • Asociere între termeni şi cuvinte cheie
Cuprinsul prezentării • Mineritul datelor • Mineritul bazelor de date • Mineritul fişierelor text • Mineritul pe Web • Sisteme de descoperire şi reprezentare a informaţiilor relevante de pe Web • Categorii Web (Web Directories) • Reprezentarea rezultatelor căutării • Monitorizarea unor pagini specificate • Monitorizarea comportamentului utilizatorului • Rafinarea căutării • Profilul utilizator
Mineritul pe Web • Mineritul conţinutului • Mineritul textului şi al tagurilor (metainformaţii) • Mineritul structurii • Mineritul link-urilor web • Paginile web autoritare şi hub-urile • Mineritul utilizării • Mineritul fişierelor log
Mineritul structurii web – metrici utilizate • PageRank • HITS – Hyperlink induced topic search
Cuprinsul prezentării • Mineritul datelor • Mineritul bazelor de date • Mineritul fişierelor text • Mineritul pe Web • Sisteme de descoperire şi reprezentare a informaţiilor relevante de pe Web • Categorii Web (Web Directories) • Reprezentarea rezultatelor căutării • Monitorizarea unor pagini specificate • Monitorizarea comportamentului utilizatorului • Rafinarea căutării • Profilul utilizator
Sisteme de descoperire şi reprezentare a informaţiilor • Necesitate • Imensitatea informaţiilor de pe Web • Incapacitatea utilizatorului de a formula interogări corecte • Organizarea nesatisfăcătoare a rezultatelor • Accesibilitatea greoaie a interfeţelor
Criterii de evaluare Aranjarea componentelor Numărul de elemente Gradul de expresivitate Funcţionalitate Gruparea rezultatelor Naturaleţe Cantitate Atracţie Comoditate Intuitivitate Sisteme de descoperire şi reprezentare a informaţiilor(2)
Categorii Web (Web Directories) • Reprezentare ierarhică creată static • Organizare după domenii de interes (topicuri) • Uşor de înţeles pentru utilizator • Structură fixă • Actualizare • Manuală • Semi-automată
Reprezentarea ierarhică a rezultatelor • Reprezentarea ierarhică creată dinamic • Algoritm monothetic – foloseşte o singură trăsătură • Algoritm polythetic – foloseşte trăsături multiple • Evaluarea ierarhiei (taxonomiei) • Acoperirea documentelor (acurateţea taxonomiei) • Integritatea şi disjunctivitatea claselor • Etichetarea sugestivă a nodurilor • Timpul mediu de localizare a informaţiei • Organizare de la general la specific
Reprezentare graficăa rezultatelor • Tendinţă de trecere la reprezentarea 3D • Avantaje • Lărgirea dimensiunii de reprezentare • Naturaleţea utilizării • Intuitivitatea • Cerinţe • Mod natural, intuitiv de reprezentare • Posibilitatea de navigare • Posibilitatea de interacţiune cu conţinutul
Monitorizarea unei pagini specificate • Agentul DICA – “Do-I-Care” • Periodic analizează pagina • Identifică modificările • Evaluează relevanţa modificărilor • Notifică utilizatorul • Utilizează feedback-ul • Permite schimb de informaţii între agenţi • Agentul “GrantLearner”
Monitorizarea unei pagini specificate (2) • Agentul “Syskill & Webert” • Crearea profilului utilizator • Crearea interogării • Cuvinte care apar în documentele interesante • Cuvinte care diferenţiază documentele interesante de cele neinteresante • Analizarea paginilor • Efectuarea de recomandări
Monitorizarea comportamentului utilizatorului • Creare profilului utilizator • Detectarea documentelor relevante • Analiza textului fişierului HTML • Numărare de hyperlinkuri utilizate • Activitatea utilizatorului pe acea pagină (scrolling şi mouse) • Găsirea de noi documente posibil relevante
Rafinarea căutării • Îngustarea domeniului de căutare • Sinonime • Manual • Automat • Domenii posibile • Tipuri de pagini • Detecţia de noi cuvinte posibile • Ex: Agentul “WebMate” • Învăţarea incrementală a intereselor • Ajută utilizatorul în rafinarea căutării
Profilul utilizatorului • Profil static – neactualizat la timp • Profil dinamic – reactualizat continuu în mod automat • Crearea profilului – ţine cont de: • Profilul iniţial • Acţiunile utilizatorului • Interpretarea semantică a interogării • Actualizarea profilului – în raport cu: • Interesul curent al utilizatorului • Decăderea interesului în timp
Profilul utilizatorului (2) • Creare de grupuri de utilizatori pe baza documentelor utilizate • Metode • Filtru bazat pe context – clasifică documente noi (nevizitate) pe baza asemănării • Filtru colaborativ – clasifică pe baza specificaţiilor făcute de ceilalţi utilizatori • Învăţarea colaborativă de ansamblu – hibrid • CBF – crearea profilului utilizator • CF – gruparea preferinţele utilizatorilor
Direcţii actuale de cercetare • Reorganizarea Web-ului • Web-ul semantic - trecerea de la orientarea pe documente la orientarea pe date relevante • Reorganizarea vizualizării Web-ului din punctul de vedere al utilizatorului • Găsirea informaţiilor relevante • Reprezentarea rezultatelor • Ghidarea utilizatorului în găsirea informaţiilor
Intenţii de viitor • Extragerea trăsăturilor caracteristice folosind frecvenţa cuvintelor • Selecţia trăsăturilor caracteristice • Clasificare utilizând tehnici bazate pe vectori suport (SVM) • Clusterare utilizând tehnici bazate pe vectori suport (c-SVM)