270 likes | 423 Views
Text Mining. STALKER/OML. Analisi dati. Analisi risultati. Intro. Information Overload. Migliaia di documenti vengono prodotti ogni giorno : 80% testuali 20% numerici. neri@synthema.it. Text Mining. STALKER/OML. Analisi dati. Analisi risultati. Intro. Information Overload.
E N D
Text Mining STALKER/OML Analisi dati Analisi risultati Intro InformationOverload Migliaia di documenti vengono prodotti ogni giorno: 80% testuali 20% numerici neri@synthema.it
Text Mining STALKER/OML Analisi dati Analisi risultati Intro Information Overload Internet/Intranet, DB, ... HTML, XML, PDF, Word, TXT, … Inglese, Francese, Tedesco, Italiano, Arabo, Cinese, Russo… neri@synthema.it
Text Mining STALKER/OML Analisi dati Analisi risultati Intro Information Overload Brevetti, Pubblicazioni scientifiche E-mail WEB Telefonate Stampa Percezione e Conoscenza della realtà che ci circonda neri@synthema.it
Intro STALKER/OML Analisi dati Analisi risultati Text Mining Che cosa è il Text Mining Insieme di tecniche linguistico-matematiche per Analizzare fonti testuali Strutturare e classificare automaticamente il contenuto Trovare l’informazione nascosta Supporto nel Processo Decisionale neri@synthema.it
Intro STALKER/OML Analisi dati Analisi risultati Text Mining Che cosa non è il Text Mining • Non è analisi puntuale di un testo, ma analisi quantitativa e qualitativa di un insieme esteso di testi. • Non è una metodologia di archiviazione di testi in argomenti predefiniti, noti a priori. Non è routing dell’informazione. neri@synthema.it
Intro STALKER/OML Analisi dati Analisi risultati Text Mining Informazione come Supporto nel Processo Decisionale Text Mining per Ottenereunavisione di insieme degli argomenti Accedere all’informazione su base tematica Trovare l’informazione nascosta Trovare l’informazione d’interesse neri@synthema.it
Database Internet Intro Text Mining Analisi dati Analisi risultati STALKER/OML Come gestire migliaia di documenti? Banche dati neri@synthema.it
Back-end Modelli Dizionari Grammatiche SEARCHBOX+TWIDEXPERT (Analisi linguistica, statistica) STALKER/OML server Front-end Search engine Ufficio1 Internet Intranet Clustering engine Ufficio2 Ufficio3 Intro Text Mining Analisi dati Analisi risultati STALKER/OML Come gestire migliaia di documenti? Innovazione online Banche dati Banca dati neri@synthema.it
Modelli Dizionari Grammatiche Banche dati SearchBox Lexical plugin Crawler TWIDExpert TWID plugin TWIDExpert Stalker server Reverse indexes Search engine Banca dati Internet Clustering engine Intro Text Mining Analisi dati Analisi risultati STALKER/OML Architettura (STALKER) neri@synthema.it
Back-end Front-end STALKER/OML Intro Text Mining Analisi risultati Analisi dati Il processo produttivo • Scelta e preparazione dei dati • Analisi dei dati e storage • Ricerca e Analisi dei risultati Monitoraggio, consultazione e approfondimento neri@synthema.it
Intro Text Mining STALKER/OML Analisi risultati Analisi dati Scelta e Preparazione dati (BackEnd) • Scelta: • Preparazione: neri@synthema.it
Intro Text Mining STALKER/OML Analisi risultati Analisi dati Preparazione dei Dati (BackEnd)(brevetti, pubblicazioni, e-mail, …) Analisi Lessicale per Distinguere “ciò che è detto” da “come viene detto” trovare convergenze nel significato cogliere l’informazione da classificare neri@synthema.it
Intro Text Mining STALKER/OML Analisi risultati Analisi dati Preparazione dei Dati (BackEnd)(Analisi lessicale) Analisi Morfo-sintattica e/o Terminologica Identicazione automatica dei descrittori per ciascun documento rimuovere Ambiguità Analisi Logica Analisi Semantica trovare Sinonimi espandere Acronimi raggruppare Varianti Grafiche estrarre EspressioniComposte neri@synthema.it
Intro Text Mining STALKER/OML Analisi risultati Analisi dati Preparazione dei Dati (BackEnd)(Analisi lessicale - Morfo-sintattica) DETTI DETTO: nome, masc. plur. DETTARE: verbo, ind. pres. 2a pers. sing. DARE: verbo, ind. pass. rem. 1a pers. sing. DIRE: verbo, part. pass. masc. plur. TRATTO, TRATTARE TRATTO Analisi Grammaticale riduce le ambiguità Lemma invio, inviati, invia inviare [verb] capi stazione capo stazione [noun] neri@synthema.it
Intro Text Mining STALKER/OML Analisi risultati Analisi dati Preparazione dei Dati (BackEnd)(Analisi lessicale - Morfo-sintattica) neri@synthema.it
Intro Text Mining STALKER/OML Analisi risultati Analisi dati Preparazione dei Dati (BackEnd)(Analisi lessicale - Semantica) trovare Sinonimi ( $, dollaro, biglietto verde, … ) ( ANP Autorità Nazionale Palestinese ) espandere Acronimi raggruppare Varianti Grafiche ( visto, veduto ) estrarre EspressioniComposte ( carta di credito, Ministro degli Esteri ) trovare convergenza nel significato neri@synthema.it
Mono-lingual Dictionaries, Grammars Lemmatizer/ Teminology detector Multilingual Teminology matcher Multi-lingual Dictionaries Indexer Documents DB Intro Text Mining STALKER/OML Analisi risultati Analisi dati Preparazione dei Dati (BackEnd) Identificazione della lingua Parsing, lemmatizzazione Estrazione terminologica Allineamento multilingua Indicizzazione terminologica Ricerca e clustering non solo lemmi, ma soprattutto terminologie neri@synthema.it
Intro Text Mining STALKER/OML Analisi risultati Analisi dati Preparazione dei Dati (BackEnd)(Analisi lessicale - Morfo-statistica) Analisi Morfologica + pattern matching (n+base(n)credit card, fuel cell, … ) ( base(n)+prep+n+prep+n arma di distruzione di massa, ... ) • Analisi Statistica • Soglia di Frequenza • Soglia di Significatività (n > 1, 1 = f(SW-MW,nTot,…) ) ( log((1/n) * (nTot/nDoc) * f(POS)*...) > 2) Trovare l’informazione rilevante neri@synthema.it
Intro Text Mining STALKER/OML Analisi risultati Analisi dati Preparazione dei Dati (BackEnd) guanto[NOUN] paraffina [NOUN] guanto di paraffina [NOUN] rilevare [VERB] traccia[NOUN] polvere[NOUN] polvere da sparo[NOUN] non solo lemmi, ma terminologie neri@synthema.it
Identificazione della lingua Mono-lingual Dictionaries, Grammars Lemmatizer/ Teminology detector Parsing, lemmatizzazione Estrazione terminologica Multilingual Teminology matcher Allineamento multilingua Multi-lingual Dictionaries Indicizzazione terminologica Indexer Documents DB Intro Text Mining STALKER/OML Analisi risultati Analisi dati Analisi Statistica Ricerca e clustering neri@synthema.it
Intro Text Mining STALKER/OML Analisi risultati Analisi dati Analisi Statistica neri@synthema.it
STALKER/OML Intro Text Mining Analisi risultati Analisi dati Ricerca e Classificazione Ricerca per chiavi ed accesso puntuale Raggruppamento in classi affini per contenuto Concatenazione fra classi correlate neri@synthema.it
Mappe Liste ordinate Intro Text Mining STALKER/OML Analisi dati Analisirisultati Analisi dei risultati neri@synthema.it
Intro Text Mining STALKER/OML Analisi dati Analisirisultati Scoperta di risultati inaspettati Consultare documenti per tema Trovare relazioni nascoste neri@synthema.it
Intro Text Mining STALKER/OML Analisi dati New I nuovi sviluppi: motore di ricerca in linguaggio naturale multilingua neri@synthema.it
Intro Text Mining STALKER/OML Analisi dati New I nuovi sviluppi: document analyser neri@synthema.it
Intro Text Mining STALKER/OML Analisi dati Info Indirizzi utili Trovare l’informazione neri@synthema.it http://www.synthema.it/textmining http:// www.spi-rit.net neri@synthema.it