140 likes | 265 Views
Tecnologia semantica made in Italy. NLP per i problemi di business del mondo reale. Pisa, 12/10/2013. Nico Lavarini. NLP e Tecnologia Semantica. Baseline Keyword-based / bag-of-words Primitivo, generale, veloce Avanzato Shallow linguistic / LSI / statistica avanzata
E N D
Tecnologia semantica made in Italy NLP per i problemi di business del mondo reale Pisa, 12/10/2013 Nico Lavarini
NLP e Tecnologia Semantica Baseline • Keyword-based / bag-of-words • Primitivo, generale, veloce Avanzato • Shallowlinguistic/ LSI / statistica avanzata • Approccio sintetico con analisi su grandi volumi • MachineLearningper apprendimento conoscenza
NLP e Tecnologia Semantica Perché la tecnologia semantica per NLP? • Analisi approfondita testi • Approccio analitico a fenomeni linguistici
Siri (Apple 2011) • Combinazione STT / NLP • Virtualassistant, capisce e gestisce • Elementi locali (telefono, rubrica, appuntamenti, messaggi) • Conoscenza generica esterna (ricerca, meteo) • Numerosi tipi di query: “meteo”, “invia sms a”, informazioni varie, ricerca • Risultato mainstream: cosa mai vista
Genio (Virgilio 1999) Genio rispondeva alle domande via web • flusso: analisi linguistica, identificazione elementi, ricerca template e restituzione risposta • Uso generico NLP su web in italiano 13 anni fa
Genio (Virgilio 1999) Esempi di query: “che tempo fa a Roma” “voglio info sul circuito di Hockenheim” • no mobile/locale ma web su tanti domini • comprensione NL qualunque Creazione base di conoscenza strutturata usata come repository per le richieste. • Aree coperte: sport, mappe, treni,voli, traffico, meteo, hotel, turismo, nozioni enciclopediche, celebrità, eventi, lavoro, tv, musica, ecc.
Chi può farlo Non basta (non serve) forza bruta e risorse • Il problema globale è troppo complesso e ampio Cosa serve? • Altra strategia • Capacità, Competenze • Scelta del compromesso valore aggiunto fattibilità Perché in Italia? • Intelligenza, visione di insieme, capacità di sintesi
MachineLearning MachineLearning oggi molto comune • Risorse + $ + hardware + tanti dati danno risultati • TTM veloce, buona qualità in poco tempo ma risultati difficilmente affinabili, molte tecniche sono black-box
L’approccio analitico • Controllo e sfruttamento fenomeni linguistici porta a comprensione • Più faticoso e richiede molte competenze specifiche • Compromesso fra analisi puntuale di tutto e fattibilità • Migliore nonostante la complessità • Permette precisione e qualità più alte (a piacere in certi casi)
NLP e qualità La perfezione non è raggiungibile • Anche gli umani interpretano male i testi (e i comandi a voce) • Mutual agreement fra esperti medio ~80% su analisi sintattica/semantica • Grande varietà fenomeni linguistici del mondo reale Long Tail • Coreferenze lunghe, negazioni (multiple), ironia/sarcasmo, conoscenza implicita (world knowledge), pragmatica, ecc.
NLP e qualità C'è ancora tanta strada da fare • Mantenere qualità analisi con scarsa qualità dei documenti (social web) • Approcci formali al linguaggio (Generative/Transformationalgrammars) non funzionano in assoluto • Gestione Long Tail dei fenomeni linguistici
Il futuro Sfida: • combinare gli approcci esistenti prendendo il meglio • analisi approfondita usando come base la conoscenza proveniente da sintesi di grandi volumi di testi • Tecnologie Big Data possono aiutare a gestire in maniera efficiente i volumi Fondamentale il passaggio da informazione a conoscenza • Strumenti black box danno informazione difficilmente usabile, serve significato
Il futuro Scenari futuri con qualità migliore: • Efficiente integrazione NLP nel ciclo TTS/STT per assistenti vocali • NLP open-domain efficiente (QA, sentimentanalysis) su informazioni non strutturate • Semantic network automatiche da dati web (conoscenza, non informazione) • Analisi social media (linguaggi non-standard, scarsa qualità, diverse lingue, conoscenza e cultura implicite)
Contacts Grazie Nico Lavarini ChiefScientist nlavarini@expertsystem.it +39 059 894069 Expert System www.expertsystem.net