1 / 14

Tecnologia semantica made in Italy

Tecnologia semantica made in Italy. NLP per i problemi di business del mondo reale. Pisa, 12/10/2013. Nico Lavarini. NLP e Tecnologia Semantica. Baseline Keyword-based / bag-of-words Primitivo, generale, veloce Avanzato Shallow linguistic / LSI / statistica avanzata

ivria
Download Presentation

Tecnologia semantica made in Italy

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Tecnologia semantica made in Italy NLP per i problemi di business del mondo reale Pisa, 12/10/2013 Nico Lavarini

  2. NLP e Tecnologia Semantica Baseline • Keyword-based / bag-of-words • Primitivo, generale, veloce Avanzato • Shallowlinguistic/ LSI / statistica avanzata • Approccio sintetico con analisi su grandi volumi • MachineLearningper apprendimento conoscenza

  3. NLP e Tecnologia Semantica Perché la tecnologia semantica per NLP? • Analisi approfondita testi • Approccio analitico a fenomeni linguistici

  4. Siri (Apple 2011) • Combinazione STT / NLP • Virtualassistant, capisce e gestisce • Elementi locali (telefono, rubrica, appuntamenti, messaggi) • Conoscenza generica esterna (ricerca, meteo) • Numerosi tipi di query: “meteo”, “invia sms a”, informazioni varie, ricerca • Risultato mainstream: cosa mai vista

  5. Genio (Virgilio 1999) Genio rispondeva alle domande via web • flusso: analisi linguistica, identificazione elementi, ricerca template e restituzione risposta • Uso generico NLP su web in italiano 13 anni fa

  6. Genio (Virgilio 1999) Esempi di query: “che tempo fa a Roma” “voglio info sul circuito di Hockenheim” • no mobile/locale ma web su tanti domini • comprensione NL qualunque Creazione base di conoscenza strutturata usata come repository per le richieste. • Aree coperte: sport, mappe, treni,voli, traffico, meteo, hotel, turismo, nozioni enciclopediche, celebrità, eventi, lavoro, tv, musica, ecc.

  7. Chi può farlo Non basta (non serve) forza bruta e risorse • Il problema globale è troppo complesso e ampio Cosa serve? • Altra strategia • Capacità, Competenze • Scelta del compromesso valore aggiunto  fattibilità Perché in Italia? • Intelligenza, visione di insieme, capacità di sintesi

  8. MachineLearning MachineLearning oggi molto comune • Risorse + $ + hardware + tanti dati  danno risultati • TTM veloce, buona qualità in poco tempo ma risultati difficilmente affinabili, molte tecniche sono black-box

  9. L’approccio analitico • Controllo e sfruttamento fenomeni linguistici porta a comprensione • Più faticoso e richiede molte competenze specifiche • Compromesso fra analisi puntuale di tutto e fattibilità • Migliore nonostante la complessità • Permette precisione e qualità più alte (a piacere in certi casi)

  10. NLP e qualità La perfezione non è raggiungibile • Anche gli umani interpretano male i testi (e i comandi a voce) • Mutual agreement fra esperti medio ~80% su analisi sintattica/semantica • Grande varietà fenomeni linguistici del mondo reale Long Tail • Coreferenze lunghe, negazioni (multiple), ironia/sarcasmo, conoscenza implicita (world knowledge), pragmatica, ecc.

  11. NLP e qualità C'è ancora tanta strada da fare • Mantenere qualità analisi con scarsa qualità dei documenti (social web) • Approcci formali al linguaggio (Generative/Transformationalgrammars) non funzionano in assoluto • Gestione Long Tail dei fenomeni linguistici

  12. Il futuro Sfida: • combinare gli approcci esistenti prendendo il meglio • analisi approfondita usando come base la conoscenza proveniente da sintesi di grandi volumi di testi • Tecnologie Big Data possono aiutare a gestire in maniera efficiente i volumi Fondamentale il passaggio da informazione a conoscenza • Strumenti black box danno informazione difficilmente usabile, serve significato

  13. Il futuro Scenari futuri con qualità migliore: • Efficiente integrazione NLP nel ciclo TTS/STT per assistenti vocali • NLP open-domain efficiente (QA, sentimentanalysis) su informazioni non strutturate • Semantic network automatiche da dati web (conoscenza, non informazione) • Analisi social media (linguaggi non-standard, scarsa qualità, diverse lingue, conoscenza e cultura implicite)

  14. Contacts Grazie Nico Lavarini ChiefScientist nlavarini@expertsystem.it +39 059 894069 Expert System www.expertsystem.net

More Related