180 likes | 269 Views
NLP in pratica. Cristina Bosco Informatica applicata alla comunicazione multimediale 2013-2014. SYSTRAN. La compagnia SYSTRAN, fondata nel 1968, è una delle più antiche attive nel settore della MT.
E N D
NLPin pratica Cristina Bosco Informatica applicata alla comunicazione multimediale 2013-2014
SYSTRAN La compagnia SYSTRAN, fondata nel 1968, è unadellepiùanticheattivenelsettoredella MT. Il creatoredi SYSTRAN è Peter Toma, attivo fin daiprimianni ’50 etraipartecipantidell’esperimentodi Georgetown.
SYSTRAN Tomalascianel 1962 l’università per trasferirsi in Germania dove lavoraaiprimiprototipidi MT russo-ingleseerusso-tedesco. Tornatonegli USA, continua lo sviluppodi SYSTRAN chediventailsistemausatodall’esercitoedalla NASA. Neglianniseguentivienesviluppata la MT per inglese-francesechevienevendutaallaComunitàEuropea.
SYSTRAN SYSTRAN segue un approccioditraduzionedirettabasatosuregolefino al 2007, quandopassa ad un approccioibrido in cui regoleeapprendimentostatisticosiintegrano.
SYSTRAN SYSTRAN è alla base di alcuni noti sistemi di traduzione online, come SystraNET www.systranet.com/ ma anche Yahoo, Babelfish e Google (fino al 2007).
BING Bingè il sistema di MT dell’ambiente Microsoft http://www.bing.com/translator/help/#Home http://www.bing.com/translator/
BING Sistemi di traduzione su telefoni basati su Bing http://www.bing.com/translator/phone/
Google translate http://en.wikipedia.org/wiki/Google_Translate
Confronto di sistemi di MT http://en.wikipedia.org/wiki/Comparison_of_machine_translation_applications
Statistical MT http://www.statmt.org/
Corporafor MT http://ipsc.jrc.ec.europa.eu/index.php?id=198 http://catalog.elra.info/ https://www.ldc.upenn.edu/
Dizionari Google dictionary http://google-dictionary.so8848.com/ Anche basati su ontologie, WordNetdictionary http://wordnet-online.freedicts.com/
Ontologie WordNet: http://en.wikipedia.org/wiki/WordNet MultiWordNet: http://multiwordnet.fbk.eu/english/home.php http://multiwordnet.fbk.eu/online/multiwordnet.php http://wndomains.fbk.eu/wnaffect.html
Licenze per dati linguistici http://creativecommons.org/ Enti che rilasciano risorse: EuropeanLanguageResourceAssociationhttp://catalog.elra.info/ Linguistic Data Consortium (negli USA) https://www.ldc.upenn.edu/
Licenze per dati linguistici Per moltidati la licenzaè un problema … ad es. idatidei social media. Non sipossonopubblicarei Tweet di Twitter, ma solo un riferimento al loroidentidicativo.
Valutazione e Italiano Campagna di valutazione per il NLP della lingua italiana http://www.evalita.it/