1 / 26

Semantica și pragmatica limbajului natural Daniela G ÎFU Andrei SCUTELNICU

“AL EXANDRU I OAN CUZA” UNIVERSITY OF IAŞI - ROMANIA FACULTY OF COMPUTER SCIENCE. Semantica și pragmatica limbajului natural Daniela G ÎFU Andrei SCUTELNICU. Cursul nr. 7. Sentiment analysis. Tools. IMPORTAN ȚA CERCETĂRII.

jui
Download Presentation

Semantica și pragmatica limbajului natural Daniela G ÎFU Andrei SCUTELNICU

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. “ALEXANDRU IOAN CUZA” UNIVERSITY OF IAŞI - ROMANIA FACULTY OF COMPUTER SCIENCE Semantica și pragmatica limbajului natural Daniela GÎFU Andrei SCUTELNICU

  2. Cursul nr. 7 Sentiment analysis. Tools

  3. IMPORTANȚA CERCETĂRII • - translatarea unui text în limbaj natural într-o descriere riguroasă și neambiguă. • analiza sentimentelor (AS), opinion mining, în social-media în vederea clarificării comportamentului descriptiv al consumatorului. • Social Media (SM) – include: Social Networks (v. Facebook), Bloguri, Wikis (v. Wikipedia), Podcasts (audio și video), Forumuri, Content Communities (v. Flickr), Microblogging (v. Twitter).

  4. Premisa Estimarea orientării emoționale prezente în documentul-text ajută în construirea unei baze de date cu informații referitoare la subiecte, servicii, produse etc. de mare interes public, care poate servi implementării unui instrument de procesare a limbajului natural, util prezicerii nevoilor potențialului consumator Grupul țintă: manageri de marketing, PR, cumpărătorii online, politiciani, investitori etc.; specialiști în NLP, lingviști, psihologi etc.

  5. SCOPUL - realizarea unui program capabil să depisteze și să expliciteze aprecieri calitative asupra unor entități (persoane, companii, produse, regiuni geografice etc.).

  6. STRUCTURA Introducere State of the art Tehnici de analiză a sentimentelor Modelarea percepției compoziționale Concluzii și direcții viitoare de cercetare

  7. STATE-OF-THE ART 2001 - Das, Chen și Tong – clasificarea gradului de pozitivitate al unui text la nivel de document/propoziție (opiniile exprimate despre piața de vânzare). Saclă de valori: -5 la +5. 2009-2013 - NLP-Group@UAIC-FII - clasificarea cuvintelor cu încărcătură emoțională în două clase: pozitive și negative. Scală de valori: -3 la +3. abordări cu clasa neutru (valoarea 0). AS sau analiza subiectivității (Dave et. al, 2003)sau extragerea de recenzii sau calcul al afecțiunii. (Ardeleanu, 2013). AS include tipuri de analiză și evaluare (Liu, 2006) clasificarea gradului de obiectivitate, două clase: subiectiv și obiectiv (Mihalcea et.al, 2007)

  8. TEHNICI DE ANALIZĂ A SENTIMENTELOR Analiza sentimentelor la nivel de document; Analiza sentimentelor la nivel de frază; Aspecte bazate pe analiza de sentiment; Analize de sentiment comparativă; Achiziţia lexiconului - sentiment.

  9. AS la nivel de document • cea mai simplă formă – pp. documentul conține 1 opinie cu privire la un singur obiect principal (enititate). • două abordări: • supervizată – pp. un set finit de clase. Cel mai simplu caz: pozitiv și negativ. Dacă vom cs. și clasa neutru, atunci vom avea o scală de valori (ex. SentiWordNet) – v. Esuli & Sebastiani, 2006. • nesupervizată – bazată pe determinarea orientării semantice din frazele/document. Dacă media OS >pragpredefinit, atunci document pozitiv. Dacă media OS <pragpredef., atunci document negativ. Selecția frazelor: • 1. un set de POS predefinite (Turney, 2002); • 2. un lexicon de cuvinte/expresii-sentiment (Taboada et.al., 2011)

  10. AS la nivel de frază • cea mai utilizată formă – trei presupuneri: • documentul poate conține mai multe opinii cu privire aceeași enititate • identitatea entității din text este cunocută • există o singură opinie în fiecare frază. Cum? – prin divizarea frazei în propoziții, fiecare propoziție conține 1 opinie. • Polaritatea la nivel de frază – determinarea subiectivității/obiectivității pentru fiecare propoziție. Analizăm doar pe cele subiective (Yu and Hatzivassiloglou, 2003). • O abordare bazată pe reduceri minimale (Pang and Lee, 2004) • Premisa: Propozițiile vecine ar trebui să aibă aceeași clasificare subiectivă. • Concret, clasificăm frazele în pozitive/negative. • Probleme la nivel semantic: interogaţiile, sarcasmul, metafora, umorul etc.

  11. AS – mai multe entități/opinii diferite • recunoașterea tuturor formelor de expresii/cuvinte sentiment într-un document dat referitoare la una sau mai multe entități (identificare explicită). • Obs. Există și opinii menționate implicit – deductibile din opiniile menționate explicit. • abordare clasică în PR: identificarea naturii emoționale a comentariilor cu privire la calitatea produselor, serviciilor, imaginea brandului etc. • în LN, extragerea tuturor structurilor substantivale (NPs) şi păstrarea acelora a căror frecvenţă este peste un prag învăţat experimental (Hu and Liu, 2004). • Becali este eroul poporului simplu, dar bani sunt negri, nemunciți. • etapă I (+1) (-1) = 0 (neutru?) • etapă II(+1) (-1) + (-1) = (-1) (negativă)

  12. AS comparative • utilizatorii nu oferă o opinie directă despre un produs, preferând în schimb păreri comparabile. • Dacia Logan arată mult mai bine decât Dacia Solenza. • obiective în TLN (Jindal and Liu, 2006): • 1. extragerea entităților comparate. • 2. identificarea propoziției care conține opinii comparative. • 3. extragerea entității preferate. • Metodă (clasificator de filtrare a frazelor care nu conțin opinii comparative): identificare adj.adv. comparative (mai mult, mai puţin, uşoare etc.), adj. şi adv. superlative (mai, cel puţin, cele mai bune), clauze adiţionale (favoare, mare, prefera, decât, superioară, inferior, numărul unu, împotriva), acoperă 98% din totalul opiniilor comparative. • Reține! Un algoritm simplu (identificarea entităţilor preferate şi prezenţa negaţiei (Ding, Liu and Zhang, 2009).

  13. AS pe bază de lexicon-sentiment • lexiconul – resursa cea mai importantă pt. tehnici AS. • trei abordări de achiziționare LS: • a. manuală – un set de cuvinte selectate din DEX, extins de la alte RL (sinonime, antonime) – WordNet (ex. algoritm propus de Kamps et.al, 2004) . • b. bazată pe corpus - un set de cuvinte/ sintagme extrase dintr-un corpus relativ restrâns, extins prin utilizarea unui corpus mare de documente dintr-un singur domeniu. • Dezavantaj: lexicon prea general (Dragut et al., 2010; Peng şi Park, 2011). • c. bazată pe un corpus dintr-un domeniu anume – un set de conectori lingvistici (şi, sau, nici, fie, sau) folosit pentru identif. adj., care sunt conectate la adj. cu polaritate cunoscută. • Avantaj: coerența sentimentelor, identificarea adj. cu polaritate complexă (seed-adjectives) - Hatzivassiloglou and McKeown, 1997)

  14. DESCRIEREA METODEI

  15. ETAPE construirea unei antologii de entități, categorii și valori; preprocesarea textului, (adnotarea, împărțirea unui text în entități în token-uri) – operație automată cu POS-tagging (Simionescu, 2011); extragerea grupurilor nominale de interes (text chunking), cu alte cuvinte împărțirea unui text în secvențe de cuvinte corelate sintactic; recuperarea legăturilor de natură anaforică. Ex: „Politicieniiîncep să vocifereze. Nimeni nu se amestecă să-i oprească.” <entitate> anaforă Obs. Pentru extragerea legăturii anaforice s-a utilizat RARE (Robust Anaphora Resolution Engine – Ignat, 2011.

  16. ETAPE extragerea entităților, automat cu modulul NER (Name Entity Recognition). Se primește la intrare (input) un fișier de tip .txt și la ieșire (output) obținem un fișier de tip .txt ce conține doar entitățile menționate în textul analizat. Ex.: „VodafoneRomânia oferă cea mai bună conectivitate pentru serviciile de date dintre toate rețelele mobile GSM/ UMTS/ CDMA din România”. Se preferă editorul NotePad++ pentru diversele funcționalități. recunoașterea categoriilor, valorilor și relaționarea cu entitățile - extragere automată cu entitățile cu ajutorul unui set de reguli. <entity type=„company”>Vodafone România</entity> <category>conectivitatepentruserviciile de date</category> <value =„1”>bună</value>

  17. EXPRESIE REGULATĂ - ONTOLOGIE o expresie regulată - un șir de caractere șablon care descrie mulțimea cuvintelor posibile, formate cu acele caractere, respectând se pot folosi paranteze (rotunde, pătrate, acolade) care stabilesc regulile de formare a cuvintelor. utilitatea cea mai frecventă a unei expresii regulate - recunoaște dacă un șir conține sau nu cuvinte sau sub-șir care pot fi formate prin expresia regulată respectivă. ontologia - un set de concepte dintr-un anumit domeniu, folosind un vocabular comun pentru a indica tipurile, proprietățile și relațiile dintre acele concepte. Ex.: șirul de caractere m[ăi]r poate fi interpretat în măr și mir.

  18. METODOLOGIE DE LUCRU se adnotează manual textul cu ajutorul aplicației Palinka (http://clg.wlv.ac.uk/trac/palinka/ un corpus de texte pentru a construi o ontologie de entități, categorii și valori; textul este preprocesat cu POS-tagger pentru limba română (Simionescu, 2011); se recunosc și se adnotează grupurile nominale de interes pentru aplicația cu ajutorul NP-chunker (Simionescu, 2011); se extrag automat numele proprii de entități, cu ajutorul instrumentului NER (Name Entity Recognition); se extrag legăturile de tip anaforic din text cu ajutorul; se recunosc în text entitățile, categoriile și valorile din ontologiile deja construite; se scrie un set de reguli pentru recunoașterea valorilor și se realizează legăturile de tip entitate-categorie-valoare;

  19. SESIUNE DE LUCRU se identificăcuvinteleșifrazele de opinie; fiecăruicuvântpozitivi se atribuie un scor de opinie de (+1), iarfiecaruicuvântnegativ, (-1);cuvinteledependente de context (0). Ex.: Imagineaaparatului de fotografiat nu estegrozavă, darbateriaținemult. (I) Imagineaaparatului de fotografiat nu estegrozavă- (+1), deoarececuvântulgrozavăeste un cuvântpozitiv (II) darbateriaținemult- (0), cuvântulmultfiindconsiderat dependent de context frazal. Remarcăm:ignorarea lui nu(negație), șidar(conector pragmatic). Revizuirea scorurilor – prin negație – prima propoziție – (-1) ,,...,, ,,...,, - conectori pragmatici – (+1). Prin însumare – (-1)+(+1)=0 – sentiment neutru.

  20. CONCLUZII ȘI DIRECȚII VIITOARE detectarea și explicitarea opiniilorreferitoare la anumite entități dntr-un text, indiferent de natura lui, bazată pe un dicționar de opinii rezultat din adnotarea manuală a unui corpus inițial (format din cuvinte și sintagme cu încărcătură emoțională. evidențierea rolului semantic al negațiilor și conectorilor pragmatici. operația de însumare a scorurilor fiind insuficient acoperitoare, mai ales când apare un variant de neutralizare a sentimentelor. lărgirea scalei de valori cu 2 niveluri, urmare a superlativului întâlnit.

  21. REFERINȚE BIBLIOGRAFICE • Ardeleanu, I.: Extragerea de opinii din texte, lucrare de licență coord. de prof.univ.dr. Dan Cristea, Universitatea “Alexandru Ioan Cuza” din Iași, 2013. • Dave, K., Lawrence, S. and Pennock D.M.: Mining the peanut gallery: Opinion extraction and semantic classification of product reviews, Proceedings of WWW, 2003. • Das, S. and Chen, M.: Yahoo! For Amazon: Extracting market sentiment from stock message boards. In Proceedings of the Asia Acific Finance Association Annual Conference (APFA), 2001. • Ding, X., Liu, B. and Zhang, L.: Entity discovery and assignment for opinion mining applications. In Proceedings of ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2009. • Dragut, E.C., Yu, C., Sistla, P. and Meng, W.: Construction of a sentimental word dictionary. In Proceedings of ACM International Conference on Information and Knowledge Management, 2010.

  22. REFERINȚE BIBLIOGRAFICE • Esuli, A. and Sebastiani, F.: SentiWordNet: A Publicly Available Lexical Resource for Opinion Mining. Proceedings from International Conference on Language Resources and Evaluation (LREC), Genoa, 2006. • Gîfu, D. and Cristea, D.: Multi-dimensional analysis of political language in “Future Information Technology, Application, and Service” (volum 1/164), James J. (Jong Hyuk) Park, Victor C.M. Leung, Cho-Li Wang, Taeshik Shon (editors), Springer, 2012. • Hatzivassiloglou, V. and McKeown, K.: Predicting the semantic orientation of adjectives. In Proceedings of the Joint ACL/EACL Conference, 1997.

  23. REFERINȚE BIBLIOGRAFICE • Hu, M. and Liu, B.: Mining opinion features in customer reviews. In Proceedings of AAAI, 2004. • Ignat, E.: RARE-UAIC (Robust Anaphora Resolution Engine), resursă gratuită pe META-SHARE, Universitatea “Alexandru Ioan Cuza” din Iași, 2011. • Jindal, N. and Liu, B.: Identifying comparative sentences in text documents. In Proceedings of ACM SIGIR Conf. on Research and Development in Information Retrieval, 2006. • Kamps, J.,Maarten, M., R. ort.Mokken and Maarten de Rijke.: Using WordNet to measure semantic orientation of adjectives in Proceedings of LREC-04, 4th International Conference of Language Resources and Evaluation, vol. IV, 2004. • Liu, B.: Web data mining; Exploring hyperlinks, contents, and usage data. In Opinion Mining, Springer, Heidelberg, 2006.

  24. REFERINȚE BIBLIOGRAFICE • Mihalcea, R., Banea C., and Wiebe, J.: Learning Multilingual Subjective Language via Cross-Lingual Projections. 45th Annual Meeting of the Association for Computational Linguistics (ACL-2007). • Pang, B. and Lee, L.: A Sentimental Education: Sentiment Analysis using Subjectivity Summarization based on minimum cuts. In Proceedings of the Association for Computational Linguistics, 2004. • Peng, W. and Park, D.H.: Generate adjective sentiment dictionary for social media sentiment analysis using constrained nonnegative matrix factorization. In Proceedings of the Fifth International AAAI Conference on Weblogs and Social Media, 2011. • Simionescu, R.: UAIC Romanian Part of Speech Tagger, lucrare de disertație coord. de prof.univ.dr. Dan Cristea, Universitatea “Alexandru Ioan Cuza” din Iași, nlptools.info.uaic.ro, 2011.

  25. REFERINȚE BIBLIOGRAFICE • Simionescu, R.: NP-chunker (Noun Phrase chunking), instrument implementat la Universitatea “Alexandru Ioan Cuza” din Iași, nlptools.info.uaic.ro, 2011. • Taboada, M., J. Brooke, J., Tofiloski, M., Voll, K. and Stede, M.: Lexicon-based methods for sentiment analysis. Computational Linguistics 37, 2, 2011. • Turney, P.: Thumbs up or thumbs down? Semantic orientation applied to unsupervised classification of reviews. In Proceedings of the Association for Computational Linguistics, 2002. • Tong, R.M.: An operational system for detecting and tracking opinions in on-line discussion. Workshop note, SIGIR 2001 Workshop on Operational Text Classification. • Yu, H. and Hatzivassiloglou, V.: Towards answering opinion questions: Separating facts from opinions and identifying the polarity of opinion sentences. In Proceedings of the Conference on Empirical Methods in Natural Language Processing, 2003.

  26. MULȚUMESC

More Related