1 / 33

Classificació de sentiments: L’humor

Classificació de sentiments: L’humor. Cristina España i Bonet 18 de desembre de 2006 __Processament del Llenguatge Natural per al Processament Massiu d'Informació Textual__. Í NDEX. Què és l’humor... per a un ordinador? Reconeixement de one-liners (Refs. [1,2]) Corpus Mètodes

honora
Download Presentation

Classificació de sentiments: L’humor

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Classificació de sentiments:L’humor Cristina España i Bonet 18 de desembre de 2006 __Processament del Llenguatge Natural per al Processament Massiu d'Informació Textual__

  2. ÍNDEX • Què és l’humor... per a un ordinador? • Reconeixement de one-liners (Refs. [1,2]) • Corpus • Mètodes • Resultats • Conclusions • Classificació d’acudits (Refs. [3,4]) • Reconeixement de jocs de paraules • Conclusió • Referències Reconeixement d’humor en textos___________________________________________________________________2

  3. ÍNDEX • Què és l’humor... per a un ordinador? • Reconeixement de one-liners • Corpus • Mètodes • Resultats • Conclusions • Classificació d’acudits • Reconeixement de jocs de paraules • Conclusió • Referències Reconeixement d’humor en textos___________________________________________________________________3

  4. HUMOR Persona Definició Facultat de descobrir i expressar elements còmics o absurdament incongruents en idees, situacions, esdeveniments, actes, etc... Reconeixement d’humor en textos___________________________________________________________________4 Ordinador Definició Facultat de descobrir i expressar verbalment elements còmics (one-liners) o absurdament incongruents (knock-knock).

  5. HUMOR Tasca A Tasca B Reconeixement automàtic d’humor Generació d’humor (tasca més explorada) Sistemes: • JAPE • HAHAcronym Reconeixement d’humor en textos___________________________________________________________________5 Massa genèric (complicat): • acudits • one-liners • jocs de paraules • acudits “knock, knock”

  6. ÍNDEX • Què és l’humor... per a un ordinador? • Reconeixement de one-liners • Corpus • Mètodes • Resultats • Conclusions • Classificació d’acudits • Reconeixement de jocs de paraules • Conclusió • Referències R. Mihalcea & C. Strapparava Reconeixement d’humor en textos___________________________________________________________________6

  7. ONE-LINERS Què és un one-liner Característiques: • frases curtes (<15 paraules) • sintaxi simple • ús de recursos estilístics Take my advice; I don’t use it anyway. Reconeixement d’humor en textos___________________________________________________________________7 Què no és un one-liner Estructures similars: • refranys • titulars • proverbis I believe no tales from an enemy’s tongue.

  8. ONE-LINERS: CORPUS Exemples positius (bootstrap sobre el web) • llavor: 10 one-liners • 2 iter.: 24000 one-liners • eliminació de duplicats: 16000 one-liners • soroll: 9% (inspecció manual 200) Reconeixement d’humor en textos___________________________________________________________________8

  9. ONE-LINERS: CORPUS Exemples negatius • Titulars de Reuters • Frases del British National Corpus (BNC) • Proverbis extrets d’una col·lecció online. Reconeixement d’humor en textos___________________________________________________________________9 2006 Estructures similars

  10. ONE-LINERS MÈTODE 1: HEURÍSTIQUES BASADES EN CARACTERÍSTIQUES DEL LLENGUATGE S’han de buscar característiques significatives i “implementables”: • Al·literacions • Repetició d’estructura i fonètica per cridar l’atenció: Veni, Vidi, Visa: I came, Isaw, I did a little shopping. • Antonímia • Per expressar incongruències o contradiccions: A clean desk is a sign of a cluttered desk drawer. • Argot (adult) • Per cridar l’atenció: The sex was so good that even the neighbours had a cigarette. Reconeixement d’humor en textos___________________________________________________________________10

  11. ONE-LINERS MÈTODE 1: HEURÍSTIQUES BASADES EN CARACTERÍSTIQUES DEL LLENGUATGE Com es troben a la pràctica? • Al·literacions • CMU Diccionari de pronúncia, comparació de cadenes. També es troben en jocs de paraules, titulars o anuncis. • Antonímia • WordNet, relació d’antonímia. No complet. A més, caldria desambiguar. • Argot (adult) • Lexicó extret de WordNetDomains, domini: sexuality. No complet. Reconeixement d’humor en textos___________________________________________________________________11

  12. ONE-LINERS MÈTODE 1: HEURÍSTIQUES BASADES EN CARACTERÍSTIQUES DEL LLENGUATGE Com es quantifiquen? • Cal definir un valor llindar per a cada recurs estilístic: per sobre d’ell el text serà humorístic per sota no. • El llindar s’aprèn automàticament: • Arbre de decisió aplicat sobre 1000 exemples. (resultats similars amb més exemples) • Els resultats s’obtenen amb la resta d’exemples. Reconeixement d’humor en textos___________________________________________________________________12

  13. ONE-LINERS MÈTODE 2: APRENENTATGE AMB CLASSIFICADORS Donat el corpus amb exemples positius i negatius, aplicar un classificador: • Multinomial Naïve Bayes • En un conjunt de paraules independents, la probabilitat de pertànyer a una categoria és la probabilitat conjunta de paraules i categoria. • Support vector machines • El mínim marge màxim divideix l’espai de manera que separa els exemples positius dels negatius. (Resultats: 10-fold CV) Reconeixement d’humor en textos___________________________________________________________________13

  14. ONE-LINERS MÈTODE 3: COMBINACIÓ DELS ANTERIORS Utilització d’un stacked learner per aprofitar els resultats dels dos mètodes anteriors: • Primera etapa d’aprenentatge: Utilització del classificador. • Crea un vector de característiques amb la sortida del classificador i els tres recursos estilístics. • Segona etapa d’aprenentatge: Utilització d’un sistema d’aprenentatge basat en memòria, per no perdre la informació de les característiques menys importants. (Timbl) Reconeixement d’humor en textos___________________________________________________________________14

  15. ONE-LINERS RESULTATS: HEURÍSTIQUES Reconeixement d’humor en textos___________________________________________________________________15 • L’al·literació és la característica més distintiva. • Els titulars són el més llunyà a un one-liner i els proverbis el més similar. • En la majoria de casos, una sola característica gairebé no millora el baseline (50%).

  16. One-liners Mix 63.76% 87.49% 77.62% 76.20% No:75%Si:25% ONE-LINERS RESULTATS: HEURÍSTIQUES Reconeixement d’humor en textos___________________________________________________________________16 • Barrejant els exemples negatius s’obtenen resultats propers als del BNC. • Dificultar el problema (més exemples negatius que positius) encara millora els resultats (però baseline més alt).

  17. ONE-LINERS RESULTATS: CLASSIFICADORS • Millores significatives respecte a les característiques estilístiques. • Els titulars són el més llunyà a un one-liner i els textos del BNC el més similar. • Millora especial en els proverbis: similars estilísticament, però amb continguts diferents. Reconeixement d’humor en textos___________________________________________________________________17

  18. One-liners Mix 77.82% 79.23% 96.19% 81.56% 87.86% No:75%Si:25% ONE-LINERS RESULTATS: CLASSIFICADORS • Amb els mateixos nous experiments que per als recursos estilístics s’observen les mateixes tendències: • Barrejant els exemples negatius s’obtenen resultats propers als del BNC. • Dificultar el problema encara millora els resultats amb un classificador Naïve Bayes. Reconeixement d’humor en textos___________________________________________________________________18

  19. Reuters Proverbis BNC ONE-LINERS RESULTATS: CLASSIFICADORS Corbes d’aprenentatge Reconeixement d’humor en textos___________________________________________________________________19 • Excepte per BNC, NB dóna resultats lleugerament millors a SVM. • Amb el 60% d’exemples (104 + 104) ja es deixa d’aprendre. • No és important ampliar el conjunt d’exemples, potser reduir el soroll.

  20. Combination ONE-LINERS RESULTATS: COMBINACIÓ +1 +2 +0 Reconeixement d’humor en textos__________________________________________________________________20

  21. ONE-LINERS CONCLUSIONS • En general, i contra els exemples negatius triats aquí, la classificació automàtica de one-liners és força efectiva. • El número d’exemples del corpus és més que suficient (corba d’aprenentatge): millor centrar-se amb les característiques i reduir el soroll. • Al contrari del que pressuposaven els autors, el més difícil és diferenciar-los del text genèric (BNC). • Manera de triar les frases? • Els classificadors donen molt millors resultats que els recursos estilístics triats. • La millora amb la combinació dels dos mètodes és estadísticament significativa. Reconeixement d’humor en textos___________________________________________________________________21

  22. ÍNDEX • Què és l’humor... per a un ordinador? • Reconeixement de one-liners • Corpus • Mètodes • Resultats • Conclusions • Classificació d’acudits • Reconeixement de jocs de paraules • Conclusió • Referències Reconeixement d’humor en textos__________________________________________________________________22 J.M. Taylor & L.J. Mazlack

  23. ACUDITS • Què és un acudit? Part I: Preparació (setup)  Interpretació I Part II: Conclusió (punchline) Interpretació II Interpretació I ≠ Interpretació II Reconeixement d’humor en textos__________________________________________________________________23 • Jocs de paraules • Acudits amb paraules amb la mateixa pronunciació i/o escriptura: Diane: I want to go to Tibet on our honeymoon. Sam: Of course, we’ll go to bed.

  24. ACUDITS: RECONEIXEMENT FORMAT I • Acudits amb una pregunta com a setup i el punchline com a resposta. Infermera: Can I get your weight today? WEIGHT Pacient: Three hours and twelve minutes. WAIT • Algoritme de reconeixement: 1r Validació del format anterior. 2n Buscar paraules/anotacions semàntiques ortogràficament similars: LCSR = Longitud subcadena comú / longitud cadena més llarga LCSR = l(we) / l(weight) = 0.33 (twelve vs. weight) : : LCSR = l(wit) / l(weight) = 0.50 (wait vs. weight) Reconeixement d’humor en textos__________________________________________________________________24

  25. ACUDITS:RECONEIXEMENT FORMAT I 3r Parella amb major similitud: Substitució de sons per passar d’una a l’altra. 3a. Si el pas és possible  4t. 3b. Si no  Provar amb la següent millor similitud. 4t Substituir el joc de paraules trobat al setup. 5è Verificació sintàctica: Ús d’un parser. n arbres sintàctics per al setup 6è Verificació semàntica per a cada arbre: Ús d’ontologies, CycL. Sortida: Almenys 1 arbre no entra en conflicte semàntic amb el punchline  ACUDIT Reconeixement d’humor en textos__________________________________________________________________25

  26. ACUDITSRECONEIXEMENT FORMAT I: RESULTATS ? Reconeixement d’humor en textos__________________________________________________________________26

  27. ACUDITS: RECONEIXEMENT FORMAT II • Acudits amb l’estructura Knock-Knock: Acudit en forma de diàleg amb un joc de paraules en el punchline. Estructura: Linia1: “Knock, Knock” Linia2: “Who’s there?” Linia3: resposta3 Linia4: Linia3 + “who?” Linia5: punchline (joc de paraules) Knock, Knock Who’s there? Justin Justin who? Just in time for dinner. Reconeixement d’humor en textos__________________________________________________________________27

  28. ACUDITS: RECONEIXEMENT FORMAT II • Algoritme de reconeixement: 1r Validació del format anterior. 2n Generació de jocs de paraules amb Linia3. • Donada una paraula A, reemplaçar sons (taula de Frish) fins a arribar a B. • Es calcula la similitud per cada B trobada i s’ordenen. • Se separa per paraules i s’agafa la 1a cadena que tingui sentit. 3r Construcció d’una base de dades amb una taula de bi/trigrames: • Es trien textos amb el joc de paraules i les dues paraules següents del punchline. • S’introdueix a la taula totes les parelles/trios d’aquests texts. Reconeixement d’humor en textos__________________________________________________________________28

  29. ACUDITS: RECONEIXEMENT FORMAT II 4t Validació de la seqüència de jocs de paraules en el context. • Taula de bigrames: S’agafa la sortida del generador, se separa en paraules i es mira d’una amb una i amb la següent si la combinació surt a la BD. 5è Validació del joc de paraules amb el punchline. • Taula de trigrames: Es busca wp1,wp2,punch1 a la BD. • Taula de trigrames: Es busca wpf,punch1,punch2 a la BD. Sortida: Es troba wp1,wp2,punch1 i wpf,punch1,punch2  ACUDIT Reconeixement d’humor en textos__________________________________________________________________29

  30. ACUDITSRECONEIXEMENT FORMAT II: RESULTATS • El corpus: • Set d’entrenament: 66 acudits KK. A partir d’aquests es busquen els textos per generar les taules de bi/trigrames. • Taula de similitud ampliada per incloure tots els casos. • Set de test: 130 acudits KK i 65 diàlegs amb estructura similar. • Els números: • 85/130 jocs de paraules reconeguts: 65,38% • 17/130 (17/122) KK identificats: 13,08% (13,93%) • 62/65 no acudits reconeguts: 95,38% • Total: 79/195 40,51% << baseline! Reconeixement d’humor en textos__________________________________________________________________30

  31. ÍNDEX • Què és l’humor... per a un ordinador? • Reconeixement de one-liners • Corpus • Mètodes • Resultats • Conclusions • Classificació d’acudits • Reconeixement de jocs de paraules • Conclusió • Referències Reconeixement d’humor en textos__________________________________________________________________31

  32. CONCLUSIONS • Detectar humor genèricament és una tasca inabordable. • Aquí s’han comentat 2 aproximacions: • Els one-liners es detecten amb una precisió de fins al 96% més gràcies al seu contingut que a les característiques estilístiques. • Els jocs de paraules es poden generar per intercanvis de sons amb un èxit moderat i detectar-se mitjançant bigrames amb un 65,38%. • El resultats d’acudits basats en jocs de paraules són, per contra, molt dolents (13,93%) a l’espera dels resultats d’un nou mètode no basat en n-grames. • Aquestes tasques concretes s’estan aplicant amb èxit a algunes aplicacions. Ex: Introducció d’un one-liner al final d’un mail. Reconeixement d’humor en textos__________________________________________________________________32

  33. REFERÈNCIES [1] R. Mihalcea, C. Strapparava. Making Computers Laugh: Investigations in Automatic Humor Recognition. Proceedings of the Joint Conference on Human Language Technology / Empirical Methods in Natural Language Processing (HLT/EMNLP), Vancouver, October, 2005. [2]R. Mihalcea, C. Strapparava. Technologies That Make You Smile: Adding Humor to Text-Based Applications. IEEE Intelligent Systems, October, 2006, Vol. 21, No. 5, P. 33. [3] J.M. Taylor, L.J. Mazlack.Computationally Recognizing Wordplay In Jokes. Cognitive Science Conference Proceedings (CogSci 2004), August, 2004, Chicago, 1315-1320. [4] J.M. Taylor, L.J. Mazlack. Toward Computational Recognition of Humorous Intent. Cognitive Science Conference 2005 Proceedings (CogSci 2005), Stresa, Italy, July, 2005, 2166-2171. Reconeixement d’humor en textos__________________________________________________________________33

More Related