330 likes | 560 Views
Classificació de sentiments: L’humor. Cristina España i Bonet 18 de desembre de 2006 __Processament del Llenguatge Natural per al Processament Massiu d'Informació Textual__. Í NDEX. Què és l’humor... per a un ordinador? Reconeixement de one-liners (Refs. [1,2]) Corpus Mètodes
E N D
Classificació de sentiments:L’humor Cristina España i Bonet 18 de desembre de 2006 __Processament del Llenguatge Natural per al Processament Massiu d'Informació Textual__
ÍNDEX • Què és l’humor... per a un ordinador? • Reconeixement de one-liners (Refs. [1,2]) • Corpus • Mètodes • Resultats • Conclusions • Classificació d’acudits (Refs. [3,4]) • Reconeixement de jocs de paraules • Conclusió • Referències Reconeixement d’humor en textos___________________________________________________________________2
ÍNDEX • Què és l’humor... per a un ordinador? • Reconeixement de one-liners • Corpus • Mètodes • Resultats • Conclusions • Classificació d’acudits • Reconeixement de jocs de paraules • Conclusió • Referències Reconeixement d’humor en textos___________________________________________________________________3
HUMOR Persona Definició Facultat de descobrir i expressar elements còmics o absurdament incongruents en idees, situacions, esdeveniments, actes, etc... Reconeixement d’humor en textos___________________________________________________________________4 Ordinador Definició Facultat de descobrir i expressar verbalment elements còmics (one-liners) o absurdament incongruents (knock-knock).
HUMOR Tasca A Tasca B Reconeixement automàtic d’humor Generació d’humor (tasca més explorada) Sistemes: • JAPE • HAHAcronym Reconeixement d’humor en textos___________________________________________________________________5 Massa genèric (complicat): • acudits • one-liners • jocs de paraules • acudits “knock, knock”
ÍNDEX • Què és l’humor... per a un ordinador? • Reconeixement de one-liners • Corpus • Mètodes • Resultats • Conclusions • Classificació d’acudits • Reconeixement de jocs de paraules • Conclusió • Referències R. Mihalcea & C. Strapparava Reconeixement d’humor en textos___________________________________________________________________6
ONE-LINERS Què és un one-liner Característiques: • frases curtes (<15 paraules) • sintaxi simple • ús de recursos estilístics Take my advice; I don’t use it anyway. Reconeixement d’humor en textos___________________________________________________________________7 Què no és un one-liner Estructures similars: • refranys • titulars • proverbis I believe no tales from an enemy’s tongue.
ONE-LINERS: CORPUS Exemples positius (bootstrap sobre el web) • llavor: 10 one-liners • 2 iter.: 24000 one-liners • eliminació de duplicats: 16000 one-liners • soroll: 9% (inspecció manual 200) Reconeixement d’humor en textos___________________________________________________________________8
ONE-LINERS: CORPUS Exemples negatius • Titulars de Reuters • Frases del British National Corpus (BNC) • Proverbis extrets d’una col·lecció online. Reconeixement d’humor en textos___________________________________________________________________9 2006 Estructures similars
ONE-LINERS MÈTODE 1: HEURÍSTIQUES BASADES EN CARACTERÍSTIQUES DEL LLENGUATGE S’han de buscar característiques significatives i “implementables”: • Al·literacions • Repetició d’estructura i fonètica per cridar l’atenció: Veni, Vidi, Visa: I came, Isaw, I did a little shopping. • Antonímia • Per expressar incongruències o contradiccions: A clean desk is a sign of a cluttered desk drawer. • Argot (adult) • Per cridar l’atenció: The sex was so good that even the neighbours had a cigarette. Reconeixement d’humor en textos___________________________________________________________________10
ONE-LINERS MÈTODE 1: HEURÍSTIQUES BASADES EN CARACTERÍSTIQUES DEL LLENGUATGE Com es troben a la pràctica? • Al·literacions • CMU Diccionari de pronúncia, comparació de cadenes. També es troben en jocs de paraules, titulars o anuncis. • Antonímia • WordNet, relació d’antonímia. No complet. A més, caldria desambiguar. • Argot (adult) • Lexicó extret de WordNetDomains, domini: sexuality. No complet. Reconeixement d’humor en textos___________________________________________________________________11
ONE-LINERS MÈTODE 1: HEURÍSTIQUES BASADES EN CARACTERÍSTIQUES DEL LLENGUATGE Com es quantifiquen? • Cal definir un valor llindar per a cada recurs estilístic: per sobre d’ell el text serà humorístic per sota no. • El llindar s’aprèn automàticament: • Arbre de decisió aplicat sobre 1000 exemples. (resultats similars amb més exemples) • Els resultats s’obtenen amb la resta d’exemples. Reconeixement d’humor en textos___________________________________________________________________12
ONE-LINERS MÈTODE 2: APRENENTATGE AMB CLASSIFICADORS Donat el corpus amb exemples positius i negatius, aplicar un classificador: • Multinomial Naïve Bayes • En un conjunt de paraules independents, la probabilitat de pertànyer a una categoria és la probabilitat conjunta de paraules i categoria. • Support vector machines • El mínim marge màxim divideix l’espai de manera que separa els exemples positius dels negatius. (Resultats: 10-fold CV) Reconeixement d’humor en textos___________________________________________________________________13
ONE-LINERS MÈTODE 3: COMBINACIÓ DELS ANTERIORS Utilització d’un stacked learner per aprofitar els resultats dels dos mètodes anteriors: • Primera etapa d’aprenentatge: Utilització del classificador. • Crea un vector de característiques amb la sortida del classificador i els tres recursos estilístics. • Segona etapa d’aprenentatge: Utilització d’un sistema d’aprenentatge basat en memòria, per no perdre la informació de les característiques menys importants. (Timbl) Reconeixement d’humor en textos___________________________________________________________________14
ONE-LINERS RESULTATS: HEURÍSTIQUES Reconeixement d’humor en textos___________________________________________________________________15 • L’al·literació és la característica més distintiva. • Els titulars són el més llunyà a un one-liner i els proverbis el més similar. • En la majoria de casos, una sola característica gairebé no millora el baseline (50%).
One-liners Mix 63.76% 87.49% 77.62% 76.20% No:75%Si:25% ONE-LINERS RESULTATS: HEURÍSTIQUES Reconeixement d’humor en textos___________________________________________________________________16 • Barrejant els exemples negatius s’obtenen resultats propers als del BNC. • Dificultar el problema (més exemples negatius que positius) encara millora els resultats (però baseline més alt).
ONE-LINERS RESULTATS: CLASSIFICADORS • Millores significatives respecte a les característiques estilístiques. • Els titulars són el més llunyà a un one-liner i els textos del BNC el més similar. • Millora especial en els proverbis: similars estilísticament, però amb continguts diferents. Reconeixement d’humor en textos___________________________________________________________________17
One-liners Mix 77.82% 79.23% 96.19% 81.56% 87.86% No:75%Si:25% ONE-LINERS RESULTATS: CLASSIFICADORS • Amb els mateixos nous experiments que per als recursos estilístics s’observen les mateixes tendències: • Barrejant els exemples negatius s’obtenen resultats propers als del BNC. • Dificultar el problema encara millora els resultats amb un classificador Naïve Bayes. Reconeixement d’humor en textos___________________________________________________________________18
Reuters Proverbis BNC ONE-LINERS RESULTATS: CLASSIFICADORS Corbes d’aprenentatge Reconeixement d’humor en textos___________________________________________________________________19 • Excepte per BNC, NB dóna resultats lleugerament millors a SVM. • Amb el 60% d’exemples (104 + 104) ja es deixa d’aprendre. • No és important ampliar el conjunt d’exemples, potser reduir el soroll.
Combination ONE-LINERS RESULTATS: COMBINACIÓ +1 +2 +0 Reconeixement d’humor en textos__________________________________________________________________20
ONE-LINERS CONCLUSIONS • En general, i contra els exemples negatius triats aquí, la classificació automàtica de one-liners és força efectiva. • El número d’exemples del corpus és més que suficient (corba d’aprenentatge): millor centrar-se amb les característiques i reduir el soroll. • Al contrari del que pressuposaven els autors, el més difícil és diferenciar-los del text genèric (BNC). • Manera de triar les frases? • Els classificadors donen molt millors resultats que els recursos estilístics triats. • La millora amb la combinació dels dos mètodes és estadísticament significativa. Reconeixement d’humor en textos___________________________________________________________________21
ÍNDEX • Què és l’humor... per a un ordinador? • Reconeixement de one-liners • Corpus • Mètodes • Resultats • Conclusions • Classificació d’acudits • Reconeixement de jocs de paraules • Conclusió • Referències Reconeixement d’humor en textos__________________________________________________________________22 J.M. Taylor & L.J. Mazlack
ACUDITS • Què és un acudit? Part I: Preparació (setup) Interpretació I Part II: Conclusió (punchline) Interpretació II Interpretació I ≠ Interpretació II Reconeixement d’humor en textos__________________________________________________________________23 • Jocs de paraules • Acudits amb paraules amb la mateixa pronunciació i/o escriptura: Diane: I want to go to Tibet on our honeymoon. Sam: Of course, we’ll go to bed.
ACUDITS: RECONEIXEMENT FORMAT I • Acudits amb una pregunta com a setup i el punchline com a resposta. Infermera: Can I get your weight today? WEIGHT Pacient: Three hours and twelve minutes. WAIT • Algoritme de reconeixement: 1r Validació del format anterior. 2n Buscar paraules/anotacions semàntiques ortogràficament similars: LCSR = Longitud subcadena comú / longitud cadena més llarga LCSR = l(we) / l(weight) = 0.33 (twelve vs. weight) : : LCSR = l(wit) / l(weight) = 0.50 (wait vs. weight) Reconeixement d’humor en textos__________________________________________________________________24
ACUDITS:RECONEIXEMENT FORMAT I 3r Parella amb major similitud: Substitució de sons per passar d’una a l’altra. 3a. Si el pas és possible 4t. 3b. Si no Provar amb la següent millor similitud. 4t Substituir el joc de paraules trobat al setup. 5è Verificació sintàctica: Ús d’un parser. n arbres sintàctics per al setup 6è Verificació semàntica per a cada arbre: Ús d’ontologies, CycL. Sortida: Almenys 1 arbre no entra en conflicte semàntic amb el punchline ACUDIT Reconeixement d’humor en textos__________________________________________________________________25
ACUDITSRECONEIXEMENT FORMAT I: RESULTATS ? Reconeixement d’humor en textos__________________________________________________________________26
ACUDITS: RECONEIXEMENT FORMAT II • Acudits amb l’estructura Knock-Knock: Acudit en forma de diàleg amb un joc de paraules en el punchline. Estructura: Linia1: “Knock, Knock” Linia2: “Who’s there?” Linia3: resposta3 Linia4: Linia3 + “who?” Linia5: punchline (joc de paraules) Knock, Knock Who’s there? Justin Justin who? Just in time for dinner. Reconeixement d’humor en textos__________________________________________________________________27
ACUDITS: RECONEIXEMENT FORMAT II • Algoritme de reconeixement: 1r Validació del format anterior. 2n Generació de jocs de paraules amb Linia3. • Donada una paraula A, reemplaçar sons (taula de Frish) fins a arribar a B. • Es calcula la similitud per cada B trobada i s’ordenen. • Se separa per paraules i s’agafa la 1a cadena que tingui sentit. 3r Construcció d’una base de dades amb una taula de bi/trigrames: • Es trien textos amb el joc de paraules i les dues paraules següents del punchline. • S’introdueix a la taula totes les parelles/trios d’aquests texts. Reconeixement d’humor en textos__________________________________________________________________28
ACUDITS: RECONEIXEMENT FORMAT II 4t Validació de la seqüència de jocs de paraules en el context. • Taula de bigrames: S’agafa la sortida del generador, se separa en paraules i es mira d’una amb una i amb la següent si la combinació surt a la BD. 5è Validació del joc de paraules amb el punchline. • Taula de trigrames: Es busca wp1,wp2,punch1 a la BD. • Taula de trigrames: Es busca wpf,punch1,punch2 a la BD. Sortida: Es troba wp1,wp2,punch1 i wpf,punch1,punch2 ACUDIT Reconeixement d’humor en textos__________________________________________________________________29
ACUDITSRECONEIXEMENT FORMAT II: RESULTATS • El corpus: • Set d’entrenament: 66 acudits KK. A partir d’aquests es busquen els textos per generar les taules de bi/trigrames. • Taula de similitud ampliada per incloure tots els casos. • Set de test: 130 acudits KK i 65 diàlegs amb estructura similar. • Els números: • 85/130 jocs de paraules reconeguts: 65,38% • 17/130 (17/122) KK identificats: 13,08% (13,93%) • 62/65 no acudits reconeguts: 95,38% • Total: 79/195 40,51% << baseline! Reconeixement d’humor en textos__________________________________________________________________30
ÍNDEX • Què és l’humor... per a un ordinador? • Reconeixement de one-liners • Corpus • Mètodes • Resultats • Conclusions • Classificació d’acudits • Reconeixement de jocs de paraules • Conclusió • Referències Reconeixement d’humor en textos__________________________________________________________________31
CONCLUSIONS • Detectar humor genèricament és una tasca inabordable. • Aquí s’han comentat 2 aproximacions: • Els one-liners es detecten amb una precisió de fins al 96% més gràcies al seu contingut que a les característiques estilístiques. • Els jocs de paraules es poden generar per intercanvis de sons amb un èxit moderat i detectar-se mitjançant bigrames amb un 65,38%. • El resultats d’acudits basats en jocs de paraules són, per contra, molt dolents (13,93%) a l’espera dels resultats d’un nou mètode no basat en n-grames. • Aquestes tasques concretes s’estan aplicant amb èxit a algunes aplicacions. Ex: Introducció d’un one-liner al final d’un mail. Reconeixement d’humor en textos__________________________________________________________________32
REFERÈNCIES [1] R. Mihalcea, C. Strapparava. Making Computers Laugh: Investigations in Automatic Humor Recognition. Proceedings of the Joint Conference on Human Language Technology / Empirical Methods in Natural Language Processing (HLT/EMNLP), Vancouver, October, 2005. [2]R. Mihalcea, C. Strapparava. Technologies That Make You Smile: Adding Humor to Text-Based Applications. IEEE Intelligent Systems, October, 2006, Vol. 21, No. 5, P. 33. [3] J.M. Taylor, L.J. Mazlack.Computationally Recognizing Wordplay In Jokes. Cognitive Science Conference Proceedings (CogSci 2004), August, 2004, Chicago, 1315-1320. [4] J.M. Taylor, L.J. Mazlack. Toward Computational Recognition of Humorous Intent. Cognitive Science Conference 2005 Proceedings (CogSci 2005), Stresa, Italy, July, 2005, 2166-2171. Reconeixement d’humor en textos__________________________________________________________________33