1 / 43

Una introducción al Sentiment Analysis

Una introducción al Sentiment Analysis. Fermín Cruz fcruz@us.es. Retos. Tareas. Recursos. Definición. Aplicaciones. Motivación. Contenido. 1. 2. 3. Opiniones Toma de decisiones. Internet (Web 2.0). Información no estructurada. Motivación. Definición.

laksha
Download Presentation

Una introducción al Sentiment Analysis

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Una introducción al Sentiment Analysis Fermín Cruz fcruz@us.es

  2. Retos Tareas Recursos Definición Aplicaciones Motivación Contenido

  3. 1 2 3 Opiniones Toma de decisiones. Internet (Web 2.0) Información no estructurada Motivación

  4. Definición SentimentAnalysis Tratamiento computacional de las opiniones, sentimientos y fenómenos subjetivos en los textos. • …otras formas de llamarlo: • opinionmining, sentimentclassification, subjectivityanalysis, reviewmining, appraisalextraction, affectivecomputing,…

  5. Aplicaciones • Websites recopilatorios de reviews de productos* • Recopilación automática • Resumen automático • Corrección de las puntuaciones *también aplicable a artículos políticos, críticas de cine o música…

  6. Aplicaciones • Business and GovernmentIntelligence • (aplicaciones en el lado oscuro) • Análisis de las opiniones de los clientes de una empresa con respecto a sus productos • Seguimiento de la valoración de los clientes en el tiempo • Monitorización de fuentes de información políticas para la detección de hostilidades • Seguimiento de la popularidad de candidatos políticos.

  7. Aplicaciones • Como componente de otras tecnologías • Sistemas de recomendación • Detección de lenguaje ofensivo • Publicidad automática • Extracción de información • QuestionAnswering • Resumen automático • Análisis de citas en artículos • Interfaces de usuario “sentiment-aware”

  8. Aplicaciones • Aplicación a otros campos científicos • Ciencias políticas • Sociología • Derecho (blawgs) • Psicología

  9. Retos ¿Qué hace a estas tareas especialmente difíciles? • Un caso: • Sentiment Classification vs Topic Classification • Un dato: • Usando técnicas de machine learning aplicadas frecuentemente a la clasificación de documentos clásica, se obtienen resultados en torno a un 80% de precisión • (Pang et al.,2002)

  10. Retos Algunos textos de ejemplo (Pang and Lee, 2008): • “Ifyou are readingthisbecauseitisyourdarlingfragance, pleasewearit at home exclusively, and tape thewindowsshut.” ¡ No hay palabras claramente negativas !

  11. Retos Algunos textos de ejemplo (Pang and Lee, 2008): • “…goreadthebook!” ¿Positivo o negativo?...Depende del dominio

  12. Retos Algunos textos de ejemplo (Pang et al., 2002): • “The film should be brilliant. It sounds like a great plot, the actors are first grade, and the supporting cast is good as well, and Stallone is attemping to deliver a good performance. However, it can’t hold up.” Multitud de palabras positivas… ¡pero es una opinión negativa!

  13. Retos Algunos textos de ejemplo: • “El director nos regala otra de las joyas a las que nos tiene acostumbrados.” • ¿Opinión negativa o positiva? • ¿Quién es el director? • ¿Qué otras películas ha dirigido? • ¿Qué opiniones existen sobre esas otras películas?

  14. Retos • ¿Qué hace a estas tareas especialmente difíciles? • Fuerte dependencia con el contexto y con el dominio • Importancia fundamental de la estructura del discurso • Necesidad de disponer de conocimiento del mundo • Ambigüedad inherente • Fenómenos pragmáticos • …

  15. Tareas • Algunas de las tareas englobadas dentro del término SentimentAnalysis • Clasificación de documentos de opinión • Binaria (Sentimentpolarity) • Multiclases(Rating inference) • Detección de subjetividad • Extracción de opiniones • Clasificación de la perspectiva • Determinación de la intensidad de las opiniones • Clasificación de las emociones • Detección de humor

  16. Clasificación de documentos de opinión Clasificador binario Opinión positiva Opinión negativa Documento de opinión Clasificador

  17. Clasificación de documentos de opinión Rating Inference 5 Puntuación 1 Documento de opinión Clasificador

  18. Clasificación de documentos de opinión Thumbs up or thumbs down? Semantic orientation applied to unsupervised classification of reviews (Turney, 2002) • Extracción de bigramas: se seleccionan bigramas que contengan adjetivos o adverbios, según cinco reglas morfosintácticas muy simples. • Orientación semántica: valor real cuyo signo determina la implicación positiva o negativa del término y cuyo valor absoluto determina la intensidad de dicha implicación.

  19. Clasificación de documentos de opinión Thumbs up or thumbs down? Semantic orientation applied to unsupervised classification of reviews (Turney, 2002)

  20. Clasificación de documentos de opinión Thumbs up or thumbs down? Semantic orientation applied to unsupervised classification of reviews (Turney, 2002)

  21. Clasificación de documentos de opinión Clasificación de documentos basada en la opinión: experimentos con un corpus de críticas de cine en español (F.Cruz et al., 2008) • Corpus en castellano: formado por críticas de cine extraídas de http://www.muchocine.net • Críticas introducidas por usuarios • Textos procesados con FreeLing (Atserias et al., 2006) • Disponible en http://www.lsi.us.es/~fermin/corpusCine.zip

  22. 1 2 3 Reproducción del clasificador no supervisado de Turney (Turney, 2002) Semillas y patrones de extracción adaptados al castellano. Búsqueda supervisada del umbral óptimo entre clases para la suma de las orientaciones semánticas. Utilización de semillas múltiples Clasificación de documentos de opinión Clasificación de documentos basada en la opinión: experimentos con un corpus de críticas de cine en español (F.Cruz et al., 2008) • Tres experimentos realizados

  23. Clasificación de documentos de opinión Clasificación de documentos basada en la opinión: experimentos con un corpus de críticas de cine en español (F.Cruz et al., 2008)

  24. Clasificación de documentos de opinión Thumbs up? Sentiment Classification using Machine Learning Techniques (Pang et al., 2002) • Corpus de críticas de cine extraídas de iMDb • Afrontan el problema como si se tratara de una clasificación basada en topic. • Estudio previo: selección de palabras clave para cada categoría

  25. Clasificación de documentos de opinión Thumbs up? Sentiment Classification using Machine Learning Techniques (Pang et al., 2002) • Aplicación de tres algoritmos de machine learning • Naive Bayes • Maximum Entropy • Support Vector Machines

  26. Clasificación de documentos de opinión Sentiment Classification Using Word Sub-sequences and Dependency Sub-trees (Matsumoto et al., 2005) • Sobre el mismo corpus anterior, se emplean features que capturan la aparición de secuencias frecuentes de palabras y de subárboles de dependencias. • Utilizan SVM • Alcanzan una precisión • de 92.9%

  27. Clasificación de documentos de opinión Seeing stars: Exploiting class relationships for sentiment categorization with respect to rating scales (Pang and Lee,2005) • Rating inference: dado un documento de opinión, determinar si la opinión es positiva o negativa dentro de una escala (p.ej. de 1 a 5) • Tres aproximaciones • Clasificador multiclases • Regresión • Metric labelling SVM Multiclases < Regresión ≈ Metric labelling

  28. Detección de subjetividad Objetivo Subjetivo (opinión) Unidad textual Clasificador

  29. Detección de subjetividad Learning Extraction Patterns for Subjective Expressions (Riloff and Wiebe,2003) • Primero, se utilizanclasificadores con altaprecisión(perobajacobertura) paradetectaroracionesobjetivas y subjetivas. Basados en items léxicos (palabras y n-gramas) recolectados a mano. • A partir de lasoracionesidentificadas, se construyenmedianteaprendizajereglas de extracción de patrones. Se restringe el tipo de patronesque se puedenextraer, medianteplantillassintácticas, e.g., <subj> passive-verb. • Se utilizan los patronesaprendidosparaextraernuevasoracionesobjetivas y subjetivas. El proceso se repite…

  30. Detección de subjetividad Learning Extraction Patterns for Subjective Expres (Riloff and Wiebe,2003) • Algunos patrones extraídos

  31. Extracción de opiniones * *Opcional Detector de features Documento de opinión (Análisis de un producto) Detector de opiniones Clasificador de opiniones Opiniones

  32. Extracción de opiniones Mining Opinion Features in Customer Reviews (Hu and Liu, 2004) • Generación de un “resumen” de las opiniones acerca de un producto extraídas de un conjunto de reviews • Digital_camera_1: • picture quality: • Positive: 253 <individual reviews> • Negative: 6 <individual reviews> • size: • Positive: 134 <individual reviews> • Negative: 10 <individual reviews> • … • Tres problemas • Extracción de features • Extracción de opiniones • Clasificación de las opiniones

  33. Extracción de opiniones Mining Opinion Features in Customer Reviews (Hu and Liu, 2004) • Extracción de features • Se extraen palabras o n-gramas frecuentes • Se eliminan aquellos que: • Si aparece de manera compacta en menos de dos oraciones • Si están contenidos en un feature de más tamaño • Extracción de opiniones • Adjetivos cercanos a los features • Clasificación de las opiniones • Se utiliza WordNet para decidir la orientación semántica de los adjetivos (Miller et al., 1990)

  34. Clasificación de la perspectiva A favor En contra Unidad textual Clasificador

  35. Clasificación de la perspectiva Get out the vote: Determining support or opposition from Congressional floor-debate transcripts (Thomas et al.,2006) • Corpus generado a partir de http://govtrack.us • Transcripciones de debates legislativos, divididos por intervenciones. Cada intervención es etiquetada según la votación posterior del político (apoya o no apoya la ley). • Problema: ante una nueva intervención, decidir si es de apoyo o de rechazo a la ley.

  36. Clasificación de la perspectiva Get out the vote: Determining support or opposition from Congressional floor-debate transcripts (Thomas et al.,2006) • Sistema en dos niveles • Clasificador binario (SVM): decide de forma independiente la probabilidad de que una intervención sea de apoyo o de rechazo. • Detección de acuerdos (SVM): detecta acuerdos o desacuerdos entre dos intervenciones. • Ambos modelos son entrenados sobre un mismo training. • Se utiliza una técnica basada en grafos (minimum cuts) para encontrar las clases de salida óptimas. • Precisión: 71,28%

  37. Otras tareas • Intensidad de las opiniones • Puede verse como una clasificación no binaria de la subjetividad (p.ej. neutral, low, medium, high) • Just how mad are you? Finding strong and weak opinion clauses (Wilson et al., 2004) • Clasificación de emociones • Clasificar unidades textual según la emoción que contienen: anger, disgust, fear, happiness, sadness y suprise (Ekman, 1982) • Emotions from text: machine learning for text-based emotion prediction (Alm et al.,2005) • Detección de humor • Clasificar una unidad textual como humorística o no • Humor: Prosody Analysis and Automatic Recognition • for FRIENDS (Purandare et al., 2006)

  38. Recursos • Corpus • Blog06: colección de entradas de blogs, con opiniones etiquetadas (positive, negative, mixture) • http://ir.dcs.gla.ac.uk/test_collections/access_to_data.html • Congressionalfloor-debate transcripts • http://www.cs.cornell.edu/home/llee/data/convote.html • Cornellmovie-reviewdatasets • Sentimentpolarity • Sentence-levelpolarity • Sentiment-scale • Subjectivitydataset • http://www.cs.cornell.edu/people/pabo/movie-review-data/

  39. Recursos • Corpus • Customerreviewdataset: reviews de cinco productos electrónicos extraídos de Amazon y Cnet, etiquetados con features y opiniones • http://www.cs.ui.edu/~liub/FBS/CustomerReviewData.zip • Corpus Muchocine • http://www.lsi.us.es/~fermin/corpusCine.zip

  40. Recursos • Recursos léxicos • General Inquirer: incluye términos con varios tipos de orientaciones semánticas positivas o negativas, y palabras relacionadas con acuerdo y desacuerdo • http://www.wjh.harvard.edu/~inquirer • OpinionFinder’sSubjectivityLexicon: diccionario de indicadores de subjetividad • http://www.cs.pitt.edu/mpqa/ • SentiWordnet: los synsets de WordNet con puntuaciones que reflejan estádísticasmente cuando expresan opinión positiva/negativa, o cuando son objetivos • http://sentiwordnet.isti.cnr.it/

  41. Recursos • Competiciones • TREC Blog tracks: las sesiones organizadas en 2006, 2007 y 2008 proponen tareas de extracción y clasificación de opiniones de blogs • NTCIR-6: detección de oraciones con opinión y clasificación de las mismas (positivas, negativas o neutrales) • NTCIR-7: añade a la tarea anterior la clasificación de la intensidad de las opiniones (débil, media o fuerte) • Opinionpilot (TAC 08): resumen multidocumentos de opiniones a partir de blogs

  42. Recursos • Para saber más… • OpinionMining and SentimentAnalysis*: survey realizado por BoPang y Lillian Lee de la Universidad de Cornell (2008) Cualquier parecido con los contenidos de esta presentación es pura casualidad ;) *

  43. Gràcies! Fermín Cruz fcruz@us.es

More Related