220 likes | 336 Views
Generación Automática de Resúmenes de Tweets sobre Reputación Empresarial. Motivación. Las empresas necesitan conocer qué se dice de ellas en los medios, para Reaccionar frente a comentarios negativos (alertas) Sacar partido de los comentarios positivos
E N D
Generación Automática de Resúmenes de Tweets sobre Reputación Empresarial
Motivación • Las empresas necesitan conocer qué se dice de ellas en los medios, para • Reaccionar frente a comentarios negativos (alertas) • Sacar partido de los comentarios positivos • Conocer el impacto y alcance de sus campañas publicitarias (Online) Reputation Management
Generación Automática de Resúmenes (GAR) • ¿En qué consiste? • Identificarlasideas másimportantesde uno o variosdocumentos y presentarlas al usuario de forma concisa y útil. • ¿Porquéesnecesaria? • Hacerfrente a la sobrecarga de información • Su origen se remonta a mediados del siglo XX (Luhn, 1958), perosupopularidadaumenta con la generalización de Internet • Tipologías de resúmenes • Indicativosversusinformativos • Mono-documentoversusmulti-documento • Genéricosversusadaptados al usuario • Resumen por extracción versusresumen por abstracción
Generación Automática de Resúmenes La petrolera china CNPC estudia la compra, según un diario de Hong Kong, de la filial argentina de Repsol, YPF, por 12.000 millones de euros. La compañía recordó en la comunicación que lleva meses informando de que pretende incorporar nuevos accionistas al capital de YPF. La petrolera china CNPC estudia la compra, según un diario de Hong Kong, de la filial argentina de Repsol, YPF, por 12.000 millones de euros. Repsol, que controla un 85 por 100 de YPF, reconoció que ha recibido “propuestas de distinta naturaleza y de diferentes compañías” para entrar en el accionariado de YPF, sin que “haya ninguna en firme”. La compañía recordó en la comunicación que lleva meses informando de que pretende incorporar nuevos accionistas al capital de YPF. Extracción La petrolera china CNPC estudia la compra de YPF, por 12.000 millones de euros. Por su parte, Repsol reconoce haber recibido ofertas, así como su deseo de incorporar nuevos accionistas. Original Abstracción
Generación Automática de Resúmenes • Factores de contexto • Entrada:forma, especificidad y multiplicidad de la fuente. • Propósito: situación, audiencia y función. • Salida:extensión, formato y estilo. • Técnicas • Puntuar las oraciones en función de: • las frecuencias de sus términos, • su posición en el documento, • su relación con un determinado tema o consulta de usuario, • su similitud con el título del documento, etc. • Métodos basados en grafos, plantillas, etc.
CASO DE ESTUDIO: Resúmenes de Tweets sobre Reputación Empresarial • Entrada: Conjunto de tweets en los que se menciona a una empresa objetivo • Máximo 140 caracteres • Lenguaje coloquial • Gran cantidad de errores gramaticales y ortográficos • Hashtags, menciones a usuarios, enlaces externos (webs, imágenes, etc.)
CASO DE ESTUDIO: Resúmenes de Tweets sobre Reputación Empresarial • Propósito: • Servir a los analistas/consumidores • como sustituto de los tweets originales • mostrando únicamente la información relevantepara la toma de decisiones • ¿Qué información es relevante cuando se monitoriza la reputación de una empresa? • Diferencias con la generación automática de resúmenes tradicional • Necesidad de métodos específicos
CASO DE ESTUDIO: Resúmenes de Tweets sobre Reputación Empresarial • Salida: • Difiere de los formatos habituales en GAR y se asemeja a un informe • A priori: • Listado de temasordenados por importancia relativa, junto con los tweets más representativos • Listado de los ntweets más negativos y más positivos • Listado de los ntweets más relevantes por dimensión reputacional • Estadísticas, incluyendo: • Número total de tweets con menciones a la empresa • Número de tweets positivos/negativos • Distribución por áreas geográficas • Usuarios influyentes • Etc.
¿Qué Información es Relevante cuando se Monitoriza la Reputación? Contenido del mensaje • La que es potencialmente peligrosa para su imagen • La que ensalza sus productos/comportamiento Difusión del mensaje • La que se difunde con rapidez • La que se propaga globalmente Emisor del mensaje • La emitida por usuarios influyentes
¿Qué Información es Relevante?: Contenido del Mensaje • ¿De qué depende? • De la positividad/negatividad del mensaje • De la subjetividad/objetividad del mensaje • De la prioridad del tema y la dimensiónreputacional
¿Qué Información es Relevante?: Contenido del Mensaje • ¿Qué algoritmos tenemos? • Clasificadores de polaridad (Acc. ≈ 66) • Sistema de detección de temas (F(R,S) ≈ 47) • Ranking de temas por prioridad (F(R,S) ≈ 30) • Colecciones RepLab: • Polaridad – POSITIVO / NEGATIVO / NEUTRAL • Subjetividad –OPINIONADO / NO OPINIONADO • Temas – Ej. HIPOTECAS, COMISIONES, DESAHUCIOS • Prioridad – ALERTA / MEDIA / BAJA • Dimensiones reputacionales – PRODUCTS AND SERVICES / WORKPLACE / GOVERNANCE / CITIZENSHIP / INNOVATION / FINANCIAL / LEADERSHIP
¿Qué Información es Relevante?: Difusión del Mensaje • Tweets diferentes con el mismo mensaje (GAR): • Propagación en Twitter: • Compartición directa del mensaje (retweets) • Retweets modificados (modified tweets) • Respuestas al mensaje (replies)
¿Qué Información es Relevante?: Difusión del Mensaje • ¿Qué algoritmos tenemos? • RetweetsyModifiedRetweets: Información proporcionada por el API de Twitter • Mensajes con mismo significado: • Algoritmos básicos de similitud textual (Jaccard, Dice-Sorensen, solapamiento de jerarquías de conceptos, distancia de edición en grafos) • Textual entailment • Problema: Complejidad computacional
¿Qué Información es Relevante?: Características del Emisor • Reputación del autor • Número de seguidores • Número de tweets publicados • Número de tweets retweeteados • Etc. • Ámbito geográfico • Procedencia del autor • Nacionalidades de sus seguidores • Etc. • Características socio-culturales del autor • Sexo • Grupo de edad • Profesión • Etc.
¿Qué Información es Relevante?: Características del Emisor • ¿Qué tenemos? - RepLab 2013 y 2014 • Número de seguidores (API Twitter) • Perfiles anotados como INFLUYENTE/ NO INFLUYENTE • Perfiles etiquetados con categorías de usuario relevantes para la reputación (Ej. EMPLEADO / ACCIONISTA / INSTITUCIÓN / PRENSA) • Perfiles etiquetados con SEXO/EDAD
¿Qué Información es Relevante?: Recopilación • Un tweet es relevante si … • Su mensaje afecta negativamente a la imagen de la empresa • Su mensaje ensalza las virtudes de la empresa • Trata de un tema de especial importancia para la empresa • Se difunde rápidamente por la red • Alcanza a usuarios de muchos países • Es emitido/retweeteado por un usuario influyente
¿Tienen todos los Criterios de Relevancia la misma Importancia? • ¿Qué peso dar a cada uno de los criterios para obtener un ranking de tweets? • Aprendizaje supervisado • Construcción de una colección de entrenamiento y test • Reglas de experto • Los tweets negativos son más relevantes que los positivos • Los tweets de temas prioritarios son muy relevantes independientemente de su dimensión reputacional • Los tweets que se difunden rápidamente pero sin polaridad no son relevantes
¿Cómo Construir y Presentar el Resumen? • Tenemos un ranking de tweets, cada uno con una puntuación que indica su importancia relativa • Muchos de estos tweets serán redundantes Detección y eliminación de redundancia • Similitud textual • Textual entailment • Presentar al analista únicamente los top N tweets del ranking, clasificados por tema y por dimensión reputacional • Completar la información con estadísticas relevantes
Evaluación • Colección de evaluación • Creación de una colección de evaluación, de forma semi-automática, a partir de las anotaciones del RepLab 2013 • Para un subconjunto de entidades, • restringimos la colección a los tweets de temas con prioridad ALERT • dentro de estos, restringimos la colección a los tweets con polaridad (POSITIVO y NEGATIVO) • y extraemos manualmente los N tweetsmás representativos de cada tema para formar el resumen
Evaluación • Estrategias de evaluación • Etiquetado manual • Polaridad, Temas, Prioridad y Dimensiones • Etiquetado automático • Sistemas presentados en RepLab 2013 y 2014 • Métricas de evaluación • Métricas de evaluación automáticas (ROUGE, Precisión y Cobertura) • Evaluación manual sobre un subconjunto