110 likes | 237 Views
Emiliano González, Gonzalo Castillo, Santiago Avendaño. Resúmenes automáticos de opiniones de restaurantes. Objetivos. Construir una aplicación para: Brindar información sintetizada al usuario Brindar la información más relevante
E N D
Emiliano González, Gonzalo Castillo, Santiago Avendaño Resúmenes automáticos de opiniones de restaurantes
Objetivos • Construir una aplicación para: • Brindar información sintetizada al usuario • Brindar la información más relevante • Abarcar todas las características importantes del dominio en cuestión. • La aplicación va a estar centrada en un dominio particular, que son las opiniones sobre restaurantes de la ciudad de Buenos Aires
Módulos Formater Fragmenter • El sistema se compone de módulos • El sistematieneunaarquitectura de tipo pipeline. • A continuación, describiremoscadauno de estosmódulos y lasoperacionesquerealizan. Categorizer Scorer Filter Summarizer
Formater • Establece un formato en comúnparatodos los comentarios, quitando: • mayúsculas • acentos • espaciosdobles • caracteresespeciales • Input: un comentario • Output: el comentarioformateado
Fragmenter • Divide un comentario en variossnippets (fragmentos), en cada: • Punto “.” • Coma “,” • Punto y coma “;” • Dos puntos “:” • Paréntesis “(” y “)” • Signomenos “-” • Signo de interrogación “?” • Input: comentario • Output: fragmentos de comentario
Categorizer • Identifica los fragmentos de comentario en 6 clases(Comida, Servicio, Ambiente, Precio, Dobles, Otros). • UsamosWeka: • Usamosel filtroStringToWordVectorparafiltrar los datos. • Categorizamosmediante un clasificadorIbk, entrandocon 5000 snippets clasificados. • Input:fragmento de comentario • Output:fragmentocategorizado
Scorer • Asigna un puntaje de relevancia a los snippets. • Usamos 6 diccionarios con puntos (positivos y negativos) previamenteasignados: • Adjetivoscalificativos de comida, servicio, ambiente y precio • Negadores (“no” y “nada”) • Intensificadores • Input: snippet + unacategoria • Output:score para el snippet.
Filter • Filtra los snippets similaresdentro de unamismacategoría. • Ademásfiltraaquellos snippets quetengan score CERO. • Input:conjunto de snippets • Output:conjunto de snippets filtrado
Summarizer • Realiza un proceso de selección de aquellos snippets más relevantes dentro de una misma categoría, según distintas estrategias. • Estrategias: • Seleccionar N positivos y M negativos (N y M enteros). • Seleccionar aquellos que tengan los N mayores scores y los M menores. • Seleccionar un % de positivos y un % de negativos. • Seleccionar los N de mayor valor absoluto de score. • Input: conjunto de snippets (con puntaje) • Output: conjunto de snippets
La calidad de la comida es buena. En contraparte de la comida, la atención es altamente deficiente, con mucha demora y poco cordial. El ambiente es muy ruidoso. la calidad de la comida es buena. en contraparte de la comida, la atenciones altamente deficiente, con mucha demora y poco cordial. el ambiente es muy ruidoso. Formater 1: la calidad de la comida es buena 2: en contraparte de la comida 3: la atencion es altamente deficiente 4: con mucha demora y poco cordial 5: el ambiente es muy ruidoso Fragmenter Categorizer 1(Comida): la calidad de la comida es buena 2(Comida): en contraparte de la comida 3(Servicio): la atencion es altamente deficiente 4(Servicio): con mucha demora y poco cordial 5(Ambiente): el ambiente es muy ruidoso Scorer 1(Comida) (8.0): la calidad de la comida es buena 2(Comida) (0.0): en contraparte de la comida 3(Servicio) (-16384.0): la atencion es altamente deficiente 4(Servicio) (-112.0): con mucha demora y poco cordial 5(Ambiente) (-128.0): el ambiente es muy ruidoso Filter Summarizer 1(Comida)(8.0): la calidad de la comida es buena 3(Servicio)(-16384.0): la atencion es altamente deficiente 4(Servicio)(-112.0): con mucha demora y poco cordial 5(Ambiente)(-128.0): el ambiente es muy ruidoso la calidad de la comida es buena la atencion es altamente deficiente el ambiente es muy ruidoso
Trabajo a futuro • Obtener resumenes por restaurantes • Computar snippets de tipo doble • Encontrar sentimientos dentro de la categoriaotros(Ej: “muy recomendado”). • Mejorar la precisión del categorizador • Mejorar el módulo de filtrado de snippets similares. • Mejorar performance