240 likes | 414 Views
Cómo analizar noticias al segundo. JORGE MARTÍN-LUENGO Director de Factoría Diximedia Digital. PREMISA GENERAL. INTERNET ES UN MEDIO MUCHO MÁS PROFUNDO QUE CUALQUIER OTRO SOPORTE. PESE A LA BONDAD QUE ESTO SUPONE, TAMBIÉN IMPLICA CIERTO DESORDEN .
E N D
Cómo analizar noticias al segundo JORGE MARTÍN-LUENGODirector de Factoría Diximedia Digital
PREMISA GENERAL INTERNET ES UN MEDIO MUCHO MÁS PROFUNDO QUE CUALQUIER OTRO SOPORTE. PESE A LA BONDAD QUE ESTO SUPONE, TAMBIÉN IMPLICA CIERTO DESORDEN. DESDE EL COMIENZO DE LA RED, EXISTEN IMPORTANTES ACTORES EN LA RECOPILACIÓN, TRATAMIENTO Y ORDENACIÓN DE LA INFORMACIÓN: ROBOTS
Robots, nuestros aliados tecnológicos MÁS ALLÁ DE LA ACTUALIZACIÓN DE DATOS, LAS MÁQUINAS VAN APRENDIENDO A SER MÁS INTELIGENTES Y PUEDEN DESARROLLAR LABORES BÁSICAS, PERO MASIVAS, DE RECOPILACIÓN Y ESTRUCTURACIÓN DE INFORMACIÓN.
Sobreabundancia de información Por mucha atención y fuentes que manejen los seres humanos, es muy difícil estar al tanto de todo lo que existe en la Red, de lo que pasa, de lo que se lee o interesa y de aquello que no. En décimas de segundo, las máquinas pueden ver y procesar alertas, tendencias y modas, al tiempo que analizan lo que otras máquinas, periodistas o lectores están haciendo con la información: aquella que destacan, guardan o comentan.
J. CHENERY, Business Development Manager at Thomson Reuters “Utilizar ese tipo de información y tecnología nos permitirá que los periodistas dediquen más tiempo al desarrollo de exclusivas o a escribir más información“. “ ”
LAINFORMACION.COMun hipermedio y un monitor semántico de información en tiempo real
Qué es lainformacion.com Un medio de calidad lainformacion.com pretende ser un medio de calidad, riguroso, innovador e independiente. Abogamos por la producción de contenido propio y las nuevas narrativas, con el vídeo y la infografía animada como elementos claves. Para ello, contamos con una importante redacción propia y con automatismos que permiten “liberar” a la redacción de tareas rutinarias. Un buscador semántico Además de generar contenido propio de calidad, hay una parte de nuestro medio en la que no somos un destino final sino un buscador. Se analizan en tiempo real más de 1.800 fuentes en español para localizar, catalogar y ordenar las noticias a medida que se vayan generando. ¿Cómo lo hacemos? Mediante novedosas y revolucionarias técnicas de web semántica, que “leen” y “traducen” los datos de los sites y hacen la información comprensible para las máquinas. Estas la procesan y ordenan intentando hacerla más accesible y fácil de encontrar para los lectores.
Objetivos • Cubrir el mayor ámbito informativo posible • Ofrecer la mejor información en el menor tiempo • Responder a la demanda informativa de lectores con distintos intereses.
lainformacion.comLa apuesta de lainformacion.com viene del cruce de contenidos generados por parte de máquinas, periodistas y usuarios. Este triángulo ayuda a conceptualizar nuestro web. El primer vértice de nuestro triángulo es el de la información generada, recopilada y jerarquizada por robots, los realmente nativos y puros representantes del territorio digital.
Cómo funciona • 1.- Monitorización en tiempo real • 2.- Extracción de entidades • 3.- Clasificación temática • 4.- Geoposicionamiento • 5.- Agrupación de noticias • 6.- Mejora continua de la calidad
1.- Monitorización en tiempo real • En lainformacion.com se analizan más de 20.000 noticias diarias procedentes de distintas fuentes: propias, agencias, medios de comunicación, administraciones públicas, organismos… • En tiempo real se cataloga y ordena cada noticia a medida que se va generando. • ¿Cómo lo hacemos? • Con la ayuda de DAEDALUS mediante técnicas lingüísticas para el procesamiento automático y avanzado de noticias, que “leen” y “traducen” los datos y hacen la información comprensible para las máquinas.
2.- Extracción de entidades • Etiquetado semántico de noticias • Con la ayuda de DAEDALUS hemos desarrollado un sistema que extrae automáticamente entidades de los textos de las noticias buscando aproximaciones sobre un conjunto de diccionarios. • Es una herramienta que interpreta semánticamente y es capaz de detectar y clasificar empresas, organismos y personajes. Interpreta sinónimos, contextualiza, encuentra relaciones entre las entidades, etc… • Se basa en técnicas de reconocimiento de entidades y se realiza entiempo real a medida que las noticias se van generando.
Portadas por entidades Con estas técnicas analizamos la información de modo inteligente y la agrupamos en torno portadas de personajes, organismos, empresas, grupos….
2.- Extracción de entidades • La dificultad de la detección estriba en que dichas entidades pueden aparecer en diferentes formas, por ejemplo: • * López, Julián (El July) • * Windsor, Enrique (Enrique de Inglaterra, príncipe Enrique) • * Banco Santander Central Hispano (BSCH) • También pueden surgir problemas de ambigüedad para su clasificación, ya sea entre diferentes categorías o incluso dentro de la misma categoría: • * Madrid (ciudad, equipo de fútbol, apellido…) • * Alonso (Fernando Alonso, José Antonio Alonso) • La solución está basada en patrones, sinónimos y en reconocimiento contextual de los tipos de entidades (Empresas, Organismos o personajes)
3.- Clasificación automática de noticias • En lainformacion.com realizamos una clasificación automática de noticias por área temática, aplicando la taxonomía de la IPTC (International Press Telecommunications Council). • Esto permite que lainformacion.com tenga no una, sino hasta 975 portadas de temáticas diferentes. • Con ello podemos responder mejor a la demanda informativa de lectores con distintos intereses (Literatura, Fútbol, Educación, Medio ambiente…) • En un futuro será la base de proyectos de personalización, alertas…
4.- Geoposicionamiento • Cada noticia se geolocaliza automáticamente y en tiempo real asociándose a cada término geográfico que aparece en el texto. Se realiza un reconocimiento contextual de los lugares que aparecen en el texto. En total contamos con cerca de 45.000 localidades.
100.000 portadas 970 temas 25.000 personajes 45.000 lugares 30.000 empresas y organismos
5.- Agrupación de noticias • Clustering • Las noticias se agrupan mediante la técnica de ‘clustering’ con 3 objetivos: • Relacionar noticias sobre el mismo tema • Detectar noticias duplicadas procedentes de fuentes diferentes • Mostrar “otras perspectivas de la noticia”
Y todo en tiempo real • Rendimiento • Etiquetado automático (con 100.000 entidades):Tiempo de respuesta inferior a 4 ms/noticia • Clasificación automática (sobre IPTC-2008):Tiempo de respuesta inferior a 100 ms/noticia • Agrupamiento (dependiente del número de noticias y de clusters)Tiempo de respuesta inferior a 5 ms/noticia • [Sobre Intel Xeon E5410 a 2.33GHz, 64bits, 16GB RAM]
6.- Mejora continua • Servicio de mejora diaria de la calidad • Muestreo sistemático de los resultados de los procesos de extracción de entidades y de clasificación conforme a criterios de relevancia y visibilidad • Mejora del sistema de clasificación • Actualización de la base de datos de entidades • Mejora del sistema de reconocimiento de entidades