370 likes | 552 Views
Sexto Seminario Internacional de Archivos Sonoros y Audiovisuales Fonoteca Nacional Mexico 23 al 27 de junio del 2104 La documentación más allá del archivo tradicional; redes sociales, Open Linked Data, contribuciones personales Daniel Teruggi dteruggi@ina.fr.
E N D
Sexto Seminario Internacional de Archivos Sonoros y Audiovisuales Fonoteca Nacional Mexico 23 al 27 de junio del 2104 La documentación más allá del archivo tradicional; redes sociales, Open Linked Data, contribuciones personales Daniel Teruggi dteruggi@ina.fr México, 24 de junio del 2014
Herramientas del ámbito audiovisual • Algunas herramientas de las cuales habrán oído hablar: • Speechtotext • OCR • Segmentación automática • Identificación de rostros • Identificación de imágenes • Pero también: • Publicación multiplataforma • Análisis de contenido • Mejoramiento de los metadatos • … • ¿Y para qué sirven?
El proceso de los archivos, del soporte físico al “transmedia” Documento digital Objeto multimedia Colección digital Material físico Transmedia
La documentación de los archivos audiovisuales: una solución eficaz para reencontrar programas Ficha documentaria en una base de datos Programa 1 program = 1 file Documentación manual
La documentación de los archivos audiovisuales: una solución eficaz para reencontrar programas Ficha documentaria en una base de datos Programa 1 program = 1 file Documentación manual Asistencia tecnológica Sin embargo muchos programas no están documentados y no todo se describe
Qué sucede cuando no hay documentación: Herramientas de extracción de información Cantidades de datos Programa Data <xcc<cxwd sd fqsfq sd ré zedsfg g tr w fgd fg rffd b t grt dfs gdb c xb ertdsfh qersd fg bs db et df wxbcv qs <nuoiyo> dfqs farz fqds ez r wd ezrz w fsqd r’ g df g efd s r f gdsf g fd <div id="outer-container" class="clearfix "> … </div> <script type="text/javascript"> … </script> <div id="footer-container"> … </div> <script type="text/javascript"> … </script> <script type="text/javascript" src="http://www.google-analytics.com/ga.js"></script> <script type="text/javascript"> … </script> <div id="datepicker_div"></div> • Speechtotext • OCR • Segmentación automática • Identificación de rostros • Identificación de imágenes Programa digitalizado
Pero, a través de esa información, pobre por naturaleza, se pueden encontrar programas Data <xcc<cxwdsdfqsfqsdrézedsfg g tr w fgdfgrffd b t grtdfsgdb c xbertdsfhqersdfg bs db et dfwxbcvqs <nuoiyo> dfqsfarzfqdsez r wdezrz w fsqd r’ g df g efd s r f gdsf g fd <div id="outer-container" class="clearfix "> … </div> <script type="text/javascript"> … </script> <div id="footer-container"> … </div> <script type="text/javascript"> … </script> <script type="text/javascript" src="http://www.google-analytics.com/ga.js"></script> <script type="text/javascript"> … </script> <div id="datepicker_div"></div> Programa a Programa b Programa c Programa z… Se puede extraer información y realizar búsquedas a partir de estos datos
Análisis de texto Transcripción del habla (speechtotext) Sp_1 Sp_2 Sp_1 Sp_3 Sp_1 Sp_2 Análisis de locutores Làbas le publicsou - tien-dra lar-ge-ment les AllBlacks Anchor Report Anchor Report Anchor Report Programa de información bla bla bla bla bla bla bla bla bla bla bla bla Title Keywords Summary Title Keywords Summary ? Title Keywords Summary ? ? Title Keywords Summary Notas documentarias <tc_in ; tc_out> ???
Indexación y documentación: Speechto Text Segmentación por locutores Research Department Presentation|juin 24, 2014
Indexación y documentación: Speechto Text Syncronización de transcripciones manuales con las imágenes (300.000 noticieros de France Télévision tienen transcripción para mal-videntes) Research Department Presentation|juin 24, 2014
Identificación de contenidosvisuales Puma Guernica Dexia Puerta de Brandeburgo
Visualización multimedia de datos, Indexation y Data-mining Research Department Presentation|juin 24, 2014
time Detección de repeticiones • La base de datos contiene información de • 12 canales de TV • Casi 4 años • ~400 000 horas de TV • Distintas aplicaciones posibles • Detección de programas • Análisis de programas • Análisis e identificación de programas regionales Canal 1 Canal 2 Canal 3 … Base de fingerprints
« Desambiguación » de nombres de personas Jacques Martin Occupation : TV producer singer presenter Nationality : France BirthDate: 1933 DeathDate: 2007 Jacques Martin Occupation : Bicycle racer BirthDate : 1952 DeathDate : 2004 ? Jacques Martin Occupation : Politician BirthDate : 1933 DeathDate : 2005 Jacques Martin Occupation : Cartoonist Nationality : France BirthDate : 1921 DeathDate : 2010 Jacques Martin Occupation: Lawyer Nationality : France ZKM | October 24th, 2013
? Jacques Martin Occupation : TV producer singer presenter Nationality : France BirthDate: 1933 DeathDate: 2007 Jacques Martin Occupation : Bicycle racer BirthDate : 1952 DeathDate : 2004 Jacques Martin Occupation : Politician BirthDate : 1933 DeathDate : 2005 Jacques Martin Occupation : Cartoonist Nationality : France BirthDate : 1921 DeathDate : 2010 OK Jacques Martin Occupation: Lawyer Nationality : France ZKM | October 24th, 2013
Open Linked Data Conectando informaciones en la Web que normalmente no están conectadas
Análisis Transmedia La televisión y los medias vistos como flujos y no como programas • Análisis de la información de las agencias de noticias, televisión, radio, periódicos, Internet, Twitter… • ¿Quién produce la información? ¿cuál es la fuente original? Cómo se esparce la información a través de los medios? • Utilización del análisis automático de los medios (speechtotext, análisis de imagen) « Immigration » during 2012 elections Imagen de la semana
El paso de la investigación a la aplicación industrial • El resultado de una investigación puede estar muy alejado de una aplicación práctica • Un prototipo no es un sistema operacional • La aplicación a gran escala puede causar muchos problemas • Ciertas aplicaciones pueden generar mucho “ruido” • Otro problema es el costo y la velocidad • Un análisis fino del mercado es indispensable • Pero también: • La industria necesita vender, no solo solucionar problemas • Existen muchos resultados “durmientes” • Las necesidades de los archivos a menudo están mal definidos
USER GENERATED METADATA (UGM) Ejemplos de interacción social entre instituciones e usuarios
User annotation; ¿Cuan útil es? • El intercambio y la contribucíon son los elementos centrales del web social • Los individuos ineractúan con los contenidos • Los individuos interactúan con otros individuos • En muchos casos se genera el sentimiento de utilidad social • Muchos individuos disponen de tiempo y conocimientos
La memoria “recalificada” • Una encuesta sobre las practicas participativas en archivos audiovisuales, realizada en 2012 por el departamento de consultoría y asesoría de Ina EXPERT • Más de 200 organizaciones analizadas en 30 países: • 120 organizaciones patrimoniales (Galerías, Bibliotecas, Centros de archivos, Museos) • 20 plataformas web patrimoniales • 70 sitios web • 20 entrevistas realizadas con directores de proyectos, expertos y académicos • 12 casos concretos
Los diferentes tipos de participación/interacción • Aportar conocimientos para incrementar la comprensión de materiales de archivo (valorización de datos) • Identificar (un lugar, una persona... para completar registros de documentación) • Marcar (añadiendo palabras claves a una imagen para describir o categorizarla) • Aportar conocimientos de expertos/público (mejorando las descripciones) • Transcripción • Situar en un contexto, agregar información
Tipos de participación, según el nivel de implicación de los usuarios Contribuir Transcribir Redocumentar, documentar + Marcar/Etiquetear Identificar Sugerir, proponer Reutilizar Jugar Compartir, votar
Las problemáticas de la recopilación de los UGM o la indización colaborativa • Sin indización y metadatos exhaustivos, los contenidos no tienen valor de uso y por lo tanto no pueden ser disponibles ni utilizados • Solicitar al publico para crear o completar la indización es una manera de acelerar la puesta en línea de archivos • Eliminar o reducir la diferencia semántica entre el vocabulario de los profesionales y el de los usuarios, para satisfacer las necesidades de los usuarios (enfoque «orientado usuario») • Conectar los archivos a otras fuentes externas
El proyecto « Waisda? » • En 2009, el Instituto Holandés de Sonido e Imagen (Beeld En Geluid) ha creado en el marco del proyecto de investigación PrestoPRIME, un juego de etiquetado social para jugadores múltiples llamado « Waisda? » (¿que es esto?) • Fragmentos de emisiones de televisión estaban presentados a los jugadores que debían proponer etiquetas (tags) adaptadas a lo que estaban viendo. Cada juego funcionaba en dúo : los jugadores ganaban puntos cuando sus etiquetas correspondían con los de sus oponentes. Otras maneras de ganar puntos también eran posibles: dando el nombre a una persona, etc.
El principio del juego Debajo de cada secuencia, el jugador puede proponer etiquetas. En la derecha, las etiquetas coincidentes con las del otro jugador reciben una gratificación de 50 puntos o 75 puntos por un nombre de persona La suma de los puntos ganados durante los diferentes partidos se visualiza arriba del contador del ganador Seis meses después del inicio del proyecto, mas de 340 000 etiquetas habían sido colectadas, documentando 604 fragmentos. 150 000 jugadores participaron al proyecto, pasando en promedio 6min45 sobre el juego.
Los objetivos del juego • Los objetivos del juego: generar descripciones más detalladas de programas de televisión con el objetivo de: • Conseguir una mejor correspondencia entre las solicitudes de búsqueda y los resultados • Mejorar la calidad de las etiquetas, estableciendo estrategias de juego • Los medios empleados: estimular la motivación de los jugadores para que jueguen por más tiempo y más frecuentemente • Una interfaz de usuario llamativa • Desarrollar una interface de “post-gaming”, donde los usuarios pueden recibir puntos adicionales mejorando sus etiquetas • Mantener una comunidad activa de marcadores y jugadores
¿Un proyecto útil? • Los beneficios del proyecto: • Enriquecer las palabras claves y facilitar la búsqueda de documentos • Contribuir a reducir el “intervalo semántico”, completando los metadatos profesionales sobre los contenidos audiovisuales • Las enseñanzas: • La utilidad de las etiquetas es variable según el tipo de contenidos (Noticias VS. Tele realidad) • La necesitad de un gran nombre de jugadores para generar un nombre suficiente de etiquetas • Las etiquetas generadas por los usuarios han estado incorporadas al catalogo del Instituto
Ejemplos de indización colaborativa o “social tagging” Herramienta de etiquetaje/ TheNational Archives (UK) Corrección automática de etiquetas - Prototipo de BBC WorldService Radio Archive (UK)
Pedir ayuda / Valoración de datos: El ejemplo de “YourPaintings” • « YourPaintings » es una iniciativa de la Public Catalogue Foundation (PCF), de la BBC y de los museos británicos. El proyecto tiene por objeto promover la colección de las donaciones aportadas por el publico, solamente una pequeña parte de las cuales es mostrada y esta accesible hoy al publico. • Además de una sección de descubrimiento y de acceso a las colecciones, el proyecto estableció un dispositivo de etiquetas para completar los metadatos asociados a las obras. Estas etiquetas se dirigen a todos los públicos pero un trabajo adicional es propuesto a los contribuyentes expertos (etiquetas del corriente artístico de una obra, etc.)
”YourPaintings”: figuras claves • 211 861 obras mostradas • 23 217 obras etiquetadas (es decir un poco mas del 10%) • Una comunidad de 9 602 marcadores • Mas de 4 400 000 etiquetas • Una gran cantidad de resultados pero poco pertinentes : Cerca del 16% de los contribuyentes han etiquetado mas de 50 cuadros y menos del 2% han superado los 500 cuadros (Cifras Junio 2013)
¿Cuales son los beneficios para su organización? • VALORIZAR SU ARCHIVO • Valor social • Valor funcional • Valor emocional • MEJORAR LA APRECIACIÓN DE SU ORGANIZACIÓN • Valor de marca / Reforzar los lazos con su público favoreciendo el dialogo • Promover las competencias de los aficionados • Demostrar la utilidad social • PARTE DE SU MISIÓN DE MEDIACION • Promover la visibilidad de los contenidos, dándoles una nueva vida • Ofreciendo nuevos hilos narrativos
Inconvenientes y beneficios para la documentación La información obtenida es a menudo redundante Fuerte tendencia a nombrar objetos y no a describir situaciones Necesidad de validación de resultados por especialistas antes de integrar los resultados en las bases de datos Cuanto mas precisa es la acción pedida, mas rápidamente se saturan los usuarios Sin embargo Muy útiles para “encontrar” información en bases poco o no documentadas Pueden ser usados para navegar en los contenidos Muchas experimentaciones nuevas aparecen regularmente que permitirán afinar los resultados