1 / 83

La documentation audiovisuelle à l’heure du numérique

La documentation audiovisuelle à l’heure du numérique. 27 juin 2003. Raphaël Troncy. Institut National de l’Audiovisuel Direction Recherche et Expérimentation Tel : 01-49-80-20-93 E-mail : rtroncy@ina.fr. Objectifs de l’exposé.

emory
Download Presentation

La documentation audiovisuelle à l’heure du numérique

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. La documentation audiovisuelle à l’heure du numérique 27 juin 2003 Raphaël Troncy Institut National de l’Audiovisuel Direction Recherche et Expérimentation Tel : 01-49-80-20-93 E-mail : rtroncy@ina.fr

  2. Objectifs de l’exposé • Prendre la mesure de l’apport du numérique pour la documentation audiovisuelle (ce que ça change !) • Situer l’apport des nouvelles technologies dans les pratiques concrètes de la documentation • Amorcer une réflexion sur l’évolution du rôle des documentalistes 09/04/2004

  3. Plan de l’exposé • De l’analogique au numérique : de nouvelles possibilités • La création de descriptions de documents audiovisuels : automatique ou manuelle ? • La représentation et la manipulation de ces descriptions : l’apport XML • Et demain … ? 09/04/2004

  4. Un support d’enregistrement Le document AV analogique Dispositif de reconstruction de la lecture • Un support de restitution • Un média hautement temporel 09/04/2004

  5. Le document AV analogique (suite) • Documents temporels : • Regarder 10 min prend 10 min • Pour trouver une information située à la 10ème minute, il faut regarder les 9 premières ⇒ pas d’accès direct à l’information • Pour retrouver une information : • Localiser explicitement le contenu • Caractériser ce contenu ⇒ nécessité d’une description (ou indexation) 09/04/2004

  6. documents index requête utilisateur cassettes projection K7-023 Notice documentaire Doc: n001 Support : K7-023 Auteur Description: ….. Segment montrant une élégante à Paris Support magnétique / photo Support humain Support numérique indexation recherche formulation Utiliser l’AV analogique: regarder, retrouver 09/04/2004

  7. La convergence numérique • Convergence actuelle des industries de contenu AV, de télécommunication et d’informatique • Numérisation de la chaîne de production AV, de la création à la distribution • Nouveaux outils « grand public » pour l’enregistrement, le montage, la manipulation et la visualisation des données AV numériques 09/04/2004

  8. La numérisation : qu’est-ce que c’est ? • Numériser les contenus audiovisuels = les transformer en données informatiques • Offre de nouvelles possibilités : • on peut stocker ces contenus dans des bases de données • on peut les échanger sur des réseaux • on peut automatiser l’accès aux contenus 09/04/2004

  9. Automatisation de l’accès (1) • Exemple: Description de Journal Télévisé en analogique • 00:25:32: TRAv public le long de la route du tour. Famille avec table, tente et enfant. Jeune femme: "Mon mari est un vrai passionné de vélo." • 00:27:14: Buffet campagnard et barbecue : "On s'est réuni tout le village" • 00:29:25: Homme néerlandais attablé au bord de la route, derrière lui une banderole "ALLEE le tour" 09/04/2004

  10. Automatisation de l’accès (2) • Exemple: Description de Journal Télévisé en numérique • Sujet 33 (durée 00:02:23) : TRAv public le long de la route du tour. Famille avec table, tente et enfant. Jeune femme: « Mon mari est un vrai passionné de vélo » Voir le passage • Sujet 34 (durée 00:01:58) : Buffet campagnard et barbecue : « On s'est réuni tout le village » Voir le passage 09/04/2004

  11. De l’analogique au numérique • Situation analogique : • les index ne sont pas exploités par le dispositif de lecture (index et contenu sont sur des supports différents) • ils ne servent qu’à la recherche d’information • impossibilité, en pratique, de naviguer dans un document audiovisuel • Situation numérique : • on assiste à une destruction (uniformisation) du support • le programme de lecture peut utiliser les descriptions des contenus pour proposer différentes exploitations du contenu audiovisuel 09/04/2004

  12. Utiliser l’AV numérique: naviguer documents AV descriptions composer rechercher 09/04/2004 ….

  13. Naviguer grâce aux descriptions descriptions Texteloc = 153 char Imageloc = 12:01 mn 09/04/2004

  14. Structure des magazines Best of Best-of Structure Mag 3 Compile people } people 1er people de chaque people people interview politique } 1er politique de chaque politique politique politique Composer grâce aux descriptions Magazines disponibles Mag 1 Mag 2 { { { 09/04/2004

  15. Chaîne de traitement documentaire dans un contexte massivement analogique Base documentaire Indexation Notices Magasin Archivage des supports Phase amont : alimentation de la base documentaire 09/04/2004

  16. Chaîne de traitement documentaire dans un contexte massivement analogique Base documentaire Traduction Requête Résultat Magasin Exploitation Phase aval: interrogation de la base documentaire 09/04/2004

  17. Interrogation Base documentaire Base documentaire Traitement initial Exploitation Indexations supplémentaires Chaîne documentaire numérique 09/04/2004

  18. De l’indexation à la description • Index : • Pointer vers, montrer où se trouve un contenu • Les index ne servent qu’à la recherche d’information • Description : • Souvent structurée • Les descriptions servent à rendre possible des usages de l’AV (recherche structurée plus fine, composition de nouveaux documents, parcours de navigation …) 09/04/2004

  19. Descriptions : les problèmes clefs • Créer les descriptions • Automatique ? Manuelle ? • Représenter ces descriptions • Quel format documentaire ? • Manipuler ces descriptions • Génie documentaire 09/04/2004

  20. Plan de l’exposé • De l’analogique au numérique : de nouvelles possibilités • La création de descriptions de documents audiovisuels (exemple concret : l’INA) • La représentation et la manipulation de ces descriptions • Et demain … ? 09/04/2004

  21. Créer des descriptions : différents modes d’obtention • Indexation automatique : • Permet le traitement de grands volumes de données • Annotation manuelle : • Permet l’interprétation des éléments abstraits proches de l’usage visé • Environnement de travail : • Permet de concilier la valeur ajoutée de l’annotation aux outils automatiques 09/04/2004

  22. Créer des descriptions : le problème fondamental • Objectif : • Déterminer des descripteurs représentant le contenu • Problème fondamental : • Les documents audiovisuels ne sont pas alphabétiques • Le flux AV ne se construit pas à partir d’unités discrètes dénombrables dont la combinatoire détermine les possibilités de formulation Les descripteurs ne sont pas donnés avec le document, il faut les extraire ou les interpréter 09/04/2004

  23. Indexation automatique • Objectif : • Extraire automatiquement des descripteurs du contenu • Problème : • La détermination d’un descripteur pertinent dépend du contexte d’utilisation du document • Les algorithmes d’extraction restent trop près de la nature physique des documents pour être exploitables • Enjeu : • Mapper les résultats d’analyse sur des descripteurs utiles 09/04/2004

  24. Indexation automatique • Segmentation temporelle : plans, scènes ; • Segmentation spatiale: détection de visage, reconnaissance de visage ; • Transcription automatique de la parole ; • Alignement AV/ transcription ; • Reconnaissances d’incrustation ; • Etc. 09/04/2004

  25. Segmentation de la vidéo • Permet un accès non linéaire à la vidéo • Détection des « cut » • Basée sur le calcul de similarités entre images successives utilisant : • la couleur • le mouvement • les résultats des algorithmes de compression (MPEG) 09/04/2004

  26. Segmentation de la vidéo (suite) • Détection des transitions progressives • Fondus, volets, etc. • Basées sur des modèles statistiques d’occurrence des différents types de transition 09/04/2004

  27. Exemple de segmentation en plan 09/04/2004

  28. Conclusion sur la segmentation de la vidéo • L ’évaluation et la comparaison des résultats nécessite une vérité terrain • Les performances des algorithmes sont « bonnes » pour les « cut » typiquement : • 5% d ’oublis • 15% de fausse détection • Résultats moins bon pour les transitions progressives, particulièrement les fondus 09/04/2004

  29. Reconnaissance d’événements • Caractérisation des plans par : • Détection des visages • Extraction des textes incrustés • Détection des flashs • Permet d’améliorer la segmentation en plan • Indication sur l’apparition d’un personnage important à l’écran 09/04/2004

  30. Détection des visages • Permet de : • Caractériser les plans en gros plan, plan moyen, etc. • Donner des indications pour l’annotation • Algorithmes basés sur : • Des analyses de l’image à différentes résolutions • La couleur • Un modèle de la forme du visage 09/04/2004

  31. Détection des visages (suite) • Reconnaissance des visages : mettre un nom sur le visage • Base de connaissance contenant tous les visages ! • Mise en correspondance probabiliste • Conclusion: • Méthode efficace avec des visages vus de face • 20% d ’oublis • 3% de fausse détection • Algorithmes devant être améliorés en utilisant la redondance d’apparition des visages dans la vidéo 09/04/2004

  32. Exemple de détection de visages 09/04/2004

  33. Extraction de textes • Informations complémentaires dans les J.T., les émissions sportives, etc. • Localisation basée sur l’apparition et la disparition brutale du texte au milieu d’un plan. • Lecture par des techniques d’OCR après séparation du fond 09/04/2004

  34. Exemple de détection de textes 09/04/2004

  35. Analyse du mouvement • Segmentation spatio-temporelle • Identification de régions en translation, rotation, etc. dans l’image • Analyse des mouvements de caméra • Panoramique, zoom, travelling, etc. • Indices de mouvement • Permet de caractériser les plans par la direction et la vitesse du mouvement principal • Création de mosaïque • Résumé du mouvement de la caméra, d’un objet 09/04/2004

  36. Exemple de détection de régions en mouvement 09/04/2004

  37. Exemple de mosaïque (mouvement de caméra) 09/04/2004

  38. Extraction d’images clés • Permet d’obtenir la représentation du contenu d’un plan avec un nombre limité d’images. • Basée sur les changements de couleurs ou de mouvements dominants dans les images d’un même plan. 09/04/2004

  39. Extraction d’images clés (suite) • Exemple de 9 plans résumés par 12 images clés 09/04/2004

  40. Structuration de la vidéo • Environ 1000 plans par heure de vidéo : • Difficile de naviguer rapidement dans 1000 images clés ! nécessité de retrouver (ou définir) une structure moins fine de la vidéo (scène, séquence, unité narrative, etc.) • Permet de retrouver plus facilement des événements importants ou de saisir l’essence du contenu du document 09/04/2004

  41. Structuration de la vidéo (suite) • « Structuration » obtenue en créant : • des résumés de vidéo : montage de différents plans représentatifs, i.e. contenant : • beaucoup de mouvement et de contraste, • fortement colorés, etc. • des classes de plans similaires contraintes par le temps • classification basée sur la colorimétrie • permet par exemple de regrouper les champs, contre-champs. 09/04/2004

  42. Structuration de la vidéo (suite) • « Structuration » obtenue en créant : • des séquences en utilisant un modèle de structure de documents basé sur des règles de montage connues : • transitions (fondus, etc.), • rythme des changement de plan, • musique • ou en utilisant un modèle de la structure du document : • exemple : J.T. composé de séquences plateau et de reportages en alternance 09/04/2004

  43. Analyse de l’Audio • Analyse du son • Segmentation en zones de silence, parole ou musique • Permet de : • caractériser le contexte audio d’un ensemble d’images • détecter des changement de scènes • améliorer les performances de la transcription automatique 09/04/2004

  44. Analyse de l ’Audio (suite) • Analyse de la parole • Techniques éprouvées • basées sur les modèles de Markov cachés et un apprentissage • capable de reconnaître des milliers de mots • Permet : • d’obtenir une transcription avec de bons résultats • de retrouver les mots importants (issus d’un dictionnaire) dans la bande son « word spotting » • de localiser les changements de locuteur 09/04/2004

  45. Segmentation studio telephone studio Détection de locuteur Transcription how are you i’m fine let’s start Analyse de l’Audio (suite) 09/04/2004

  46. Solutions industrielles • MediaSite (Informedia) http://www.mediasite.net/info/fprod.htm 09/04/2004

  47. Indexation automatique • Segmentation temporelle : plans, scènes ; • Segmentation spatiale: détection de visage, reconnaissance de visage ; • Transcription automatique de la parole ; • Alignement AV/ transcription ; • Reconnaissances d’incrustation ; • Etc. 09/04/2004

  48. Banque de DVD-roms Base de données Le contexte numérique à l’INA Captation 24/24, 365j/an 19 chaînes de TV 17 chaînes de Radio Gravure3 DVD/Jour/Chaîne Traitement documentaire Station de Lecture AudioVisuelle grilles de programmes 09/04/2004

  49. Documenter un flux audiovisuel • Le flux capté est découpé en émission • Un traitement différencié : selon le genre AV • Les documents AV peuvent se regrouper en collection si chacun des numéros est diffusable isolément mais partage une thématique et une mise en forme commune • Intérêt : factoriser les connaissances à inclure dans les descriptions ⇒ fabriquer de véritables modèles décrivant une classe de documents 09/04/2004

  50. La description du contenu AV • Un processus en 3 étapes : • identification ou catalogage du document : utilisation de méta-données classiques • localisation d’entités spatio-temporelles pertinentes pour une application donnée : utilisation de dates ou de coordonnées cartésiennes • caractérisation sémantique et symbolique de ces entités : utilisation de listes d’autorités, de thésaurus ou du texte libre 09/04/2004

More Related