880 likes | 1.29k Views
La documentation audiovisuelle à l’heure du numérique. 27 juin 2003. Raphaël Troncy. Institut National de l’Audiovisuel Direction Recherche et Expérimentation Tel : 01-49-80-20-93 E-mail : rtroncy@ina.fr. Objectifs de l’exposé.
E N D
La documentation audiovisuelle à l’heure du numérique 27 juin 2003 Raphaël Troncy Institut National de l’Audiovisuel Direction Recherche et Expérimentation Tel : 01-49-80-20-93 E-mail : rtroncy@ina.fr
Objectifs de l’exposé • Prendre la mesure de l’apport du numérique pour la documentation audiovisuelle (ce que ça change !) • Situer l’apport des nouvelles technologies dans les pratiques concrètes de la documentation • Amorcer une réflexion sur l’évolution du rôle des documentalistes 09/04/2004
Plan de l’exposé • De l’analogique au numérique : de nouvelles possibilités • La création de descriptions de documents audiovisuels : automatique ou manuelle ? • La représentation et la manipulation de ces descriptions : l’apport XML • Et demain … ? 09/04/2004
Un support d’enregistrement Le document AV analogique Dispositif de reconstruction de la lecture • Un support de restitution • Un média hautement temporel 09/04/2004
Le document AV analogique (suite) • Documents temporels : • Regarder 10 min prend 10 min • Pour trouver une information située à la 10ème minute, il faut regarder les 9 premières ⇒ pas d’accès direct à l’information • Pour retrouver une information : • Localiser explicitement le contenu • Caractériser ce contenu ⇒ nécessité d’une description (ou indexation) 09/04/2004
documents index requête utilisateur cassettes projection K7-023 Notice documentaire Doc: n001 Support : K7-023 Auteur Description: ….. Segment montrant une élégante à Paris Support magnétique / photo Support humain Support numérique indexation recherche formulation Utiliser l’AV analogique: regarder, retrouver 09/04/2004
La convergence numérique • Convergence actuelle des industries de contenu AV, de télécommunication et d’informatique • Numérisation de la chaîne de production AV, de la création à la distribution • Nouveaux outils « grand public » pour l’enregistrement, le montage, la manipulation et la visualisation des données AV numériques 09/04/2004
La numérisation : qu’est-ce que c’est ? • Numériser les contenus audiovisuels = les transformer en données informatiques • Offre de nouvelles possibilités : • on peut stocker ces contenus dans des bases de données • on peut les échanger sur des réseaux • on peut automatiser l’accès aux contenus 09/04/2004
Automatisation de l’accès (1) • Exemple: Description de Journal Télévisé en analogique • 00:25:32: TRAv public le long de la route du tour. Famille avec table, tente et enfant. Jeune femme: "Mon mari est un vrai passionné de vélo." • 00:27:14: Buffet campagnard et barbecue : "On s'est réuni tout le village" • 00:29:25: Homme néerlandais attablé au bord de la route, derrière lui une banderole "ALLEE le tour" 09/04/2004
Automatisation de l’accès (2) • Exemple: Description de Journal Télévisé en numérique • Sujet 33 (durée 00:02:23) : TRAv public le long de la route du tour. Famille avec table, tente et enfant. Jeune femme: « Mon mari est un vrai passionné de vélo » Voir le passage • Sujet 34 (durée 00:01:58) : Buffet campagnard et barbecue : « On s'est réuni tout le village » Voir le passage 09/04/2004
De l’analogique au numérique • Situation analogique : • les index ne sont pas exploités par le dispositif de lecture (index et contenu sont sur des supports différents) • ils ne servent qu’à la recherche d’information • impossibilité, en pratique, de naviguer dans un document audiovisuel • Situation numérique : • on assiste à une destruction (uniformisation) du support • le programme de lecture peut utiliser les descriptions des contenus pour proposer différentes exploitations du contenu audiovisuel 09/04/2004
Utiliser l’AV numérique: naviguer documents AV descriptions composer rechercher 09/04/2004 ….
Naviguer grâce aux descriptions descriptions Texteloc = 153 char Imageloc = 12:01 mn 09/04/2004
Structure des magazines Best of Best-of Structure Mag 3 Compile people } people 1er people de chaque people people interview politique } 1er politique de chaque politique politique politique Composer grâce aux descriptions Magazines disponibles Mag 1 Mag 2 { { { 09/04/2004
Chaîne de traitement documentaire dans un contexte massivement analogique Base documentaire Indexation Notices Magasin Archivage des supports Phase amont : alimentation de la base documentaire 09/04/2004
Chaîne de traitement documentaire dans un contexte massivement analogique Base documentaire Traduction Requête Résultat Magasin Exploitation Phase aval: interrogation de la base documentaire 09/04/2004
Interrogation Base documentaire Base documentaire Traitement initial Exploitation Indexations supplémentaires Chaîne documentaire numérique 09/04/2004
De l’indexation à la description • Index : • Pointer vers, montrer où se trouve un contenu • Les index ne servent qu’à la recherche d’information • Description : • Souvent structurée • Les descriptions servent à rendre possible des usages de l’AV (recherche structurée plus fine, composition de nouveaux documents, parcours de navigation …) 09/04/2004
Descriptions : les problèmes clefs • Créer les descriptions • Automatique ? Manuelle ? • Représenter ces descriptions • Quel format documentaire ? • Manipuler ces descriptions • Génie documentaire 09/04/2004
Plan de l’exposé • De l’analogique au numérique : de nouvelles possibilités • La création de descriptions de documents audiovisuels (exemple concret : l’INA) • La représentation et la manipulation de ces descriptions • Et demain … ? 09/04/2004
Créer des descriptions : différents modes d’obtention • Indexation automatique : • Permet le traitement de grands volumes de données • Annotation manuelle : • Permet l’interprétation des éléments abstraits proches de l’usage visé • Environnement de travail : • Permet de concilier la valeur ajoutée de l’annotation aux outils automatiques 09/04/2004
Créer des descriptions : le problème fondamental • Objectif : • Déterminer des descripteurs représentant le contenu • Problème fondamental : • Les documents audiovisuels ne sont pas alphabétiques • Le flux AV ne se construit pas à partir d’unités discrètes dénombrables dont la combinatoire détermine les possibilités de formulation Les descripteurs ne sont pas donnés avec le document, il faut les extraire ou les interpréter 09/04/2004
Indexation automatique • Objectif : • Extraire automatiquement des descripteurs du contenu • Problème : • La détermination d’un descripteur pertinent dépend du contexte d’utilisation du document • Les algorithmes d’extraction restent trop près de la nature physique des documents pour être exploitables • Enjeu : • Mapper les résultats d’analyse sur des descripteurs utiles 09/04/2004
Indexation automatique • Segmentation temporelle : plans, scènes ; • Segmentation spatiale: détection de visage, reconnaissance de visage ; • Transcription automatique de la parole ; • Alignement AV/ transcription ; • Reconnaissances d’incrustation ; • Etc. 09/04/2004
Segmentation de la vidéo • Permet un accès non linéaire à la vidéo • Détection des « cut » • Basée sur le calcul de similarités entre images successives utilisant : • la couleur • le mouvement • les résultats des algorithmes de compression (MPEG) 09/04/2004
Segmentation de la vidéo (suite) • Détection des transitions progressives • Fondus, volets, etc. • Basées sur des modèles statistiques d’occurrence des différents types de transition 09/04/2004
Exemple de segmentation en plan 09/04/2004
Conclusion sur la segmentation de la vidéo • L ’évaluation et la comparaison des résultats nécessite une vérité terrain • Les performances des algorithmes sont « bonnes » pour les « cut » typiquement : • 5% d ’oublis • 15% de fausse détection • Résultats moins bon pour les transitions progressives, particulièrement les fondus 09/04/2004
Reconnaissance d’événements • Caractérisation des plans par : • Détection des visages • Extraction des textes incrustés • Détection des flashs • Permet d’améliorer la segmentation en plan • Indication sur l’apparition d’un personnage important à l’écran 09/04/2004
Détection des visages • Permet de : • Caractériser les plans en gros plan, plan moyen, etc. • Donner des indications pour l’annotation • Algorithmes basés sur : • Des analyses de l’image à différentes résolutions • La couleur • Un modèle de la forme du visage 09/04/2004
Détection des visages (suite) • Reconnaissance des visages : mettre un nom sur le visage • Base de connaissance contenant tous les visages ! • Mise en correspondance probabiliste • Conclusion: • Méthode efficace avec des visages vus de face • 20% d ’oublis • 3% de fausse détection • Algorithmes devant être améliorés en utilisant la redondance d’apparition des visages dans la vidéo 09/04/2004
Exemple de détection de visages 09/04/2004
Extraction de textes • Informations complémentaires dans les J.T., les émissions sportives, etc. • Localisation basée sur l’apparition et la disparition brutale du texte au milieu d’un plan. • Lecture par des techniques d’OCR après séparation du fond 09/04/2004
Exemple de détection de textes 09/04/2004
Analyse du mouvement • Segmentation spatio-temporelle • Identification de régions en translation, rotation, etc. dans l’image • Analyse des mouvements de caméra • Panoramique, zoom, travelling, etc. • Indices de mouvement • Permet de caractériser les plans par la direction et la vitesse du mouvement principal • Création de mosaïque • Résumé du mouvement de la caméra, d’un objet 09/04/2004
Exemple de détection de régions en mouvement 09/04/2004
Exemple de mosaïque (mouvement de caméra) 09/04/2004
Extraction d’images clés • Permet d’obtenir la représentation du contenu d’un plan avec un nombre limité d’images. • Basée sur les changements de couleurs ou de mouvements dominants dans les images d’un même plan. 09/04/2004
Extraction d’images clés (suite) • Exemple de 9 plans résumés par 12 images clés 09/04/2004
Structuration de la vidéo • Environ 1000 plans par heure de vidéo : • Difficile de naviguer rapidement dans 1000 images clés ! nécessité de retrouver (ou définir) une structure moins fine de la vidéo (scène, séquence, unité narrative, etc.) • Permet de retrouver plus facilement des événements importants ou de saisir l’essence du contenu du document 09/04/2004
Structuration de la vidéo (suite) • « Structuration » obtenue en créant : • des résumés de vidéo : montage de différents plans représentatifs, i.e. contenant : • beaucoup de mouvement et de contraste, • fortement colorés, etc. • des classes de plans similaires contraintes par le temps • classification basée sur la colorimétrie • permet par exemple de regrouper les champs, contre-champs. 09/04/2004
Structuration de la vidéo (suite) • « Structuration » obtenue en créant : • des séquences en utilisant un modèle de structure de documents basé sur des règles de montage connues : • transitions (fondus, etc.), • rythme des changement de plan, • musique • ou en utilisant un modèle de la structure du document : • exemple : J.T. composé de séquences plateau et de reportages en alternance 09/04/2004
Analyse de l’Audio • Analyse du son • Segmentation en zones de silence, parole ou musique • Permet de : • caractériser le contexte audio d’un ensemble d’images • détecter des changement de scènes • améliorer les performances de la transcription automatique 09/04/2004
Analyse de l ’Audio (suite) • Analyse de la parole • Techniques éprouvées • basées sur les modèles de Markov cachés et un apprentissage • capable de reconnaître des milliers de mots • Permet : • d’obtenir une transcription avec de bons résultats • de retrouver les mots importants (issus d’un dictionnaire) dans la bande son « word spotting » • de localiser les changements de locuteur 09/04/2004
Segmentation studio telephone studio Détection de locuteur Transcription how are you i’m fine let’s start Analyse de l’Audio (suite) 09/04/2004
Solutions industrielles • MediaSite (Informedia) http://www.mediasite.net/info/fprod.htm 09/04/2004
Indexation automatique • Segmentation temporelle : plans, scènes ; • Segmentation spatiale: détection de visage, reconnaissance de visage ; • Transcription automatique de la parole ; • Alignement AV/ transcription ; • Reconnaissances d’incrustation ; • Etc. 09/04/2004
Banque de DVD-roms Base de données Le contexte numérique à l’INA Captation 24/24, 365j/an 19 chaînes de TV 17 chaînes de Radio Gravure3 DVD/Jour/Chaîne Traitement documentaire Station de Lecture AudioVisuelle grilles de programmes 09/04/2004
Documenter un flux audiovisuel • Le flux capté est découpé en émission • Un traitement différencié : selon le genre AV • Les documents AV peuvent se regrouper en collection si chacun des numéros est diffusable isolément mais partage une thématique et une mise en forme commune • Intérêt : factoriser les connaissances à inclure dans les descriptions ⇒ fabriquer de véritables modèles décrivant une classe de documents 09/04/2004
La description du contenu AV • Un processus en 3 étapes : • identification ou catalogage du document : utilisation de méta-données classiques • localisation d’entités spatio-temporelles pertinentes pour une application donnée : utilisation de dates ou de coordonnées cartésiennes • caractérisation sémantique et symbolique de ces entités : utilisation de listes d’autorités, de thésaurus ou du texte libre 09/04/2004