5’. Extraction d’objets pour le chapitrage des documents audio-visuels numériques

5’. Extraction d’objets pour le chapitrage des documents audio-visuels numériques • Objectifs : extraire les objets des séquences vidéo et indexer le contenu par objets • Après l’extraction : calculer les descripteurs de la forme, de la texture, de la couleur. • Pb. d’extraction est le plus complexe ! • Dans notre cours : uniquement les méthodes dites “coopératives” – basées régions seront proposées.

Sommaire 1. Introduction 2. Construction de la segmentation spatio-temporelle - “objet” 3. Eléments du suivi des segmentations spatio-temporelles 4. Extraction des informations de la composition des scènes

1. Introduction MPEG1, 2 MPEG4,7 VOs Blocs

2. Construction de la segmentation spatio-temporelle - “objet” Modes: - « manuel » - rotoscoping (pratiques de pp. vidéo) - semi-automatique (IRISA, IRCCyN, UPC, I3S, plate-forme OSIAM, plate-forme MoMuSys et al., « blue screenning ») - automatique (IRISA, IRCCyN, UPC, Univ. de Tel- Aviv, Univ. de Hannover …)

Segmentation spatio-temporelle semi - automatique(I) Segmentation spatiale Estimation du mouvement Interaction de l ’utilisateur IRISA/TEMIC

Segmentation spatio-temporelle semi - automatique (II) Segmentation spatiale Estimation du mouvement Fusion basée mouvement Interaction de l ’utilisateur

Approche à l ’interaction minimale Superposition de la segmentation spatiale et la classification des régions Affectation inter-classe si possible Estimation du mouvement et fusion intra-classe

Segmentation spatio-temporelle automatique Pour les scènes génériques la segmentation purement automatique reste un défi! SST MDL (optimisé par rapport au codage) IRISA/TEMIC S. Pateux, C. Labit SST coopérative IRCCyN J. Benois,F. Morier, D. Barba

Segmentation spatio-temporelle automatique(II) IRCCyN/ISA/IVC F.Morier, J. Benois, D. Barba fusion ascendante basée sur les mesures de la qualité de compensation du mouvement IRISA/ Vista P. Bouthemy, M. Gelgon étiquetage stochastique du GAR (Champs de Markov)

Segmentation spatio-temporelle Deux phases : - la segmentation spatiale : approches morphologique, texturelle (markovienne), MDL, pyramides de luminance… - prise en compte du mouvement: estimation paramétrique, fusion

Segmentation couleur morphologique • (1)Calcul du gradientmorphologique sur la luminance (Y) pour obtenir les contours des objets où

Segmentation Watershed modifié • Image comme surface topographique |G(x)| • A chaque région connexe est associée un bassin • A chaque barrière de gradient est associée un barrage x C(x) • Étiquetage des composantes connexes • Watershed modifié dans l’espace • couleur : croissance des régions x

Segmentation spatiale couleur. Approche morphologique « Watershed » Watershed classique sur le gradient Watershed adaptatif sur la luminance

Segmentation spatiale couleur. Watershed Couleur vs. Luminance Couleur Luminance NBR_RégC=NBR_RégL Différence est dans la forme!

Segmentation spatiale couleur. Fusion basée couleur Critère Nombre initial de régions 657 574 539 506 470 444 arrêt 425 398

Segmentation spatiale couleur.Résultats.

Estimation du mouvement Modèles : affines du 1er ordre (6 ou 4 paramètres) Rt<=> q4t=(tx,ty,f,k)T q6t=(a0,b0,a1,b1,a2,b2)T Méthodes d ’estimation : - différentielles (1er, 2nd ordre) - estimation du flot optique + estimation paramétrique au sens des MC

Estimation du mouvement basée région(I) Critère à optimiser : -> min Méthode : descente de gradient gain adaptatif

Estimation du mouvement basée région(II)

Fusion des régions au sens du mouvement(I) Approche basée sur - test des hypothèses statistiques; - mesure de la qualité de compensation du mouvement Test des hypothèses statistiques ( maximum de vraisemblance): H0 : R1, R2 font partie d ’une même région R0 = R1Ú R2 H1: R1, R2 sont des régions distinctes

Fusion des régions au sens du mouvement(2) Expression des hypothèses statistiques - soit l’erreur de compensation du mouvement - soit - variables statistiques indépendantes distribuées selon les lois gaussiennes avec la moyenne nulle et les écart-types H0 : pour chaque point de R0 H1: pour chaque point de R1, pour chaque point de R2

Fusion des régions au sens du mouvement(3) Test de maximum de vraisemblance - soit les fonctions de vraisemblance associées à chacune des hypothèses H0 et H1 alors décision D0 (l’hypothèse H0) est prise décision D1 (l’hypothèse H1) est prise sous l’hypothèse de la distribution connue à chaque point (x,y) d’une région R, la fonction de vraisemblance peut être exprimée comme

Fusion des régions au sens du mouvement(5) Fonctions de vraisemblance : Ici N est le nombre de pixels dans la région R La variance inconnue est estimée à posteriori comme Finalement

Fusion des régions au sens du mouvement(6) Choix du seuil de la décision : - risque à prendre la décision Di Ici est la probabilité à posteriori de l’hypothèse Hj sachant les mesures cij- sont les coûts de la prise de décision Di si l’hypothèse Hj est vérifiée La décision à risque minimal doit être prise

Fusion des régions au sens du mouvement(6) D’après le théorème de Bayes Alors (*) Si cette inégalité est satisfaite alors la décision D0 doit être prise, sinon – D1. Ici P0(P1 respectivement) est la probabilité des de l’hypothèse H0 (H1) respectivement. D’après (*)

Fusion des régions au sens du mouvement(7) Posons c10=c01=1 et c00=c11=0 Par ailleurs Alors pour tout point dans la région R0 La valeur correspond à la solution équiprobable. Si grandit, alors P0 tend vers 1

Fusion des régions au sens du mouvement(8) Mesures de qualité : - basées DFD; - basées DFD normalisée Règle de fusion: et

Fusion hiérarchique des régions au sens du mouvement(9) Cartes de la segmentation emboîtées l=0 - spatiale l=L l=1 ...

3. Eléménts du suivi des segmentations spatio-temporelles Problème : connaissant la segmentation St et le couple des images It, It+1 fabriquer la segmentation St+1 Suivi avec la prédiction en avant St, It, It-1, It+1 Traitement d’occultations Ajustement des bords des régions Projection de la segmentation tt+1 Extraction de l’ordre de la profondeur St+1 Découpage des régions Re-estimation du mvt Fusion des régions

R1 R1 R2 R2 Prédiction des segmentations(I) Prédiction court-terme - prédiction « statique » St+1/t= St t+1 t - prédiction au sens du mouvement St+1/t=F( St,Qt)

R1 R2 ? Prédiction des segmentations(II) Prédiction au sens du mouvement des régions polygonaux - pour tout sommet polygonal P(R) Formation d’une zone d’occultation ? t+1 t+1 t ou

Zones de découvrement Approche : les segmenter dans l’image It+1(ex. croissance des régions) - les représenter par le modèle de luminance/couleur (ex. valeur moyenne) Image d ’origine Image prédite avec la segmentation prédite Après traitement des occultations Les zone de recouvrement – source de connaissance sur la composition des scènes

4. Extraction des informations de la composition des scènes MPEG4:”2D and 3D scenes may be composed and overlapped on the screen using Layer2D and Layer3D nodes ;” Extraction des informations « 2D et 1/2 » : depth from motion - l ’ordre de la profondeur

Extraction des informations de la composition des scènes Principe d’extraction de l’ordre de la profondeur : - l’analyse de la qualité de la compensation du mouvement localement dans des zones d’occultation; - propagation des informations locales de façon optimale globalement R1 R2 ? t+1 t

devant derrière INCONNU Extraction des informations de la composition. Ordre de la profondeur Extraction de la profondeur locale Modeintra-image: - Calcul des EQMs de compensation du mouvement EQMs obtenues dans la zone recouverte « confiance » intra image - Décision avec la classe de rejet  est un seuil

Ordre de la profondeur(II) -Introduction d ’un filtrage temporel de la valeur de confiance - Introduction d ’une règle de décision à hystérésis

Ordre de la profondeur(III) • Profondeur relative dans le couple “Bateau-fond”

... Ordre de la profondeur(IV) Affectation de la profondeur globale : parcours optimal du GAR - GAR est un graphe pondéré : Ri = wij - Construction des chemins optimaux R*{R}-R* (Dijkstra) Rj Parcours optimal vs parcours arbitraire t Affectation basée Dijkstra Affectation basée BFS

Suivi des segmentations spatio-temporelles (II) • Utilisation correcte de la profondeur

Suivi des segmentations spatio-temporelles (III) • Exemple artificiel : la profondeur relative erronée

Suivi des scènes génériques(II)

5’. Extraction d’objets pour le chapitrage des documents audio-visuels numériques