Le traitement des essences vidéo & audio : Du MPEG 1 au MPEG 4

Le traitement des essences vidéo & audio : Du MPEG 1 au MPEG 4 Formation Koan

Le traitement des essences :du MPEG 1 au MPEG 4 • Principes de numérisation : • Quantification, échantillonnage • Le codage source (Compresssion numérique) • Codage de canal • Le système de représentation des couleurs en télévision • L’échantillonnage des images • La compression : spatiale et temporelle • Les algorithmes de compression : DCT, Ondelettes, fractales, … • Les normes ISO de compression numérique des images : JPEG, MPEG 1 – 2 - 4

La normalisation numérique : trois opérations différentes et successives • La quantification :échantillonnage et transformation d’un signal en valeur numérique binaire • le codage de source :représenter de manière compacte les grandeurs quantifiées (compression numérique) • le codage de canal :stocker, transmettre des codes numériques (les systèmes de modulation requis pour les différentes infrastructures de diffusions et de télécommunications : câble, satellite, terrestre, réseaux informatiques, …)

0 1 0 0 1 0 1 0 27 26 25 24 23 22 21 20 128 64 32 16 8 4 2 0 La quantification : transformerune valeur en codage binaire 0 + 64 0 0 + 8 0 + 2 0 Total : 74

0 0 0 0 0 0 0 1 0 + 0 + 0 + 0 + 0 + 0 + 0 + 1 1 1 1 1 1 1 1 0 128 + 64 + 32 + 16 + 8 + 4 + 2 + 0 La quantification sur 8 bits :de 0 à 256 valeurs Valeur minimum : = 001 Valeur maximum : = 256

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 1 1 0 1 0 1 1 1 0 1 1 0 1 1 0 1 1 1 1 0 0 1 = 0 = 1 = 2 = 254 = 255 La quantification sur 8 bits :de 0 à 256 valeurs : Un Bit peut connaître deux états: 0 ou 1. Les Bits en informatique sont généralement placés en série de 8 BITS appelés BYTES ou OCTET. Avec 8 BITS dans un BYTE ou OCTET, on peut différentier 256 valeurs numériques différentes comprises entre 0 et 255.

La quantification sur 9,10,11,12,14 bits : A chaque fois que l’on ajoute un bit supplémentaire, le nombre de combinaisons (et donc de valeurs) double : 9 Bits possèdent 512 états 10 Bits possèdent 1.024 états 11 Bits possèdent 2.048 états 12 Bits possèdent 4.096 états 13 Bits possèdent 8.192 états 14 Bits possèdent 16.384 états 15 Bits possèdent 32.768 états 16 Bits possèdent 65.536 états Pour un nombre supérieur à 2.500, il faut un codage sur au moins 12 bits, pour 50.000, il en faut au moins 16 bits.

Le codage binaire : l’inflation des ressources ! 1 0 1 0 1 1 0 1 128 64 32 16 8 4 2 1 128 + 0 + 32 + 0 + 8 + 4 + 0 + 1 Nombre entier : 173 (3 digit) - codage binaire : 10101101 (8 digit)

La normalisation numérique : trois opérations différentes et successives • La quantification :échantillonnageet transformation d’un signal en valeur numérique binaire • le codage de source :représenter de manière compacte les grandeurs quantifiées (compression numérique) • le codage de canal :stocker, transmettre des codes numériques (les systèmes de modulation requis pour les différentes infrastructures de diffusions et de télécommunications : câble, satellite, terrestre, lignes téléphoniques)

Le Codage de source : la compression numérique des images • Objectif de la compression numérique : réduire le débit en comprimant fortement le poids des images à stocker ou à transmettre • Exploitation de : • Les redondances spatiales: intra image. • Les redondances temporelles: inter images • Les redondances subjectives: vision de détails • Les redondances statistiques: codages entropiques. • But : réduire le débit et conserver autant que possible la qualité des images originales.

La normalisation numérique : trois opérations différentes et successives • La quantification :échantillonnageet transformation d’un signal en valeur numérique binaire • le codage de source :représenter de manière compacte les grandeurs quantifiées (compression numérique) • le codage de canal :stocker, transmettre des codes numériques (les systèmes de modulation requis pour les différentes infrastructures de diffusions et de télécommunications : câble, satellite, terrestre, lignes téléphoniques)

NTSC DVBS : QPSK M P E G 2 / 4 PAL SECAM DVBT : COFDM PAL + DVB-C : QAM D2MAC HDMAC XDSL Le codage de source & le codage de canal Numérique Analogique Source : ISO Canal : DVB

Codage de l’image Codage du son n°1 Codage du son n°... Codage des données Codage source - Codage de canal : Codage de source Codage de canal Modulation Multiplexage pour 1 programme Embrouillage Multiplexage des divers programmes Autres Programmes

La Fréquence d’échantillonnage • Un signal est numérisé par un convertisseur analogique / numérique. • Il est découpé à un rythme régulier ou période. On défini ainsi sa fréquence d’échantillonnage. • La loi de Nyquist détermine que la fréquence d’échantillonnage doit être au moins le double de la plus haute fréquence reproductible. • La fréquence d’échantillonnage est au minimum de 13,5 Mhz, c’est-à-dire au moins deux fois supérieure à la fréquence maximale du signal qui est de 5,5 Mhz. • A chaque période le signal est quantifié et converti en valeurs binaires 0 ou 1.

Le système couleur en télévision :1 pixel = 3 valeurs = R + V + B = Blanc Composants couleur R V - G B

Blue - Bleu Red - Rouge Le système couleur en télévision :RGB – RVB Composants couleur = codage sur 8 bits = 256 niveaux de Rouge = 256 niveaux Vert Green - Vert = 256 niveaux Bleu

Système RVB Composants couleur Rouge Y B - Y Bleu Vert R - Y Le système couleur en télévision :Y = 0,3 R + 0,59 V + 0,11 B

Le système couleur en télévision :1 pixel = 3 valeurs Composants couleur = luminance Y =chrominance B - Y = chrominance R - Y

Avis de l’UIT :CCIR 601Définition d’une image Tv en format 4/3 : 25 images/seconde 720 pixels/ ligne 576 lignes/ Pal ou Secam

Une Image Vidéo numérique Tv SD:6.480 Macro-Blocs 720 pixels/ ligne 8x8 pixels= 1 macro-bloc 576 lignes/ Pal ou Secam

Echantillonnage luminance : Macro- bloc 8 x 8 pixels 132 132 121 132 132 132 142 132 132 133 134 135 132 137 142 140 132 130 133 135 132 135 145 141 123 129 123 135 132 137 142 138 132 130 133 136 132 135 142 140 132 130 133 135 132 135 142 121 21 23 23 21 22 21 21 21 137 137 137 137 137 137 137 137

147 147 147 137 137 137 125 125 125 127 127 127 Y 127 127 127 147 147 147 137 137 137 127 127 127 133 133 133 141 141 141 127 127 127 147 147 147 127 127 127 97 97 97 157 157 157 137 137 137 125 125 125 137 137 137 147 147 147 141 141 141 127 127 127 133 133 133 141 141 141 128 128 128 147 147 147 127 127 127 141 141 141 127 127 127 97 97 97 157 157 157 127 127 127 127 127 127 137 137 137 141 141 141 128 128 128 125 125 125 133 133 133 141 141 141 141 141 141 127 127 127 B - Y 97 97 97 157 157 157 141 141 141 128 128 128 141 141 141 127 127 127 137 137 137 125 125 125 137 137 137 125 125 125 147 147 147 127 127 127 127 127 127 147 147 147 127 127 127 137 137 137 R - Y 133 133 133 141 141 141 97 97 97 157 157 157 141 141 141 128 128 128 141 141 141 127 127 127 Le système couleur en télévision :échantillonnage en 4.4.4 :

Les différents modes d’échantillonnage en Tv numérique : • 4.2.2. : sur un échantillon de 4 pixels : 4 échantillons luminance, mais seulement 2 échantillons chrominance (B et R) tous les deux pixels. C ’est le format D1, Betacam numérique, DVC-Pro 50. • 4.1.1. : sur un échantillon de 4 pixels : 4 échantillons luminance, mais seulement 2 échantillons chrominance (B et R) tous les quatre pixels. C ’est le format DVC-Pro 25. • 4.2.0. : sur un échantillon de 4 pixels : 4 échantillons luminance, mais seulement 2 échantillons chrominance (B ou R) tous les deux pixels. C ’est le format du Dv et Dv-Cam

Echantillonnage chrominance : Macro- bloc 8 x 8 pixels : 4 1 1 42 0 0 0 32 0 0 0 42 0 0 0 39 0 0 0 32 0 0 0 35 0 0 0 23 0 0 0 32 0 0 0 32 0 0 0 32 0 0 0 32 0 0 0 32 0 0 0 21 0 0 0 22 0 0 0 37 0 0 0 37 0 0 0

Echantillonnage chrominance : Macro- bloc 8 x 8 pixels – 4 2 0 32 0 21 0 32 0 42 0 42 0 34 0 32 0 42 0 42 0 33 0 32 0 45 0 53 0 23 0 32 0 42 0 0 42 33 0 32 0 42 0 42 0 33 0 32 0 42 0 21 0 23 0 22 0 21 0 37 0 37 0 37 0 37 0

Compression temporelle = GOP : Group of pictures La compression spatiale vs la compression temporelle:

Les formats de Compression : La DCT (Discrete Cosinus Transform) La DCT est utilisée pour le Jpeg en image fixe et pour le Mpeg-1, Mpeg-2, ou le Mpeg-4. • Division de l’image en Macro Blocs par bloc de 8 x 8 pixels. 2. La DCT opère une transformation du domaine spatial de pixels en domaine d’espace de fréquence. Elle utilise une fonction mathématique basée sur la transformée de Fourier. On aboutit à une matrice dont les différentes valeurs vont directement représenter la quantité de détails dans la portion d’image concernée.

Les formats de Compression : la DCT (Discrete Cosinus Transform) DCT • La quantification est non conservatrice et contrôle le débit. Elle applique des coefficients afin de réduire les écarts de niveaux dans les hautes fréquences où l'œil est moins sensible. Cette réorganisation s’effectue par ordre croissant, les détails les plus fins étant situés en bas et à droite de la matrice, la première valeur en haut à gauche, représentant la valeur moyenne de la matrice.

OrganisationISO - IEC • Joint Technical Committee of Information Technology (JTC 1) - Joint ISO/IEC activities : • SC 29 : Codage audio, image, multimédia et hypermedia : • WG 1 : Joint Photographic Experts Group (JPEG) • WG 11 : Moving Picture Experts Group (MPEG) • WG 12 : Multimédia Hypermedia Experts Group (MHEG)

Les normalisations ISO :JPEG - MPEG Joint Picture Experts Group • Image fixe => JPEG (ISO/IEC IS 10918) Moving Picture Experts Group • Video => MPEG1 (ISO/IEC IS 11172) MPEG2 (ISO/IEC IS 13818) MPEG4 (ISO/IEC 14496)

Codage source : les technologies de compression numériques • Le codage Jpeg (intra image) basé sur la DCT (Discret Cosine Transform) • Le codage Mpeg (inter-image) basé sur la DCT (Discret Cosine Transform), des images de base (codée en intra-image), des images prédites, des intermédiaires, des vecteurs de mouvements, …. • Le codage «ondelettes» - MJPEG 2000 • Le codage «fractale»

Temporal Prédiction Entropy code Décompose Transform Quantifié Fréquence spatiale Complexité du bloc Débit maximum Bitstream Longueur des mots Inversement proportion. à la fréquence d’apparition Discrete Cosine Transform (DCT) 1620 Blocs de 64 pixels I I B B P B B P B B I Intracoded frame P Forward/predicted frame B Bi-directional/interpolated frame Le système de codage MPEG-2 Group of pictures GOP : 12 - 16

Simple Main SNR Spatially High scalable scalable Le système MPEG-2 :4 Levels – 5 Profiles Mb/s HP@HL 100 MP@HL HP@H14L 80 SSP@H14L MP@H14L 60 LEVELS 40 HP@ML 1920x1152x25 High SNRP@ML MP@ML 20 SP@ML 1440x1152x25 High 1440 720x576x25 Main MP@LL SNRP@LL 0 352x288x25 Low PROFILES

La norme MPEG-2 Vidéo :les différents «profile» “Un «profile» est une séquence définie de la syntaxe totale de l’information numérique” 5 profiles : • Simple profile (SP) (faible consommation de mémoire) • Main profile (MP) (grande efficacité de codage) • SNR profile (SNR) = MP + dégradation tolérable • (SPATIAL) = SNR + compatibilité TV/ HDTV • High profile (High) = Spatial + options spéciales

MPEG 2 - Audio L R C Ls Rs LFE ML/Com T0 T1 T2 T3 T4 L R C Ls Rs LFE ML/Com M A T R I X D E M A T R I X M C - D E C O D E R M C - E n c o d e r Basic Stereo M C - E n c o d e r + MC-Extension Information LFE : low frequency enhancement ML/C : multilingual channels

Les différentes normalisations MPEG 4 : Moving Picture Experts Group : Video => MPEG 4 SP Simple profile MPEG 4 ASP Advanced Simple Profile MPEG 4 AVC Advanced Video Coding

GOP : en synchronisation avec les plans (segmentation de l’objet AV MPEG 4 :GPO variable et Macroblocks groupés

MPEG 4: concept numérique ISOMPEG-4 AVC= H.264, MPEG-4 part 10, MPEG4 Encodage numérique descriptif d'objets audiovisuels, des rapports entre ces objets et un contexte : • L'encodage MPEG4 exploite une "boite à outils" générique pour segmenter automatiquement et figurer une vidéo dynamique tout en localisant et en caractérisant les objets de manière compacte et individualisée Exemple de segmentation d'une scène mobile par un encodeur MPEG4: reconnaissance des personnages en mouvement relatif.

MPEG 4: concept numérique ISO Acquisition MPEG 4 L'acquisition exploite un système de maillage automatique produit par l'encodeur lequel découpe et structure les images 2D et 3D La modélisation se fait par la projection d'un maillage 3D composé de polygones dont la finesse est déterminée par la structure du maillage et par une liste plus ou moins importante de nœuds (déterminé à l'acquisition en fonction du flux MPEG4 souhaité en final) A gauche maillage automatique et à droite l'image "reconstruite" avec 3200 nœuds (c'est trop peu!). Dans ce cas 95% des échantillons ont été éliminés..

MPEG 4: concept numérique ISO Exemple d'un traitement MPEG4: segmentation et fusion d'ingrédients • L'encodeur isole le fond et recrée un pano du fond de scène complet (estimation et compensation de mouvement par blocs de 8 ou 16 pixels) • L'encodeur extrait le personnage en mouvement • Le fond est encodé une fois, seules les variations formelles y sont ré-encodées en fonction des besoins. • L'encodeur incruste le joueur en mouvement tenant compte des zones masquées. Les zones non reconnues sont représentés par de la DCT • Le décodeur recrée la scène grâce aux paramètres de la caméra pour le fond et au joueur envoyé dans sa position à chaque image

MPEG 4: cartes de segmentation Objets répertoriés, localisés, temporisés, à échelle variable • Pour chaque objet vidéo et pour chaque séquence l'encodeur crée des répertoires hiérarchiques qui comprennent des couches d'informations successives pour décrire les objets (topologie, mouvement, formes, couleurs, textures, sons associés) • La localisation est spatiale et temporelle selon une grille auto produite. Le maillage s'anime dans l'espace et le temps. La topologie est évolutive selon des cartes de segmentation qui prennent en compte diverses caractéristiques spatio-temporelles des mouvements • Une autre caractéristique est la scalabilité = structuration multi échelle du travail d'analyse et de découpage : • Scalabilité des objets eux-mêmes • Scalabilité spatiale • Scalabilité temporelle • Scalabilité de la représentation • Scalabilité de la distribution (en termes de flux vers l'usager)

MPEG 4: la qualité à la demande Les flux MPEG4 : • Les flux sont variables, progressifs et hiérarchiquement emboités. • Les flux entrants dans les décodeurs usagers sont lus en fonction des caractéristiques des décodeurs- le consommateur pouvant intervenir sur des ingrédients de la composition séquentielle- c'est la qualité à la demande qui permet d'utiliser MPEG4 sur des réseaux diversifiés à capacité ≠ entre 1Mbps (xDSL) et 1000Mbps (HD) Les versions successives MPEG4 sont "survitaminées" l'une par rapport à l'autre. L' "intelligence" des dernières versions s'est déployée dans plusieurs dimensions… .

MPEG 4: concept numérique ISO Les flux MPEG4 • La compression MPEG4 est qualitativement très performante ! • Si on compare la qualité des images d'un match de tennis encodé en MPEG4AVC et MPEG2 sur des machines comparables à 30fps, l'indice PSN est déjà au maximum pour un débit de 1,5Kbps alors que pour la même qualité MPEG2 nécessite un débit de 3000Kbps *! *In Broadcast Engineering, october 2003, by Mario Rainville & Amir Segev (pp 22-27) www.broadcastengineering.com

L'univers MPEG 4: en développement permnanent ! • Amélioration du codage des visuels "naturels" • Animation des corps • Codage en maillage des objets 3D • Améliorations audio • Améliorations systèmes • BIFS avancé* (Binary Format for Scene Description) • Définition d'un format de fichier M4F • Améliorations protocolaires MPEG4 est une norme "en mouvement" régulièrement améliorée, certains développements pouvant être adressés aux décodeurs des usagers par les diffuseurs. *Binary Format for Scene Description (descripteur de la synchronisation dynamique des objets dans une scène encodée/décodée)

MPEG-7 MPEG-4 MPEG-1MPEG-2 Relations entre les différentes normes MPEG 1, 2, 4, et 7 Voix Ordinateur Femme Homme assis ... Extractiond’objets Télévision géométrique basée sur le pixel

Le traitement des essences vidéo & audio : Du MPEG 1 au MPEG 4