650 likes | 745 Views
Comprendre la vidéo numérique. Pierre Vernel Décembre 2010. De la prise de vue. Un seul support. A la visualisation. Autrefois. Aujourd’hui…. Une multitude de supports (invisibles !). Plan. Le problème Généralités Prise de vue: caméscope Montage, postproduction: ordinateur
E N D
Comprendrela vidéo numérique Pierre Vernel Décembre 2010
De la prise de vue Un seul support A la visualisation Autrefois
Aujourd’hui… Une multitude de supports (invisibles !)
Plan • Le problème • Généralités • Prise de vue: caméscope • Montage, postproduction: ordinateur • Archivage, diffusion • Conclusions • Questions ?
…00011101110001001111… Suite de bits Film Le problème C’est un problème de codage
sons images sous titres Codec vidéo Codec audio Codec 001101000011 001110000011 001110110011 Conteneur Un film ?
Chaise (FR) Stuhl (DE) Chair (EN) Silla (ES) Sedia (IT) …. langues codecs 11100110011001111100000… 01010101011100000111101… 00110110001110001001111… Codec ? Il existe plusieurs centaines de codecs ! (K-Lite Codec Pack Full)
Format: 35 mm 16 mm 9,5 mm Super 8 8 mm N & B Couleur Un film autrefois • Son • Optique • magnétique • Support • Kodack • Fuji • Agfa • …..
Vidéo numérique • Généralités • Un ensemble de pixels • Gestion de la couleur • Compression • Spatiale • Temporelle (films) • Entrelacée ou progressive • Convergence télévision informatique
constantes Nombre de lignes Nombre de points par lignes Un ensemble de pixels Pixel Luminosité couleurs
Caractérisation d’un pixel • Un pixel peut être • Carré • Rectangulaire • Représenté par un nombre (image en N&B) • De 8bits (256 nuances – le plus fréquemment) • De 10 bits (1024 nuances) • Représenté par 3 nombres (image en couleur) • Intensité du rouge (R) • Intensité du vert (G) • Intensité du bleu (B)
Gestion de la couleur • Origine: télévision couleur • La télévision couleur doit être compatible avec télé N&B • Oeil humain moins sensible à la chrominance qu’à la luminance • Conséquences: • On ne transmet pas l’intensité R, G et B • Mais Y (luminance), U et V • Formules (empiriques) • Y = 0,30R + 0,59G + 0,11B (l’ oeil est plus sensible dans le vert) • U = R - Y • V = B - Y
4:2:0 Le plus souvent 4:4:4 En théorie 4:2:2 En studio Pixel échantillonné Pixel non échantillonné Sous échantillonnage de la chrominance • Conséquences pour l’image numérique: • La chrominance n’est pas systématiquement prise en compte pour chaque pixel !
Conséquences: • Une image N&B peut paraître plus nette qu’une image couleur ! • Une caméra tri-capteur ne donne pas forcément de plus belles couleurs qu’une caméra mono-capteur ! (sauf très haut de gamme)
La compression (1) • Objectif: représenter une image, un son avec un minimum de bits (stockage, transmission) • Deux types de compression: • Sans pertes (lossless): • Exemples: fichiers .zip ou .rar • Avec pertes: en général pour l’image ou le son • Exemple image: .jpg ou .jpeg • Exemple son: .mp3 • Exemple vidéo: .mpg ou .mpeg • En général compression (et décompression) nécessitent des calculs importants
La compression spatiale (image) • On ne parlera que de la compression JPEG, la plus répandue • Terme exact: ISO/IEC IS 10918-1 | ITU-T Recommendation T.81 (1991) • Principe:
Exemple de compression jpeg (1) • Exemples réalisés avec le logiciel JPEG Wizard Taux de compression : 6,7 (appareil photo)
Exemple de compression jpeg (2) Taux de compression : 57,8
Exemple de compression jpeg (3) Taux de compression : 175
Taux de compression : 6,7 Taux de compression :175 Exemple de compression jpeg (4)
La compression temporelle (vidéo) • Principe: dans un film deux images successives diffèrent « assez » peu • La deuxième image n’est pas encodée en totalité • On ne transmet que les différences entre les deux images • Ce principe a ses limites: au bout de quelques images on doit retransmettre la totalité d’une image • On utilise donc la notion de G.OP. (groupe of pictures) • On peut ainsi obtenir une forte compression (avec pertes)
Encode et décodage mpeg Mpeg demande de très nombreux calculs surtout pour l’encodage
I B B B B B P B B B B I B B B B P G.O.P. Constitution d’un G.O.P. • Un G.O.P.: est constitué par 3 types d’images • I(–Frame): image complète, spatialement compressée • P: image interpolée d’après 2 images « I » (celle qui précède et celle qui suit) • B: image estimée (d’après image I ou P qui précède) • Exemple G.O.P. du HDV: 12 images – près d’une demie seconde
Transmission de la DCT ? • L’image n’est pas transmise directement, mais sa transformée DCT • Par groupe de pixels (8X8), on transmet d’abord la valeur moyenne, puis détails de plus en plus fins • A l’émission, il est possible de régler le niveau de détails souhaités • Entre deux images: • Si la transmission est incomplète • Si le décodage est lui aussi incomplet • Une image est néanmoins affichée (moins nette!)
Conséquences: • Un diffuseur peut choisir la qualité de sa transmission • Si espace de stockage insuffisant (DVD), en réduisant la qualité de l’image une gravure reste possible • Diffusion par ADSL (débit fonction de la distance au central): une réception de l’image reste possible • Décodage en réception: • Tous les décodeurs ne se valent pas ! • Différences de qualité entre téléviseurs, lecteurs DVD ou multimédia
Arte HD (TNT) Exemples de débits (mesurés)
En résumé: • Utilisation du logiciel: biglab_dct_1.6.exe • Trouvé sur le site: www.savoirnumerique.com
Cas des panoramiques • Posent de nombreux problèmes: • Si on filme en « entrelacé » : on obtient 2 trames différentes • Si encodage « mpeg » : le principe de base du « mpeg » (peu de différences entre deux images) n’est plus vérifié, car il y a un décalage complet entre deux images • L’encodeur peut « saturer » et l’image obtenue être mauvaise • Dans ces conditions => éviter les panoramiques • Sinon les réaliser (très) lentement
Normes de compression vidéo • Principalement le MPEG • MPEG: Moving Picture Experts Group, est le groupe de travail SC 29/WG 11 du comité technique mixteJTC 1 de l’ISO et de la CEI pour les technologies de l’information. Ce groupe d’experts est chargé du développement de normes internationales pour la compression, la décompression, le traitement et le codage de la vidéo, de l’audio et de leur combinaison, de façon à satisfaire une large gamme d’applications • Principales « normes »: • MPEG 1: ISO/CEI 11172 pour mémoire (1993) • MPEG 2: ISO/IEC 13818 (1995) • MPEG 4: ISO/IEC 14496 (1898) • Chaque norme se décline en de nombreuses recommandations ou directives en fonction des applications. Parfois les industriels utilisent des « quasi-normes » pour ne pas payer de royalties ! • Exemple: pour le MPEG 4, c’est la révision 10 dite aussi AVC pour Advance Video Coding qui est la plus utilisée. Elle est aussi très connue sous le nom deH264 • Autres types de compression: sont souvent « propriétaires », comme par exemple le divx, mais les principes sont semblables
Image entrelacée (I) ou progressive (P) ? • Un souvenir du tube cathodique ! • Image télé (25 im/s)= deux demi-images (50 1/2im/s) • Lignes impaires • Puis lignes paires • L’image est dite entrelacée ou I • Moniteur informatique: toute l’image est affichée en totalité entre deux rafraichissements • Elle est dite progressive ou P
Rappels sur l’image télévision analogique • L’image est reconstituée par un point lumineux (spot) • Le spot balaie l’écran de haut en bas, de gauche à droite • 625 lignes sont analysées et reproduites (Europe) • En fait seules 576 lignes sont visibles • En GB, USA, Japon l’image n’a que 525 lignes dont 480 visibles • En fait l’image est transmise en 2 demie-images • D’abord les lignes impaires(1-265-…) puis paires => trames • 50 trames par seconde • L’image est dite entrelacée (i)
Trame 1 Trame 2 Image finale Image I Image P Problème des images entrelacées
Format DV: 576 lignes de 720 points 4/3 ou 16/9 (forme du pixel change) Format HDV: 1080 lignes de 1440 points Images amorphisme pour 16/9 Image entrelacée Format HD: 720 lignes de 1280 points (USA, Japon) Image « progressive) 1080 lignes de 1920 points (Europe) Image entrelacée Format UHD 2160 lignes de 3840 points Format 4K: (cinéma) 3072 lignes de 4096 points VGA: 480 lignes de 640 points SVGA: 600lignes de 800 points XGA: 768 lignes de 1024 points WXGA: 800 lignes de 1280 points SXGA: 1024 lignes de 1280 points WUXGA: 1200 lignes de 1920 points Et bien, bien d’autres ! Images vidéo et informatique
Le son numérique • Principe: le son est « échantillonné »
Le son numérique (2) • L’échantillonnage se fait: • Avec une précision donnée (12 ou 16 bits) • À une cadence constante: • 44,1 KHz: CD numérique • 48 KHz: DVD • 96 ou 192 KHz: SACD (échec commercial) • Certaines caméras: 32kHz • Plus ces chiffres sont élevés, meilleur sera le rendu sonore
Transmission du son numérique • Transmission de chaque échantillon: • PCM ou fichier .wav • Transmission sans perte (lossles) • Le son peut aussi être compressé: • .mp3 • .wma (propriété de Micrososoft) • .ogg (vorbis) format libre • Le taux de compression peut être variable (souvent de l’ordre de 10)
Combien de canaux ? • Son monophonique: 1 seul canal • Son stéréophonique: 2 canaux droit et gauche • Son 5.1: 6 canaux, nécessite équipement spécial • Avant stéréo • Voie centrale • Arrière stéréo • Voie des basses • AC3: son 5.1 avec compression Dolby (très répandu)
Les conteneurs • Manière d’associer des images, du son, du texte (sous titres) dans un même fichier • Les plus connus: • .avi format propriétaire Microsoft • .mkv (Matroska) format libre • Il en existe beaucoup d’autres !! Le conteneur est souvent responsable d’un décalage entre l’image et le son
Décalage image – son, exemple: • Encodage AVCH de Vegas pro décalage son image après dizaine de minutes • Traitement: ajouter un peu de « noir » après le film et remettre dans le conteneur !!!
A propos des suffixes … • Bonne nouvelle: • Un fichier donné peut avoir n’importe quel suffixe ! • Mauvaise nouvelle: • Le suffixe ne renseigne absolument pas sur la nature du fichier (type de codec par exemple) • Certains logiciels et matériels (DD multimédia) se fondent sur le suffixe pour décider s’ils vont lire ou non un fichier …! • Exemple: fichier.vob (DVD) pas lisible Fichier.vob fichier.mpg Fichier.mpg est devenu « lisible » !!!
Attention ! • Mpg, mp4, etc sont aussi des conteneurs ! • Autrement dit : C’est le b……..
Remarque: PS ou TS ? • Avant d’être encapsulé dans le conteneur, des bits supplémentaires sont ajoutés pour pouvoir: • Détecter d’éventuelles erreurs • Corriger d’éventuelles erreurs • On en rajoute plus ou moins suivant le taux de correction à atteindre • Exemple format « mpeg » • Sur DVD: peu risque erreur -> peu de bits de contrôle -> Program Stream (PS) • Avec TNT plus de risque d’erreurs -> plus de bits de contrôle -> Transport Stream (TS) • Sur une camera: en général transport stream (TS) est utilisé • Des logiciels gratuits permettent de passer de l’un à l’autre, comme HDTVtoMPEG2
Codecs à utiliser de préférence en vidéo Récapitulatif des codecs
Les caméras (1): • Caméra mini DV: • Par défaut format 4/3, 576 lignes de 720 points • Encodage vidéo: « motionjpeg » • Pas de compression temporelle • Encodage spatial: chaque image est compressée (type jpeg), taux de l’ordre de 6 • Encodage son: PCM (sans perte) • taux d ’échantillonnage: 32 khz, 44,1 khz ou 48 kHz • Mono ou stéréo • Enregistrement: • Sur mini cassette DV • débit constant: 25 Mbits/s • Si format 16/9: • Au mieux; pixel rectangulaire • Au pire: diminution du nombre de lignes
Exemple mini DV Général Nom complet : E:\Manu\irlande.avi Format : AVI Format/Info : Audio Video Interleave Format_Commercial_IfAny : DVCPRO Profil du format : OpenDML Taille du fichier : 7,35 Gio Durée : 36mn 32s Débit global moyen : 28,8 Mb/s Vidéo ID : 0 Format : DV Format_Commercial_IfAny : DVCPRO Durée : 36mn 32s Type de débit : Constant Débit : 24,4 Mb/s Largeur : 720 pixels Hauteur : 576 pixels Format à l'écran : 16/9 Type d'images/s : Constant Images par seconde : 25,000 Im/s Norme : PAL Sous-échantillonnage de la chroma : 4:2:0 Profondeur des couleurs : 8 bits Type d'image : Entrelacé Bits/(Pixel*Image) : 2.357 Taille du flux : 7,35 Gio (100%) Paramètres d'encodage : ae mode=full automatic / wb mode=automatic / white balance= / fcm=manual focus Audio #1 ID : 0-0 Format : PCM Type de muxing : DV Type de muxing, plus d'info : Muxed in Video #1 Durée : 36mn 32s Type de débit : Constant Débit : 768 Kbps Canaux : 2 canaux Echantillonnage : 32,0 KHz Profondeur des couleurs : 12 bits Taille du flux : 0,00 Octet (0%)
Les caméras (2): • Caméra HDV: • obligatoirement format 16/9, 1080 lignes de 1920 points, (Europe) image entrelacée (format dit 1080i) • En fait anamorphose de l’image: seuls 1440 points par lignes sont enregistrés • Encodage vidéo: « mpeg2 » • GOP de 12 images (1/2 seconde) • En général format transport stream (TS) • Encodage son: Mpeg2 audio (avec perte) • taux d ’échantillonnage: 48 kHz • Débit audio 384 kbits/s (stéréo) • Enregistrement: • Sur mini cassette DV • débit constant: 25 Mbits/s
Exemple HDV Général ID : FF Nom complet : E:\Noel_Nancy_08\films\Clip 001.m2t Format : MPEG-TS Taille du fichier : 32,9 Mio Durée : 10s 680ms Heure de début : UTC 2008-12-07 17:49:17 Débit global moyen : 25,8 Mb/s Débit global maximum : 33,0 Mb/s Date d'encodage : UTC 2008-12-07 17:49:17 Vidéo ID : 2064 (0x810) ID de menu : 100 (0x64) Format : MPEG Video Version du format : Version 2 Profil du format : Main@High 1440 Paramètres du format, BVOP : Oui Paramètres du format, Matrice : Par défaut Paramètres du format, GOP : M=3, N=12 Durée : 10s 440ms Type de débit : Constant Débit : 25,0 Mb/s Largeur : 1 440 pixels Hauteur : 1 080 pixels Format à l'écran : 16/9 Images par seconde : 25,000 Im/s Norme : Component Espace de couleurs : YUV Sous-échantillonnage de la chroma : 4:2:0 Profondeur des couleurs : 8 bits Type d'image : Entrelacé Ordre des images : Ligne du haut d'abord Bits/(Pixel*Image) : 0.643 Taille du flux : 30,0 Mio (91%) Audio ID : 2068 (0x814) ID de menu : 100 (0x64) Format : MPEG Audio Version du format : Version 1 Profil du format : Layer 2 Durée : 10s 296ms Type de débit : Constant Débit : 384 Kbps Canaux : 2 canaux Echantillonnage : 48,0 KHz Délai par rapport Vidéo : -80ms Taille du flux : 483 Kio (1%)