390 likes | 492 Views
Dilatation et transposition sous contraintes perceptives des signaux audio : application au transfert cinéma-vidéo. Grégory PALLONE gregory@pallone.fr. Objectif de la thèse. Accélération du son AVEC modification de la hauteur tonale et des formants. Cinéma (24 images/s). Vidéo
E N D
Dilatation et transposition sous contraintes perceptives des signaux audio :application au transfert cinéma-vidéo Grégory PALLONE gregory@pallone.fr
Objectif de la thèse Accélération du son AVEC modification de la hauteur tonaleet des formants Cinéma (24 images/s) Vidéo (25 images/s) 20% Accélération du son SANS modification de la hauteur tonale ni des formants Harmoniseur
I. Problématique II. Classification des méthodes III. Innovations algorithmiques IV. Conception de l’HARMO V. Conclusion et résultats
I. Problématique II. Classification des méthodes III. Innovations algorithmiques IV. Conception de l’HARMO V. Conclusion et résultats
I. Problématique • Durée T • Fréquence F • Durée T • Fréquence F/ • Durée T • Fréquence F Transposition-p Dilatation simple Dilatation-p Problématique liée à la hauteur tonale
I. Problématique • Expérience illustrant le rôle des formants • Inhalation d’hélium (chélium > cair) • Modification des formants (altération du timbre) • Conservation hauteur tonale Problématique liée aux formants Définition Zones de résonance du conduit vocal, faisant partie des caractéristiques du timbre des locuteurs. Le traitement d’harmonisation devra compenser l’altération de la hauteur tonale et des formants
I. Problématique Aspect multicanal • Format sonore multi-HP • Dolby Digital 5.1 (Cinéma, DVD) • Spatialisation de scènes sonores • Canaux indépendants • Relations de phases entre canaux Traitement synchronisé entre canaux
I. Problématique Evaluations sonores • Difficultés pour évaluer les algorithmes • Pas d’évaluation automatique • Oreille unique juge de la qualité • Inexistence de banque de sons spécifique • Evaluation des algorithmes • Appréciation personnelle • Tests informels en interne • Tests « grandeur nature » en auditorium
I. Problématique La technologie (non-) disponible • Pas de traitement • Modification de hauteur tonale de 4% • Modification des formants • Traitement par la Lexicon 2400 • Entrées/sorties analogiques (coloration, bruit) • Pas de possibilité de multicanal • Qualité des sons impulsifs peu satisfaisante • Problèmes sur certains sons complexes
I. Problématique Contraintes imposées Délai de réalisation Algorithme Qualitésonore Formatmulticanal Machine Temps-réel Economique Validation sur unebanque de sons-test
I. Problématique II. Classification des méthodes Méthodes temporelles Méthodes fréquentielles III. Innovations algorithmiques IV. Conception de l’HARMO V. Conclusion et résultats
II. Classification - Introduction Méthodes de dilatation-p et transposition-p • Problèmes abordés depuis longtemps (1928), mais résolus ? • Bibliographie : Nombreuses études, chacun sa méthode • Nécessité de réaliser une classification
[French 28], [Freund 35], [Schuller 44], [Lee 72] duplication discontinuité Principe : Dupliquer et insérer des segments de durée constante Avantage: Simplicité Inconvénient: Discontinuité de désynchronisation II. Classification – Méthodes temporelles Méthodes temporelles « aveugles »
redoublement de transitoire Avantage: Haute qualité pour les rapports <20% Inconvénient: Redoublement de transitoire II. Classification – Méthodes temporelles Méthodes temporelles « adaptatives » [Malah 79], [Roucos & Wilgus 85], [Verhelst & Roelands 93], [Hejna 92] duplication Principe : Adapter le segment inséré à une période fondamentale
Compromis sur la durée du segment inséré • Segment trop court : • Discontinuité de désynchronisation sur BF • Segment trop long : • Anisochronie (irrégularité rythmique dans tempo) • Hypothèse sous-jacente • Présence d’une période fondamentale • Discontinuité sur sons inharmoniques II. Classification – Méthodes temporelles Compromis et hypothèses desméthodes temporelles
[Schroeder 66], [Flanagan & Golden 66], [Moorer 78], [Portnoff 81], [Dolson 86], [Depalle 91]… Vocodeur de phase classique =E/L Principe : Espacer les spectres à court terme en modifiant les phases Avantage : Adapté à un contexte musical (taux élevés) Inconvénient : Coloration et réverbération sur sons complexes Etalement des transitoires II. Classification – Méthodes fréquentielles Méthodes fréquentielles « aveugles »
A - Verrouillage de phase ([Puckette 95], [Laroche & Dolson 97]) But: Eviter coloration et réverbération sur des sons complexes Principe: Conservation des phases dans les canaux fréquentiels d’un lobe correspondant à un partiel Représentation temporelle Représentation fréquentielle Fourier Amplitude Amplitude Temps Fréquence II. Classification – Méthodes fréquentielles Méthodes fréquentielles « adaptatives »
II. Classification – Méthodes fréquentielles Méthodes fréquentielles « adaptatives » B - Détection de transitoires But : Eviter étalement des transitoires Principe : 1. Conservation des transitoires par segmentation [Settel 95], [Duxbury 02] 2. Conservation des relations de phase originales hors des pics [Bonada 00]
Compromis temps-fréquence durée de la fenêtre temporelle d’analyse Fenêtre courte Fenêtre longue Résolution temporelle bonne mauvaise Résolution fréquentielle mauvaise bonne Adapté aux BF Adapté aux HF II. Classification – Méthodes fréquentielles Compromis et hypothèses desméthodes fréquentielles • Hypothèse sous-jacente • Présence d’une seule sinusoïde par canal fréquentiel • Pas respectée pour sons complexes • Pas respectée pour sons impulsifs
II. Classification - Récapitulatif Méthodes temporelles Méthodes fréquentielles Avantages • Bons résultats pour des taux élevés • Pas de problème d’anisochronie • Conservation de la forme d’onde • Puissance de calcul modérée • Hypothèse sous-jacente • (présence d’une période fondamentale) • Problème d’anisochronie • Hypothèse sous-jacente (présence d’une seule sinusoïde par canal fréquentiel) • Puissance de calcul élevée Inconvénients • Courts segments insérés • (adapté aux HF, transitoires, évite anisochronie) • Longs segments insérés • (adapté uniquement aux BF) • Courtes fenêtres d’analyse • (adapté uniquement aux transitoires) • Longues fenêtres d’analyse • (adapté aux BF et sons harmoniques) Compromis
II. Classification - Conclusion • Etat de l’art, revisite des méthodes • Relations entre techniques existantes (formalisme commun) • Expérimentation et évaluation de nombreuses méthodes • Aucune des méthodes totalement adaptée au problème • Classification à l’origine d’innovations algorithmiques
I. Problématique II. Classification des méthodes III. Innovations algorithmiques Méthodes couplées Méthode temps-fréquence Méthode HARMO IV. Conception de l’HARMO V. Conclusion et résultats
HF Dilatation par méthodetemporelle Reconstruction Décomposition (Fc=500Hz) Dilatation par méthodefréquentielle Signal dilaté Signal original BF Avantage : Evite anisochronie, discontinuités BF Inconvénient : Problèmes de phase à Fc III. Innovations – Méthodes couplées Combinaison de méthodes temporelles / fréquentielles A - Décomposition en sous-bandes
transitoire Dilatation par méthodetemporelle Reconstruction Décomposition Dilatation par méthodefréquentielle Signal dilaté Signal original résidu Avantage : Evite l’étalement de transitoire Inconvénient : Problèmes de phase à la reconstruction III. Innovations – Méthodes couplées Combinaison de méthodes temporelles / fréquentielles B - Décomposition hybride
f = constant pour f < 500 Hz : bonne résolution fréquentielle pour BF • f/f = constant pour f > 500 Hz : bonne résolution temporelle pour HF Avantage : Améliorations sur - sons complexes - sons transitoires Inconvénient: Qualité insuffisante pour notre application III. Innovations – Méthode temps-fréquence Généralisation de la méthode fréquentielle Analyse fréquentielle adaptée à l’oreille humaine (Bark)
K K I insertion FE 3 paramètres principaux : FE : Durée du fondu-enchaîné I : Décalage du point d’insertion K : Durée du segment inséré III. Innovations – Méthode HARMO Principe de la méthode HARMO Basée sur une méthode temporelle
Courbes depondération K FE III. Innovations – Méthode HARMO Détermination du paramètre FE • Forme du fondu-enchaîné : • Adaptée aux signaux corrélés • Adaptée aux signaux décorrélés • Adaptative • Durée du fondu-enchaîné : Adaptative • K long (segments similaires) FE long • K court (transitoire ou HF) FE court
I III. Innovations – Méthode HARMO Détermination du paramètre I • Utilisation de la détection de transitoires • Amélioration dans certains cas, • mais pas de garantie de succès (échéance d’insertion pas repoussée indéfiniment) • Pour I constant : Nécessité de trouver une solution !
Avantage : Améliorations sur les très basses fréquences Améliorations sur certains sons inharmoniques Inconvénient : Redoublement de transitoire plus audible Anisochronie plus audible III. Innovations – Méthode HARMO Détermination du paramètre K Signaux quasi-stationnaires • Estimation de similarité entre 2 segments successifs • (détection de la période fondamentale) : • Fonction de différence d’amplitude moyenne • Fonctions d’autocorrélation • Fonctions d’autocorrélation normalisée Ajustement des paramètres : Augmentation de K par rapport aux méthodes classiques
Avantages : Redoublement moins audible (masquage temporel) Anisochronie diminuée III. Innovations – Méthode HARMO Détermination du paramètre K Signaux transitoires • 2 critères de stationnarité : • Critère de corrélation (seuillage) • Critère énergétique (détection de transitoire) • Signal considéré stationnaire Insertion d’un segment long • Signal considéré non-stationnaire Insertion d’un segment court
III. Innovations - Conclusion Conclusion • Méthodes couplées & méthodes temps-fréquence • Résultats encourageants • Mais qualité actuellement insuffisante pour l’application • Méthode HARMO • Meilleur compromis, satisfaisant les contraintes • de qualité sonore • temps-réel • multicanal • économiques • Algorithme sélectionné pour implantation sur HARMO
I. Problématique II. Classification des méthodes III. Innovations algorithmiques IV. Conception de l’HARMO Matériel Logiciel V. Conclusion et résultats
Processeurs : 2 DSP : « Analog Device SHARC 21065L », 60MHz • 1 pour l’algorithme • 1 pour l’IHM et la communication entre machines Rééchantillonnage : Composant spécialisé (SRC) : « Crystal CS8420 » Multicanal: Lien physique synchronisant les paramètres SRC Liens DSP Matériel [Deschamps] IV. Conception de l’HARMO
Logiciel [Monteil, Adam, Pallone] IV. Conception de l’HARMO • Codage: • Mémoire interne limitée : • Program Memory (PM) : 36Ko • Data Memory (DM) : 32Ko • Traitement de l’ autocorrélation normalisée « au vol » • Traitement du fondu-enchaîné « au vol » • Optimisation • Mise de données en PM pour la Multiplication-Accumulation • Certaines routines en assembleur (le reste en C) • Multicanal: • 1 machine « maître », les autres « esclave » ou « indépendant » • Création d’un signal de référence (respect des relations de phase) • Liaison entre machines: • Création d’un protocole de communication
I. Problématique II. Classification des méthodes III. Innovations algorithmiques IV. Conception de l’HARMO V. Conclusion et résultats
Des contraintes respectées… V. Conclusion Contrainte de délai de réalisation Algorithme Contraintede qualitésonore Contraintede formatmulticanal Machine Contraintetemps-réel Contrainte économique Validation sur unebanque de sons-test
… et des contributions apportées. V. Conclusion Elaboration d’une banquede sons-test spécifique Algorithme Classification des méthodes Innovations algorithmiques
Films traités par l’HARMO(liste non-exhaustive des films sortis jusqu’en janvier 2002) V. Conclusion
Démonstration temps-réel de l’HARMO V. Conclusion Dilatation-p(+20%) VOIX Suzanne Vega « Tom’s diner » Transposition-p(+20%) Dilatationsimple(+20%) Original Harmonisé Dilatation-p(-20%) MUSIQUE (Voix + accordéon) Jacques Brel « Vesoul » Transposition-p(-20%) Dilatationsimple(-20%) Original Harmonisé