1 / 39

Dilatation et transposition sous contraintes perceptives des signaux audio : application au transfert cinéma-vidéo

Dilatation et transposition sous contraintes perceptives des signaux audio : application au transfert cinéma-vidéo. Grégory PALLONE gregory@pallone.fr. Objectif de la thèse. Accélération du son AVEC modification de la hauteur tonale et des formants. Cinéma (24 images/s). Vidéo

yeardley
Download Presentation

Dilatation et transposition sous contraintes perceptives des signaux audio : application au transfert cinéma-vidéo

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Dilatation et transposition sous contraintes perceptives des signaux audio :application au transfert cinéma-vidéo Grégory PALLONE gregory@pallone.fr

  2. Objectif de la thèse Accélération du son AVEC modification de la hauteur tonaleet des formants Cinéma (24 images/s) Vidéo (25 images/s) 20% Accélération du son SANS modification de la hauteur tonale ni des formants Harmoniseur

  3. I. Problématique II. Classification des méthodes III. Innovations algorithmiques IV. Conception de l’HARMO V. Conclusion et résultats

  4. I. Problématique II. Classification des méthodes III. Innovations algorithmiques IV. Conception de l’HARMO V. Conclusion et résultats

  5. I. Problématique • Durée T • Fréquence F • Durée T • Fréquence F/ • Durée  T • Fréquence F Transposition-p Dilatation simple Dilatation-p Problématique liée à la hauteur tonale

  6. I. Problématique • Expérience illustrant le rôle des formants • Inhalation d’hélium (chélium > cair) • Modification des formants (altération du timbre) • Conservation hauteur tonale Problématique liée aux formants Définition Zones de résonance du conduit vocal, faisant partie des caractéristiques du timbre des locuteurs. Le traitement d’harmonisation devra compenser l’altération de la hauteur tonale et des formants

  7. I. Problématique Aspect multicanal • Format sonore multi-HP • Dolby Digital 5.1 (Cinéma, DVD) • Spatialisation de scènes sonores • Canaux indépendants • Relations de phases entre canaux  Traitement synchronisé entre canaux

  8. I. Problématique Evaluations sonores • Difficultés pour évaluer les algorithmes • Pas d’évaluation automatique • Oreille unique juge de la qualité • Inexistence de banque de sons spécifique • Evaluation des algorithmes • Appréciation personnelle • Tests informels en interne • Tests « grandeur nature » en auditorium

  9. I. Problématique La technologie (non-) disponible • Pas de traitement • Modification de hauteur tonale de 4% • Modification des formants • Traitement par la Lexicon 2400 • Entrées/sorties analogiques (coloration, bruit) • Pas de possibilité de multicanal • Qualité des sons impulsifs peu satisfaisante • Problèmes sur certains sons complexes

  10. I. Problématique Contraintes imposées Délai de réalisation Algorithme Qualitésonore Formatmulticanal Machine Temps-réel Economique Validation sur unebanque de sons-test

  11. I. Problématique II. Classification des méthodes Méthodes temporelles Méthodes fréquentielles III. Innovations algorithmiques IV. Conception de l’HARMO V. Conclusion et résultats

  12. II. Classification - Introduction Méthodes de dilatation-p et transposition-p • Problèmes abordés depuis longtemps (1928), mais résolus ? • Bibliographie : Nombreuses études, chacun sa méthode • Nécessité de réaliser une classification

  13. [French 28], [Freund 35], [Schuller 44], [Lee 72] duplication discontinuité Principe : Dupliquer et insérer des segments de durée constante Avantage: Simplicité Inconvénient: Discontinuité de désynchronisation II. Classification – Méthodes temporelles Méthodes temporelles « aveugles »

  14. redoublement de transitoire Avantage: Haute qualité pour les rapports <20% Inconvénient: Redoublement de transitoire II. Classification – Méthodes temporelles Méthodes temporelles «  adaptatives  » [Malah 79], [Roucos & Wilgus 85], [Verhelst & Roelands 93], [Hejna 92] duplication Principe : Adapter le segment inséré à une période fondamentale

  15. Compromis sur la durée du segment inséré • Segment trop court : • Discontinuité de désynchronisation sur BF • Segment trop long : • Anisochronie (irrégularité rythmique dans tempo) • Hypothèse sous-jacente • Présence d’une période fondamentale •  Discontinuité sur sons inharmoniques II. Classification – Méthodes temporelles Compromis et hypothèses desméthodes temporelles

  16. [Schroeder 66], [Flanagan & Golden 66], [Moorer 78], [Portnoff 81], [Dolson 86], [Depalle 91]… Vocodeur de phase classique =E/L Principe : Espacer les spectres à court terme en modifiant les phases Avantage : Adapté à un contexte musical (taux  élevés) Inconvénient : Coloration et réverbération sur sons complexes Etalement des transitoires II. Classification – Méthodes fréquentielles Méthodes fréquentielles « aveugles »

  17. A - Verrouillage de phase ([Puckette 95], [Laroche & Dolson 97]) But: Eviter coloration et réverbération sur des sons complexes Principe: Conservation des phases dans les canaux fréquentiels d’un lobe correspondant à un partiel Représentation temporelle Représentation fréquentielle Fourier Amplitude Amplitude Temps Fréquence II. Classification – Méthodes fréquentielles Méthodes fréquentielles «  adaptatives  »

  18. II. Classification – Méthodes fréquentielles Méthodes fréquentielles «  adaptatives  » B - Détection de transitoires But : Eviter étalement des transitoires Principe : 1. Conservation des transitoires par segmentation [Settel 95], [Duxbury 02] 2. Conservation des relations de phase originales hors des pics [Bonada 00]

  19. Compromis temps-fréquence  durée de la fenêtre temporelle d’analyse Fenêtre courte Fenêtre longue Résolution temporelle bonne mauvaise Résolution fréquentielle mauvaise bonne Adapté aux BF Adapté aux HF II. Classification – Méthodes fréquentielles Compromis et hypothèses desméthodes fréquentielles • Hypothèse sous-jacente • Présence d’une seule sinusoïde par canal fréquentiel • Pas respectée pour sons complexes • Pas respectée pour sons impulsifs

  20. II. Classification - Récapitulatif Méthodes temporelles Méthodes fréquentielles Avantages • Bons résultats pour des taux élevés • Pas de problème d’anisochronie • Conservation de la forme d’onde • Puissance de calcul modérée • Hypothèse sous-jacente • (présence d’une période fondamentale) • Problème d’anisochronie • Hypothèse sous-jacente (présence d’une seule sinusoïde par canal fréquentiel) • Puissance de calcul élevée Inconvénients • Courts segments insérés • (adapté aux HF, transitoires, évite anisochronie) • Longs segments insérés • (adapté uniquement aux BF) • Courtes fenêtres d’analyse • (adapté uniquement aux transitoires) • Longues fenêtres d’analyse • (adapté aux BF et sons harmoniques) Compromis

  21. II. Classification - Conclusion • Etat de l’art, revisite des méthodes • Relations entre techniques existantes (formalisme commun) • Expérimentation et évaluation de nombreuses méthodes • Aucune des méthodes totalement adaptée au problème • Classification à l’origine d’innovations algorithmiques

  22. I. Problématique II. Classification des méthodes III. Innovations algorithmiques Méthodes couplées Méthode temps-fréquence Méthode HARMO IV. Conception de l’HARMO V. Conclusion et résultats

  23. HF Dilatation par méthodetemporelle Reconstruction Décomposition (Fc=500Hz) Dilatation par méthodefréquentielle Signal dilaté Signal original BF Avantage : Evite anisochronie, discontinuités BF Inconvénient : Problèmes de phase à Fc III. Innovations – Méthodes couplées Combinaison de méthodes temporelles / fréquentielles A - Décomposition en sous-bandes

  24. transitoire Dilatation par méthodetemporelle Reconstruction Décomposition Dilatation par méthodefréquentielle Signal dilaté Signal original résidu Avantage : Evite l’étalement de transitoire Inconvénient : Problèmes de phase à la reconstruction III. Innovations – Méthodes couplées Combinaison de méthodes temporelles / fréquentielles B - Décomposition hybride

  25. f = constant pour f < 500 Hz : bonne résolution fréquentielle pour BF • f/f = constant pour f > 500 Hz : bonne résolution temporelle pour HF Avantage : Améliorations sur - sons complexes - sons transitoires Inconvénient: Qualité insuffisante pour notre application III. Innovations – Méthode temps-fréquence Généralisation de la méthode fréquentielle Analyse fréquentielle adaptée à l’oreille humaine (Bark)

  26. K K I insertion FE 3 paramètres principaux : FE : Durée du fondu-enchaîné I : Décalage du point d’insertion K : Durée du segment inséré III. Innovations – Méthode HARMO Principe de la méthode HARMO Basée sur une méthode temporelle

  27. Courbes depondération K FE III. Innovations – Méthode HARMO Détermination du paramètre FE • Forme du fondu-enchaîné : • Adaptée aux signaux corrélés • Adaptée aux signaux décorrélés • Adaptative • Durée du fondu-enchaîné : Adaptative • K long (segments similaires)  FE long • K court (transitoire ou HF)  FE court

  28. I III. Innovations – Méthode HARMO Détermination du paramètre I • Utilisation de la détection de transitoires • Amélioration dans certains cas, • mais pas de garantie de succès (échéance d’insertion pas repoussée indéfiniment) • Pour I constant : Nécessité de trouver une solution !

  29. Avantage : Améliorations sur les très basses fréquences Améliorations sur certains sons inharmoniques Inconvénient : Redoublement de transitoire plus audible Anisochronie plus audible III. Innovations – Méthode HARMO Détermination du paramètre K Signaux quasi-stationnaires • Estimation de similarité entre 2 segments successifs • (détection de la période fondamentale) : • Fonction de différence d’amplitude moyenne • Fonctions d’autocorrélation • Fonctions d’autocorrélation normalisée Ajustement des paramètres : Augmentation de K par rapport aux méthodes classiques

  30. Avantages :  Redoublement moins audible (masquage temporel)  Anisochronie diminuée III. Innovations – Méthode HARMO Détermination du paramètre K Signaux transitoires • 2 critères de stationnarité : • Critère de corrélation (seuillage) • Critère énergétique (détection de transitoire) • Signal considéré stationnaire  Insertion d’un segment long • Signal considéré non-stationnaire  Insertion d’un segment court

  31. III. Innovations - Conclusion Conclusion • Méthodes couplées & méthodes temps-fréquence • Résultats encourageants • Mais qualité actuellement insuffisante pour l’application • Méthode HARMO • Meilleur compromis, satisfaisant les contraintes • de qualité sonore • temps-réel • multicanal • économiques •  Algorithme sélectionné pour implantation sur HARMO

  32. I. Problématique II. Classification des méthodes III. Innovations algorithmiques IV. Conception de l’HARMO Matériel Logiciel V. Conclusion et résultats

  33. Processeurs : 2 DSP : « Analog Device SHARC 21065L », 60MHz • 1 pour l’algorithme • 1 pour l’IHM et la communication entre machines Rééchantillonnage : Composant spécialisé (SRC) : « Crystal CS8420 » Multicanal: Lien physique synchronisant les paramètres SRC Liens DSP Matériel [Deschamps] IV. Conception de l’HARMO

  34. Logiciel [Monteil, Adam, Pallone] IV. Conception de l’HARMO • Codage: • Mémoire interne limitée : • Program Memory (PM) : 36Ko • Data Memory (DM) : 32Ko • Traitement de l’ autocorrélation normalisée « au vol » • Traitement du fondu-enchaîné « au vol » • Optimisation • Mise de données en PM pour la Multiplication-Accumulation • Certaines routines en assembleur (le reste en C) • Multicanal: • 1 machine « maître », les autres « esclave » ou « indépendant » • Création d’un signal de référence (respect des relations de phase) • Liaison entre machines: • Création d’un protocole de communication

  35. I. Problématique II. Classification des méthodes III. Innovations algorithmiques IV. Conception de l’HARMO V. Conclusion et résultats

  36. Des contraintes respectées… V. Conclusion Contrainte de délai de réalisation Algorithme Contraintede qualitésonore Contraintede formatmulticanal Machine Contraintetemps-réel Contrainte économique Validation sur unebanque de sons-test

  37. … et des contributions apportées. V. Conclusion Elaboration d’une banquede sons-test spécifique Algorithme Classification des méthodes Innovations algorithmiques

  38. Films traités par l’HARMO(liste non-exhaustive des films sortis jusqu’en janvier 2002) V. Conclusion

  39. Démonstration temps-réel de l’HARMO V. Conclusion Dilatation-p(+20%) VOIX Suzanne Vega « Tom’s diner » Transposition-p(+20%) Dilatationsimple(+20%) Original Harmonisé Dilatation-p(-20%) MUSIQUE (Voix + accordéon) Jacques Brel « Vesoul » Transposition-p(-20%) Dilatationsimple(-20%) Original Harmonisé

More Related