Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας

Ομάδα Όρασης Υπολογιστών, Επικοινωνίας Λόγου και Επεξεργασίας Σήματος Εθνικό Μετσόβιο Πολυτεχνείο – Σχολή Ηλεκτρολόγων Μηχαν. και Μηχαν. Υπολ. http://cvsp.cs.ntua.gr Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας Γιώργος Παπανδρέου Συνεργασία με Α. Κατσαμάνη, Β. Πιτσικάλη και Π. Μαραγκό

Ομάδα CVSP -- ΕΜΠ Μέλη Καθ. Πέτρος Μαραγκός (επικεφαλής) 3 Μεταδιδακτορικοί Ερευνητές 7 Υποψ. Διδάκτορες + 2-5 Διπλ. Φοιτητές + συνεργασία με ελληνικές και ξένες ερευνητικές ομάδες Περιοχές έρευνας Ανάλυση εικόνας και όραση υπολογιστών Μη γραμμικά γεωμ. μοντέλα: μαθημ. μορφολογία, μερικές διαφ. εξισώσεις Ανάλυση και επεξεργασία εικόνων σε πολλαπλές κλίμακες Κατάτμηση, παρακολούθηση και αναγνώριση αντικειμένων Επεξεργασία ήχου και φωνής Εύρωστη αναγνώριση φωνής Ανάλυση ακουστικών σημάτων με μοντέλα διαμόρφωσης/χαοτικά μοντέλα Μοντελοποίηση συστήματος παραγωγής φωνής (ακουστικά μοντέλα) Πολυτροπική ανάλυση σημάτων Οπτική-ακουστική ανάλυση & αντιστροφή φωνής Ανάλυση/περίληψη βίντεο Αναγνώριση νοηματικής γλώσσας Συμμετοχή σε Ευρωπαϊκά & Ελληνικά ερευνητικά προγράμματα Ιστοσελίδα: http://cvsp.cs.ntua.gr

one two Ήχος three four six five Εικόνα Αναγνώριση Ομιλίας από Ήχο και Εικόνα • Θεμελιώδες φαινόμενο στην πρόσληψη ομιλίας (McGurk & MacDonald) • Βελτίωση της επίδοσης συστημάτων Αυτόματης Αναγνώρισης Ομιλίας (ΑΑΟ) υπό δύσκολες ακουστικές συνθήκες: • Θόρυβος/Παρεμβολές

Οπτική-Ακουστική Ανάκτηση Γεωμετρίας Φωνητικής Οδού Εικόνα Γεωμετρία φωνητικής οδού Ακουστική • Ανάκτηση γεωμετρίας φωνητικής οδού • Μοντέλα σύνθεσης με μίμηση διαδικασίας παραγωγής • Αναγνώριση φωνής με χρήση αναπαραστάσεων άρθρωσης • Φωνητική επιστήμη/φωνολογία • Διδασκαλία ξένης γλώσσας, αντιμετώπιση προβλημάτων άρθρωσης

ακουστική προβολή οπτική προβολή Ομιλία: Πολύπλευρο φαινόμενο

Από ακουστικές σε αρθρωτικές αναπαραστάσεις • Ομιλία ως ακουστικό σήμα • Ακουστική αναπαράσταση • Ομιλία ως οπτικό-ακουστικό σήμα • Αρθρωτική αναπαράσταση • Επιτυχία σε συστήματα αναγνώρισης ομιλίας (King et al., Deng) • Φωνολογικές θεωρίες: • Αρθρωτικά Nεύματα (Articulatory Gestures, Browman & Goldstein)

Μια εντέλει αρκετά παλιά ιδέα... (Α.Μ. Bell, 1867)

Αναγνώριση Ομιλίας από Ακουστική και Οπτική Πληροφορία G. Papandreou, A. Katsamanis, V. Pitsikalis, and P. Maragos, “Adaptive Multimodal Fusion by Uncertainty Compensation with Application to Audio-Visual Speech Recognition”, IEEE Trans. ASLP, 2009

one two Ήχος three four six five Εικόνα Αναγνώριση Ομιλίας από Ήχο και Εικόνα Κύρια σημεία: • Εξαγωγή οπτικών χαρακτηριστικών από το πρόσωπο ομιλητή • Σύμμειξη οπτικής και ακουστικής πληροφορίας • Μοντελοποίηση χαλαρού συγχρονισμού ακουστικού & οπτικού καναλιού

σχήμα υφή μέσο διάνυσμα 1ο ιδιο-διάνυσμα 2ο ιδιο-διάνυσμα Εξαγωγή Οπτικής Πληροφορίας • Τόσο το σχήμα όσο και η υφή του προσώπου επιβοηθούν το διάβασμα των χειλιών • Μοντελοποίηση προσώπου με Ενεργά Μοντέλα Όψης (ΕΜΟ) • Σχήμα και υφή αναλύονται σε χαμηλοδιάστατους υποχώρους • Οπτικά χαρακτηριστικά: Παράμετροι του ΕΜΟ • Εκτιμάται και η αβεβαιότητα ως προς τις τιμές των χαρακτηριστικών

Εξαγωγή Οπτικής Πληροφορίας • Μηχανισμός για μείωση της επίδρασης της ταυτότητας του ομιλητή: δυνατότητα αναγνώρισης πολλαπλών ομιλητών • Επικέντρωση του παραθύρου ανάλυσης γύρω από το στόμα • Ταχείς αλγόριθμοι για ανάλυση σε πραγματικό χρόνο

one two three four six five Σύστημα πραγματικού χρόνου για οπτική-ακουστική αναγν. ομιλίας System Overview Face detector Adaboost-based, @5 fps Image Acquisition Firewire color camera, 640x480 @25 fps (Re)initialization Face tracking & feature extraction Real-time AAM fitting algorithms GPU-accelerated processing OpenGL implementation HMM-based backend Transcription

Σύμμειξη Πολυτροπικής Πληροφορίας: Γιατί είναι σημαντική; • Πολλαπλές αισθητήριες πηγές παρέχουν συμπληρωματική πληροφορία • Ετερόκλητες πηγές πληροφορίας επηρεάζονται διαφορετικά από θόρυβο • Σημαντικές εφαρμογές(π.χ. βιομετρικά συστήματα) • Η ανθρώπινη αντίληψη εκμεταλλεύεται ετερόκλητα αισθητήρια ερεθίσματα με μεγάλη επιτυχία

Σύμμειξη πληροφορίας σε αντιληπτικές διεργασίες • Πολυαισθητηριακή περίπτωση • Ήχος, εικόνα, αφή, ... • Διαφορετικές όψεις εντός της ίδιας αίσθησης • Οπτική εκτίμηση βάθους: στέρεο, υφή, σκίαση • Μπεϋζιανό στατιστικό πλαίσιο (Knill & Richards) • Ενδείξεις και από ψυχολογικά πειράματα (π.χ. Ernst et al.) • Διαφορετικά επίπεδα σύμμειξης • Πρώιμη/ενδιάμεση/όψιμη σύμμειξη Maragos et al., “Cross-Modal Integration”, Springer 2008

Σύμμειξη Πολυτροπικής Πληροφορίας: Η προσέγγισή μας • Αρχή: “Μπορούμε να μετρήσουμε χαρακτηριστικά αναγνώρισης με πεπερασμένη μόνο ακρίβεια” • Η αβεβαιότητα μέτρησης παίζει σημαντικό ρόλο στο φιλτράρισμα: Φίλτρα Wiener και Kalman • Πώς η αβεβαιότητα μέτρησης χαρακτηριστικών επιδρά στις μεθόδους ταξινόμησης;

Αβεβαιότητα Μέτρησης Χαρακτηριστικών • Συνήθως τροφοδοτούμε τους ταξινομητές με περιγραφές ‘άπειρης’ ακρίβειας • Η προσέγγισή μας: Συνοδεύουμε τα χαρακτηριστικά με το σφάλμα στη μέτρησή τους: SNR= 5dB SNR= 20dB

C C κρυφές φανερές X ανεξ. υπό συνθήκη: X Y Πιθανοτική Μοντελοποίηση Αβεβαιότητας Μέτρησης • Παράδειγμα: Ταξινoμητής με Μείγμα Γκαουσιανών(Gaussian Mixture Model- GMM) • S ανεξάρτητες ροές Συμβατική Άποψη: Άμεσα παρατηρήσιμα χαρακτηριστικά Η Προσέγγισή μας: Μετράμε χαρακτηριστικά αλλοιωμένα από θόρυβο Και τα δύο κρυφά! ύστερη πρότερη κατανομή καθαρών κατανομή θορύβου

C C X X Y GMM Ταξινόμησημε Γκαουσιανό Θόρυβο Μέτρησης συμβατική άποψη χαρακτηριστικά αλλοιωμένα από θόρυβο Μοντέλο θορύβου Γκάους:

GMM Ταξινόμηση – Δύο Πηγές Πληροφορίας • Μετατόπιση ορίου ταξινόμησης με αυξανόμενο θόρυβο μέτρησης • Δύο 1-Δροές (y1και y2), 2 τάξεις

Σχέση με Σύμμειξη Στάθμισης Ροής • Βάρη Ροής: • Πιθανότητα με Αντιστάθμιση Αβεβαιότητας: • PoG Ταυτότητα: • Ενεργό Βάρος Ροής:

C C X X Y EM-Εκπαίδευση με Αβέβαια Χαρακτηριστικά • Τα δεδομένα εκπαίδευσης μπορούν επίσης να είναι αβέβαια Κρυφή Συμβατική άποψη Φανερή Κρυφή Η προσέγγισή μας Φανερή

C4 C3 C1 C2 X3 Y3 Y2 Y1 X4 X2 Y4 X1 C1 C3 C4 C2 X4 X3 X1 X2 Κρυφά Μοντέλα Markov (ΗΜΜ) & Αβεβαιότητα • Χρήση αντισταθμισμένων πιθανοτήτων στους αλγορίθμους Viterbi (αποκωδικοποίηση) καια-β (εκπαίδευση) • Προσαρμογή στο χρόνο (επίπεδο frame) Κρυφές Συμβατική Άποψη Φανερές Κρυφές Η Προσέγγισή μας Φανερές

MFCC θορύβου MFCC καθαρής φωνής Αβεβαιότητα Ακουστικά Χαρακτηριστικά και Αβεβαιότητα • Mel Frequency Cepstral Coefficients (MFCCs): • Pre-emphasis  STFT  | . |  Mel-scale  log( . )  DCT • Καταπίεση θορύβου (e.g. SPLICE, ALGONQUIN) • Μοντελοποίηση αλλοίωσης χαρακτηριστικών MFCC από θόρυβο (VTS) • Εκτίμηση ακουστικών χαρακτηριστικών + αβεβαιότητας Deng, Droppo, Acero, IEEE Tr. SAP, 2005

X1 X2 X3 Υ1 Υ2 Υ3 C1 C2 C3 Μοντελοποίηση Συγχρονισμού Οπτικής-Ακουστικής Πληροφορίας • Εναλλακτική μοντελοποίηση της αλληλεπίδρασης καναλιών: • Asynchronous-HMM, Coupled-HMM, Dynamic Bayesian Networks, … • Τεχνικές για συγχρονισμό στο επίπεδο του σήματος Multistream-ΗΜΜ με απόλυτο συγχρονισμό ανά κατάσταση Product-ΗΜΜ ελεγχόμενη ελευθερία συγχρονισμού ΗΜΜ με συγχρονισμό μόνο στα όρια της λέξης

Ποσοτική αξιολόγηση στη βάση CUAVE

Αναγν. Ομιλίας από Ήχο και Εικόνα: Πειράματα • Χρήση της βάσης CUAVE: • 36 αγγλόφωνοι ομιλητές (30 εκπαίδευση, 6 έλεγχος) • 5 ακολουθίεςαπό 10 συνεχόμενα ψηφία ανά ομιλητή • Σύνολο εκπαίδευσης: 1500 ψηφία (30x5x10) • Σύνολο ελέγχου: 300 ψηφία (6x5x10) • Διεπικύρωση για βελτίωση της στατιστικής εγκυρότητας αποτελεσμάτων • Ταξινόμηση μεμονωμένων ψηφίων με μεταβλητό θόρυβο • Προσθήκη θορύβου τύπου “babble” - βάση NOISEX • Μοντέλα HMMs λέξης (αριστερά-δεξιά τοπολογία, 8 καταστάσεις, 1 γκαουσιανή/κατάσταση, διαγώνιοι πίνακες συμμεταβλητότητας) • Χρήση μηχανής αναγνώρισης HTK (επαυξημένης με υλοποίηση μοντέλου σύμμειξης με αντιστάθμιση αβεβαιότητας)

Παράδειγμα Αναγνώρισης από Ήχο και Εικόνα AV A

Αναγνώριση μόνο από ήχο ή εικόνα Ικανοποιητική απόδοση με χαμηλοδιάστατο διάνυσμα οπτικών χαρακτηριστικώνΕΜΟ

Συνδυασμένη οπτική/ακουστική αναγνώριση Μέση απόλυτη βελτίωση χάρη στην οπτική πληροφορία AV-W-UC vs. A-UC 28.7 %

Σχετική μείωση ποσοστού λάθους χάρη στην αντιστάθμιση αβεβαιότητας Δίχως βάρη AV-UC vs. AV Με βάρη AV-W-UC vs. AV-W Μέση σχετική μείωση ποσοστού λάθους χάρη στην αντιστάθμιση αβεβαιότητας 20 %

Μοντελοποίηση συγχρονισμού με Product-HMM Μέση απόλυτη βελτίωση χάρη στη μοντελοποίηση με Product-HMM vs. Multistream-HMM 1.2 %

one two Ήχος three four six five Εικόνα Αναγνώριση Ομιλίας από Ήχο και Εικόνα Σύνοψη: • Εξαγωγή οπτικών χαρακτηριστικών από το πρόσωπο ομιλητή • Σύμμειξη οπτικής και ακουστικής πληροφορίας • Μοντελοποίηση χαλαρού συγχρονισμού ακουστικού & οπτικού καναλιού Χρηματοδότηση: Ευρωπαϊκά έργα MUSCLE (NoE) & HIWIRE (STREP)

Οπτική-Ακουστική Ανάκτηση Γεωμετρίας Φωνητικής Οδού A. Katsamanis,G. Papandreou, and P. Maragos, “Face Active Appearance Modeling and Speech Acoustic Information to Recover Articulation”, IEEE Trans. ASLP, 2009

Οπτική-Ακουστική Ανάκτηση Γεωμετρίας Φωνητικής Οδού Εικόνα Γεωμετρία φωνητικής οδού Ακουστική Κύρια σημεία: • Ανάκτηση γεωμετρίας φωνητικής οδού: αντίστροφο πρόβλημα • Χρήση μόνο ακουστικής πληροφορίας ανεπαρκής (αμφισημία) • Εμφανείς αρθρωτές: χείλη, δόντια, άκρο της γλώσσας • Μη γραμμική απεικόνιση σε γεωμετρικά χαρακτηριστικά

Βάση με μετρήσεις άρθρωσης MOCHA • Συλλέχθηκε από CSTR, Univ. Edinburgh • Δύο υποκείμενα (Βρετανοί, 1 άνδρας/1 γυναίκα), 460 προτάσεις TIMIT ο καθένας • Μετρήσεις άρθρωσης (2-Δσυντεταγμένες9 ηλεκτροδίων ΕΜΑ) • Βίντεο με το πρόσωπο της ομιλήτριας • 30 λεπτά αξιοποιήσιμων δεδομένων • Πρώτη εργασία που αξιοποιεί το βίντεο

Μετρήσεις στο πρόσωπο με ΕΜΟ

Οπτική-Ακουστική Αντιστροφή Ομιλίας phoneme 37

Γραμμική απεικόνιση χαρακτηριστικών σε μετρήσεις άρθρωσης • Παρατηρήσεις y, παράμετροι άρθρωσης x • Μοντέλο: prior μέτρηση • Γραμμική εκτίμηση άρθρωσης: Yehia, Rubin & Vatikiotis-Bateson, Speech Comm., 1998

Εκτίμηση Παραμέτρων Γραμμικού Μοντέλου με CCA • Ανάλυση σε κανονικές συνιστώσες συσχ. (CCA) • Εύρεση διευθύνσεων μέγιστης συμμεταβλητότητας • Βέλτιστη γραμμική απεικόνιση εκφρασμένη στη CCA βάση: • Εκτίμηση από λίγα δεδομένα: απεικ.μειωμένης τάξης

Εκτίμηση μειωμένης τάξης: λίγα δεδομένα εκπαίδευσης 40

Τμηματικά Γραμμικό Μοντέλο Viterbi • Προσέγγιση μη γραμμικής απεικόνισης με τμηματικά γραμμικό μοντέλο • Μοντελοποίηση δυναμικής με Markov αλυσίδα στις κρυφές καταστάσεις -> ΗΜΜ Hiroya & Honda, IEEE TSAP 2004

Μοντέλο ΗΜΜ: Επίπεδα Συγκερασμού Οπτικής/Ακουστικής Πληροφορίας • Πρόβλεψη δεδομένης της κρυφής κατάστασης: Επιλογή ενεργού μοντέλου. Εναλλακτικά σενάρια: • Συγχρονισμένα HMM /MS-HMM: Κοινή κρυφή μεταβλητή • Ασύγχρονο(όψιμο) μοντέλο: Ξεχωριστή αποκωδικοποίηση/ κανάλι. Καταστάσεις που αντιστοιχούν σε: • Visemes (οπτικό κανάλι) • Φωνήματα (ακουστικό κανάλι)

Αξιολόγηση Επίδοσης Αντιστροφής • Πειράματα στη βάση MOCHA • Ποσοτικά κριτήρια • Ποιοτική αξιολόγηση

Αντιστροφή μόνο από ακουστική ή οπτική πληροφορία

Οπτική-Ακουστική Αντιστροφή (πρώιμη σύμμειξη)

Σύγκριση επιπέδων σύμμειξης (πρώιμο/μέσο/όψιμο)

Ποιοτικά στοιχεία: Σφάλμα ανά αρθρωτή

Ποιοτικά στοιχεία: Σφάλμα ανά φώνημα

Παράδειγμα Αντιστροφής

Επεκτάσεις: Διακοπτόμενο Γραμ. Δυναμικό Μοντέλο 51 Katsamanis et al. EUSIPCO 2008

Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας

Συνδυασμένη Οπτική-Ακουστική Ανάλυση Ομιλίας

Presentation Transcript