510 likes | 692 Views
Αναπαράσταση, Δεικτοδότηση και Αναζήτηση Ήχου. Περιεχόμενα. Εισαγωγή Αναπαράσταση Χαρακτηριστικά Ομιλίας και Μουσικής Κατηγοριοποίηση Ήχων Συστήματα ASR Δεικτοδότηση. Εισαγωγή. Ο βασικός στόχος είναι η δυνατότητα αναπαράστασης, δεικτοδότησης και ανάκτησης ηχητικών δεδομένων.
E N D
Αναπαράσταση, Δεικτοδότηση και Αναζήτηση Ήχου
Περιεχόμενα • Εισαγωγή • Αναπαράσταση • Χαρακτηριστικά Ομιλίας και Μουσικής • Κατηγοριοποίηση Ήχων • Συστήματα ASR • Δεικτοδότηση
Εισαγωγή • Ο βασικός στόχος είναι η δυνατότητα αναπαράστασης, δεικτοδότησης και ανάκτησης ηχητικών δεδομένων. • Τα ηχητικά δεδομένα μπορεί να είναι: ομιλία, μουσική, διάφοροι ήχοι. • Ανάλογα με τη φύση του ήχου και τις ανάγκες αναζήτησης χρησιμοποιούνται διαφορετικές τεχνικές.
Μεθοδολογία • Ο ήχος κατηγοριοποιείται ανάλογα με τη φύση του. • Διαφορετικοί τύποι ήχου επεξεργάζονται και δεικτοδοτούνται με διαφορετικούς τρόπους. • Οι ήχοι ερωτημάτων επεξεργάζονται με παρόμοιους τρόπους. • Η ανάκτηση των ήχων πραγματοποιείται με βάση την ομοιότητα που παρατηρείται σε σχέση με το ήχο ερωτήματος.
Ήχος ως Κυματομορφή • Ένα ηχητικό σήμα μπορεί να θεωρηθεί ως μία χρονική συνάρτηση που δίνει την ένταση του ηχητικού σήματος σε σχέση με το χρόνο • Βασικά χαρακτηριστικά: περίοδος, συχνότητα, πλάτος
Επεξεργασία Κυματομορφών • Το ηχητικό σήμα περνά από μία σειρά μετασχηματισμών έτσι ώστε να αποκτήσει μία μορφή εύκολη στη διαχείριση. • Στόχος είναι η εξαγωγή κατάλληλων χαρακτηριστικών (features) που να αναπαριστούν το συγκεκριμένο ηχητικό σήμα. • Παρόμοια τεχνική χρησιμοποιείται και σε άλλους multimedia τύπους δεδομένων (π.χ. εικόνες).
Τμηματοποίηση (Segmentation) • Το ηχητικό σήμα τεμαχίζεται σε Ν τμήματα σύμφωνα με κάποιο χρονικό παράθυρο σταθερού ή μεταβλητού μήκους. • Από κάθε τμήμα του ηχητικού σήματος εξάγονται τα χαρακτηριστικά (features). • Εάν από κάθε τμήμα προκύπτουν Κ τιμές τότε το ηχητικό σήμα μπορεί να αναπαρασταθεί ως σύνολο Ν σημείων στον πραγματικό χώρο Κ διαστάσεων.
Χαρακτηριστικά (features) • Ένταση (intensity) • Ηχηρότητα (loudness) • Τόνος (pitch) • Διαύγεια (brightness)
Χαρακτηριστικά (features) Ένταση (intensity) μ: πυκνότητα του υλικού μέσω του οποίου μεταδίδεται ο ήχος f: συχνότητα α: πλάτος σήματος υ: ταχύτητα σήματος
Χαρακτηριστικά (features) Ηχηρότητα (loudness) L0: ηχηρότητα της χαμηλότερης συχνότητας Ι: ένταση σήματος
Χαρακτηριστικά (features) Τόνος (pitch) Αποτελεί τιμή που προκύπτει ως συνάρτηση της συχνότητας και του πλάτους του σήματος p(f, a)
Χαρακτηριστικά (features) Διαύγεια (brightness) Δηλώνει πόσο «καθαρό» είναι το σήμα στο συγκεκριμένο διάστημα που εξετάζουμε.
Κατηγοριοποίηση Τα ηχητικά σήματα διαχωρίζονται στις ακόλουθες βασικές κατηγορίες: - Ομιλία - Μουσική - Διάφοροι ήχοι Ας δούμε με ποιον τρόπο μπορούμε να κατατάξουμε ένα ηχητικό σήμα.
Ήχος Ομιλίας Το εύρος φάσματος (bandwidth) ενός σήματος ομιλίας είναι συνήθως μικρό σε σχέση με ένα μουσικό σήμα (100 έως 7000 Hz). Η ομιλία χαρακτηρίζεται από συχνές παύσεις, μεταξύ λέξεων ή προτάσεων.
Ήχος Μουσικής Το εύρος φάσματος είναι πολύ μεγαλύτερο από αυτό της ομιλίας (16 έως 20000 Hz). Οι παύσεις είναι πολύ λιγότερες και μικρότερης διάρκειας. Η μουσική χαρακτηρίζεται από ρυθμό που δεν υπάρχει στην ομιλία.
Οργάνωση Η κατηγοριοποίηση των ηχητικών σημάτων σε ομιλία και μουσική μας δίνει τη δυνατότητα να χειριστούμε και να οργανώσουμε τους ήχους με διαφορετικό τρόπο.
Ομιλία Ένα ηχητικό σήμα ομιλίας περιέχει συλλαβές, λέξεις και προτάσεις. Εφαρμόζονται μέθοδοι αναγνώρισης ομιλίας (speech recognition) ώστε να πάρουμε κείμενο. Στη συνέχεια μπορούν να εφαρμοστούν οι γνωστές μέθοδοι ανάκτησης πληροφορίας κειμένου (text information retrieval).
Αναγνώριση Ομιλίας Η αυτόματη αναγνώριση ομιλίας (automatic speech recognition) αποτελεί ειδική περίπτωση αναγνώρισης προτύπων (pattern recognition). Η μικρότερη μονάδα πληροφορίας είναι το φώνημα (phoneme). Στόχος είναι η αναγνώριση όλων των φωνημάτων που περιέχονται σε έναν ήχο ομιλίας.
Αναγνώριση Ομιλίας Ένα σύστημα ASR λειτουργεί σε δύο φάσεις: • φάση εκπαίδευσης • φάση ταιριάσματος (matching)
Αναγνώριση Ομιλίας Κατά τη φάση εκπαίδευσης προσδιορίζονται τα χαρακτηριστικά (features) από κάθε σήμα ομιλίας και αποθηκεύονται στη βάση δεδομένων. Στη φάση της αναγνώρισης, εξάγονται χαρακτηριστικά από το σήμα εισόδου και στη συνέχεια βρίσκουμε το αποθηκευμένο πρότυπο που ταιριάζει καλύτερα στην είσοδο.
Αναγνώριση Ομιλίας • Εάν το κάθε φώνημα μπορεί να αναπαρασταθεί ως ένα διάνυσμα χαρακτηριστικών (feature vector) σε ένα χώρο πολλών διαστάσεων, τότε το πρόβλημα της αναγνώρισης είναι απλό. • Στην πράξη όμως έχουμε προβλήματα τα οποία οφείλονται στους ακόλουθους παράγοντες:
Αναγνώριση Ομιλίας Ένα φώνημα το οποίο προέρχεται από διαφορετικούς ομιλητές ή από τον ίδιο ομιλητή σε διαφορετικές χρονικές στιγμές, μπορεί να έχει διαφορετικά χαρακτηριστικά (συχνότητες, πλάτος, κλπ). Επομένως δεν μπορούμε να έχουμε 100% αντιστοίχιση.
Αναγνώριση Ομιλίας Σε ένα σήμα πάντα υπάρχει και κάποιο ποσοστό θορύβου (noise). Ο θόρυβος προκαλεί διάφορα προβλήματα με αποτέλεσμα τα χαρακτηριστικά που προκύπτουν για το φώνημα να μην ανταποκρίνονται στην πραγματικότητα.
Αναγνώριση Ομιλίας Ο κανονικός λόγος έχει συνεχόμενη ροή και έτσι δεν είναι πάντα εύκολο να διαχωρίσουμε τα φωνήματα μεταξύ τους. Σε αυτό συντελεί και το ότι διαφορετικά φωνήματα έχουν διαφορετική χρονική διάρκεια.
Αναγνώριση Ομιλίας Τα χαρακτηριστικά ενός φωνήματος μπορεί να μεταβληθούν ανάλογα με τη θέση του φωνήματος μέσα στη λέξη. Τα χαρακτηριστικά μεταβάλλονται ανάλογα με τον «περίγυρο» του φωνήματος.
Αναγνώριση Ομιλίας Τα παραπάνω προβλήματα δεν μπορούσαν να επιλυθούν πριν μερικά χρόνια, με αποτέλεσμα τα πρώτα ASR συστήματα λειτουργούσαν με συγκεκριμένες προϋποθέσεις (έπρεπε να υπάρχουν παύσεις μεταξύ των λέξεων, κλπ).
Τεχνικές • Dynamic Time Warping • Hidden Markov Models • Artificial Neural Networks
Διαχείριση Μουσικής Η οργάνωση και αναζήτηση μουσικών ήχων μπορεί να πραγματοποιηθεί με δύο μεθόδους: • με βάση τα χαρακτηριστικά (features) • με βάση τον τόνο (pitch)
Χαρακτηριστικά Μουσικής Από κάθε ήχο εξάγεται ένα σύνολο N τιμών. Το διάνυσμα που προκύπτει μπορεί να χρησιμοποιηθεί για τη σύγκριση και την ταύτιση μουσικών ήχων.
Χαρακτηριστικά Μουσικής Έχουν χρησιμοποιηθεί με επιτυχία τα ακόλουθα χαρακτηριστικά: ηχηρότητα, τόνος, διαύγεια, εύρος φάσματος, και αρμονικότητα. Τα χαρακτηριστικά αυτά μεταβάλλονται ως προς το χρόνο και επομένως υπολογίζονται σε τμήματα του μουσικού ήχου. Για το κάθε χαρακτηριστικό χρησιμοποιείται η μέση τιμή, η μεταβλητότητα (variance) και η αυτοσυσχέτιση (autocorrelation).
Χαρακτηριστικά Μουσικής Για την ταύτιση μεταξύ μουσικών ήχων χρησιμοποιείται κάποια απόσταση (π.χ. Ευκλείδια ή Manhattan, κ.α.). Ήχοι με μικρή απόσταση μεταξύ τους χαρακτηρίζονται ως όμοιοι.
Αναζήτηση με Τόνους • Μετατροπή του μουσικού ήχου σε συμβολοσειρά. • Κάθε νότα μουσικής παριστάνεται με τον αντίστοιχο τόνο (pitch). • Επομένως ένα μουσικό κομμάτι θεωρείται μία αλληλουχία από τόνους.
Αναζήτηση με Τόνους Μέθοδος Α Όλοι οι τόνοι εκτός του πρώτου παριστάνονται με UP, DOWN, SIMILAR Μέθοδος Β Κάθε τόνος παριστάνεται με μία τιμή από ένα σύνολο γνωστών τιμών
Αναζήτηση με Τόνους Και με τους δύο τρόπους ο μουσικός ήχος μετατρέπεται σε σειρά χαρακτήρων (character string). Στη συνέχεια μπορούμε να χρησιμοποιήσουμε τεχνικές ακριβούς ή προσεγγιστικής ταύτισης μεταξύ συμβολοσειρών. Υπάρχουν αρκετές μέθοδοι στη διεθνή βιβλιογραφία που αναφέρονται στο πρόβλημα αυτό.
Το Σύστημα MusArt http://www.dlib.org/dlib/february02/birmingham/02birmingham.html
Άλλοι Ήχοι Σε περίπτωση που το ηχητικό σήμα δεν είναι ούτε ομιλία ούτε μουσική τότε μπορεί να χρησιμοποιηθεί ο γενικός τρόπος οργάνωσης και αναζήτησης GEMINI, με χρήση κάποιου μετασχηματισμού (π.χ. DFT) και μίας συνάρτησης ομοιότητας μεταξύ των ήχων (π.χ. Ευκλείδια απόσταση).
Δεικτοδότηση Ανάλογα με τον τύπο και την αναπαράσταση των ηχητικών σημάτων μπορούμε να χρησιμοποιήσουμε διαφορετικές τεχνικές δεικτοδότησης με στόχο την αύξηση της απόδοσης του συστήματος κατά την επεξεργασία ερωτημάτων ομοιότητας (similarity search)
Δεικτοδότηση Στην περίπτωση των ήχων ομιλίας μπορούμε να χρησιμοποιήσουμε τεχνικές αντεστραμμένου αρχείου, suffix tree, suffix array, signature file. Αυτό συμβαίνει διότι έχει πραγματοποιηθεί η μετατροπή του ηχητικού σήματος σε φωνήματα ή λέξεις.
Δεικτοδότηση Στην περίπτωση της πολυδιάστατης αναπαράστασης ηχητικών σημάτων με βάση τα χαρακτηριστικά μπορούμε να χρησιμοποιήσουμε πολυδιάστατες μεθόδους προσπέλασης (R-trees, TV-trees, X-trees) οι οποίες έχουν καλή απόδοση και υποστηρίζουν την αναζήτηση δύο φάσεων(filter-refinement)
Βασικοί Στόχοι Δεικτοδότησης • Αποφυγή της σειριακής αναζήτησης όλων των ήχων. • Μείωση του αριθμού των ήχων που πρέπει να εξεταστούν στη λεπτομέρειά τους. • Γρήγορη απόρριψη ήχων που δεν είναι δυνατόν να συμμετέχουν στην απάντηση του ερωτήματος. • Υποστήριξη audio retrieval by content.
Σύνοψη • Ο ήχος αποτελεί βασικό πολυμεσικό τύπο δεδομένων. • Τα χαρακτηριστικά του μεταβάλλονται σε σχέση με το χρόνο. • Διαχωρίζουμε τον ήχο σε ομιλία και μουσική. • Υπάρχουν αυτόματοι τρόποι κατηγοριοποίησης του ήχου ανάλογα με τις τιμές κάποιων χαρακτηριστικών του.
Σύνοψη • Στην περίπτωση ήχου ομιλίας χρησιμοποιούνται συστήματα ASR και στη συνέχεια συστήματα text information retrieval. • Στην περίπτωση ήχου μουσικής χρησιμοποιούνται είτε διάφορα χαρακτηριστικά (ηχηρότητα, διαύγεια κλπ) είτε τονικές ακολουθίες.
Σύνοψη • Σε κάθε περίπτωση απαιτούνται αποδοτικές μέθοδοι δεικτοδότησης ώστε να προσδιοριστούν τα ηχητικά σήματα που είναι παρόμοια με τον ήχο ερώτησης.