280 likes | 581 Views
Ideale Bedingungen. Deutlich und mit normaler, nat
E N D
1. Spracherkennung unter schwierigen Bedingungen Natürlichsprachliche Interfaces
2. Ideale Bedingungen Deutlich und mit normaler, natürlicher Stimme sprechen
Möglichst Dialektfrei, keine Umgangssprache
Beigelegtes Headset verwenden
Immer das Mikrofon verwenden, welches beim Training verwendet wurde
Sprechgarnitur immer auf die selbe Weise tragen, 2 cm seitlich vom Mund, keine Berührungen mit Haut oder Haaren
Akustisches Umfeld muss gleich sein, wie bei der Aufnahme (Halligkeit und Nebengeräusche)
Essen, trinken und rauchen sie nicht beim Diktieren
Bei Erkältung warten, bis diese abgeklungen ist
4. Übersicht Mikrofone
Erschwerende Bedingungen
Lösungsmöglicheiten für eine robuste Spracherkennung
Aussprachestörungen
5. Mikrofoncharakteristiken Kugelcharakteristik
Mikrofon ohne spezifische Richtcharakteristik. Es ist für Schallwellen aus allen Richtungen gleich empfindlich.
Niere (Kardioid, Superkardioid, Hyperkardioid)
Mikrofon mit Richtcharakteristik, bei der der Schall vorzugsweise von vorne aufgenommen wird. Schall, der von hinten auf das Mikrofon auftrifft, wird ausgeblendet.
Acht-Charakteristik
Richtcharakteristik eines Mikrofons in Form einer liegenden Acht, bei der der Schall vorzugsweise aus zwei gegenüberliegenden Richtungen aufgenommen wird. Schall aus den anderen beiden Richtungen, oder Schall, der von unten oder oben auf das Mikrofon auftrifft, wird ausgeblendet.
Keule
Mikrofon mit starker Richtcharakteristik, bei dem der Schall vorzugsweise von vorne und kaum von der Seite aufgenommen wird. Schall, der von hinten auf das Mikrofon auftrifft, wird nur wenig ausgeblendet.
6. Abstrahlwinkel der Stimme
7. Aufstellungsmöglichkeiten
Headset
Ein Nahbesprechungs-Mikrofon wird dicht etwas seitlich vom Mund platziert getragen
Wird meist kombiniert mit einer aktiven Rauschunterdrückung
Kabel kann Stören und die Nähe zum Mund kann Störgeräusche verursachen
Einbaumikrofone z.B. im Monitor oder in der Tastatur
Empfindlich für Störgeräusche
Sind weit entfernt vom Sprecher (Richtcharakteristik)
Störgeräusche auch von der direkten Umgebung (z.B. Tastatur)
Kabel kann Stören
Einbau-Mikrofone im Computer
Eignen sich nicht sehr gut, da sie weit entfernt aufgestellt werden
Sind von vielen Störgeräuschen umgeben
8. Lavalier-Mikrofone (Mikrofonklips)
Nahbesprechungs-Mikrofon, wird direkt am Pullover getragen
Haben ungefähr die selben Eigenschaften wie Headsets
Desktop
Desktop-Mikrofone werden ca. 15 cm entfernt mit Richtung zum Sprecher neben dem Monitor platziert aufgestellt
Funktionieren gut, aber nur in ruhigen Räumen
Ohr-Mikrofone
Werden in das Ohr gesteckt mit Richtung zum Mund
Funktionieren ganz gut, aber nicht so gut wie Nahbesprechungs-Mikrofone
Kabel kann Stören
Hand-held
Hand-Held Mikrofone nehmen wenig Störgeräusche auf
Müssen ca. 10 cm vom Mund platziert werden, eignet sich für einige Anwendungen nicht so gut
Handset
Sehen aus wie Telefone und sind ganz gut geeignet
9. Bauarten von Mikrofonen
10. Erschwerende Bedingungen
11. Eingangspegel der Stimme Variiert von Aussage zu Aussage und auch innerhalb einer Aussage
Abhängig von der Sprech-Variation (normal, geflüstert, geschrieen)
Abhängig von der Entfernung zum Mikrofon
Abhängig von der Ausrichtung des Mikrofons
Normalisierung des Sprachsignals funktioniert nicht, da der Eingangspegel ein Langzeitmerkmal des Sprachsignals ist
12. Störgeräusche Regelmäßige Hintergrundgeräusche
können beim Training mit in das HMM aufgenommen werden (Computerlüfter, Straßenlärm)
dürfen sich beim Training nicht von den Störgeräuschen bei der Anwendung unterscheiden
Unregelmäßige Hintergrundgeräusche wie Türen-Knallen oder Tastaturgeräusche verursachen Probleme
Störungen durch andere Sprecher
Menschen können einzelne Stimmen aus einer Menschenmenge heraushören (Cocktailpartyeffekt)
Spracherkennungsmodell in der Regel nur für eine einzelne Stimme ausgelegt
Raumakustik und Reflexionen
Reflexionen können als linearer Filter modelliert werden, in dem die Geometrie des Raumes, das Material und die Position des Sprechers dargestellt werden
Aufnahmevorrichtung
Bei der Verwendung verschiedener Mikrofone ändert sich sie allgemeine Transferfunktion
Feedback der synthetischen Sprachausgabe
13. Sprecher spezifische Probleme Unterschiede in der Physiologie des Vokaltraktes
Unterschiede in der Länge und der Form des Vokaltraktes
Formanten der männlichen Stimme tiefer als die von Frauen und Kindern
Verschiedene Sprechstile
normal, langsam, schnell, geschrien
14. Verständlichkeit
15. Hörfläche des Menschen
16. Frequenzbereiche der Phoneme
17. Lösungs-Möglichkeiten für eine robuste Spracherkennung
18. Modelle für die Abdeckung von Nicht-Sprachlaute (garbage models) im Erkennungssystem DuDeutsch
19. Active Noise Cancellation (ANC) Zwei Mikrofone im Headset kommen zum Einsatz, eines Nimmt die Sprache mit dem Hintergrundgeräusch auf und eines nimmt nur das Hintergrundgeräusch auf.
Eines der beiden Signale wird in der Phase gedreht.
Beide Signale werden wieder gemischt, woraufhin sich die beiden Gegenphasigen Signale auslöschen. Übrig bleibt nur das Sprachsignal
20. Mikrofonarray
21. Weitere Das Störgeräusch wird einmalig isoliert aufgezeichnet und später vom Signal wieder abgezogen (Noiseprint)
Die Normalisierung des Verhältnisses von Signal- zu Rauschleistung in den einzelnen Frequenzbändern.
Normalisierung des Hintergrundpegels. Geräuschpegel wird in Sprechpausen automatisch abgesenkt
Modellierung der auditiven Schallverarbeitung mit Filtern und Merkmalsvektoren
Videoinformation wird mit dem Sprachsignal synchronisiert und die artikulatorischen Bewegungen mit dem Sprachsignal abgeglichen
Viele weitere Lösungsansätze
22. Aussprachestörungen Alkoholeinfluss,Hektik, Stress, Ungeduld
Kindersprache (Dislalie)
Störung der Artikulation, bei der einzelne Laute oder Lautverbindungen fehlen, falsch gebildet oder durch andere ersetzt werden.
Stottern
der Redefluß ist durch Störungen in der Muskulatur der Artikulations- und Phonationsorgane beeinträchtigt. Es treten Laut- , Silben-, und Wortwiederholungen , Dehnungen und/oder Blockierungen auf.
Poltern
Sprache und Sprechablauf sind beschleunigt, überhastet, die Artikulation ist undeutlich und verwaschen, Silben und einzelne Wörter werden wiederholt oder auch ausgelassen.
Disphonien
Heiserkeiteinen, kratziger Hals, Rauhe oder dünne Stimme
23. Aphasien, Sprachstörungen
linguistisch als Beeinträchtigung in den verschiedenen Komponenten des Sprachsystems (Phonologie, Lexikon, Syntax und Semantik) zu verstehen.
Dysarthrien, Sprechstörungen
Artikulation
verlangsamt oder beschleunigt
verwaschen und undeutlich
explosiv und gepresst sein
verzögerter Sprechbeginn
unregelmäßige Abbrüche
Nasalität
durch geschädigte Velum- und Pharynxmuskulatur auftreten.
Die oralen Laute verlieren erheblich an Deutlichkeit.
Störungen des Phonationsablaufes
Stimmklang ist rauh, belegt, gepresst, monoton, müde, kraftlos, zittrig, überhaucht, zu tief oder zu hoch, zu laut oder zu leise, resonanzarm;
der Stimmeinsatz kann verzögert sein;
es kann zu Stimmabbrüchen kommen.
Atmung
verkürzte Sprechatemphasen,
inspiratorisches Sprechen,
hörbare Inspiration,
unkoordinierte Sprechatmung,
zu hohe Atemfrequenz,
Hochatmung und Schnappatmung auf.
29. Literatur Dickreiter, Michael, „Handbuch der Tonstudiotechnik“
K.G. Saur, München, 6. Auflage 1997
Vieregge, Wilhelm H., „Patho-Symbolphonetik“
Franz Steiner Verlag, Stuttgart, 1996
Bußmann, Hadumod, „Lexikon der Sprachwissenschaft“
Alfed Kröner Verlag, Stuttgart, 3.Auflage 2002