Spracherkennung unter schwierigen Bedingungen

1. Spracherkennung unter schwierigen Bedingungen Nat�rlichsprachliche Interfaces

2. Ideale Bedingungen Deutlich und mit normaler, nat�rlicher Stimme sprechen M�glichst Dialektfrei, keine Umgangssprache Beigelegtes Headset verwenden Immer das Mikrofon verwenden, welches beim Training verwendet wurde Sprechgarnitur immer auf die selbe Weise tragen, 2 cm seitlich vom Mund, keine Ber�hrungen mit Haut oder Haaren Akustisches Umfeld muss gleich sein, wie bei der Aufnahme (Halligkeit und Nebenger�usche) Essen, trinken und rauchen sie nicht beim Diktieren Bei Erk�ltung warten, bis diese abgeklungen ist

4. �bersicht Mikrofone Erschwerende Bedingungen L�sungsm�glicheiten f�r eine robuste Spracherkennung Aussprachest�rungen

5. Mikrofoncharakteristiken Kugelcharakteristik Mikrofon ohne spezifische Richtcharakteristik. Es ist f�r Schallwellen aus allen Richtungen gleich empfindlich. Niere (Kardioid, Superkardioid, Hyperkardioid) Mikrofon mit Richtcharakteristik, bei der der Schall vorzugsweise von vorne aufgenommen wird. Schall, der von hinten auf das Mikrofon auftrifft, wird ausgeblendet. Acht-Charakteristik Richtcharakteristik eines Mikrofons in Form einer liegenden Acht, bei der der Schall vorzugsweise aus zwei gegen�berliegenden Richtungen aufgenommen wird. Schall aus den anderen beiden Richtungen, oder Schall, der von unten oder oben auf das Mikrofon auftrifft, wird ausgeblendet. Keule Mikrofon mit starker Richtcharakteristik, bei dem der Schall vorzugsweise von vorne und kaum von der Seite aufgenommen wird. Schall, der von hinten auf das Mikrofon auftrifft, wird nur wenig ausgeblendet.

6. Abstrahlwinkel der Stimme

7. Aufstellungsm�glichkeiten Headset Ein Nahbesprechungs-Mikrofon wird dicht etwas seitlich vom Mund platziert getragen Wird meist kombiniert mit einer aktiven Rauschunterdr�ckung Kabel kann St�ren und die N�he zum Mund kann St�rger�usche verursachen Einbaumikrofone z.B. im Monitor oder in der Tastatur Empfindlich f�r St�rger�usche Sind weit entfernt vom Sprecher (Richtcharakteristik) St�rger�usche auch von der direkten Umgebung (z.B. Tastatur) Kabel kann St�ren Einbau-Mikrofone im Computer Eignen sich nicht sehr gut, da sie weit entfernt aufgestellt werden Sind von vielen St�rger�uschen umgeben

8. Lavalier-Mikrofone (Mikrofonklips) Nahbesprechungs-Mikrofon, wird direkt am Pullover getragen Haben ungef�hr die selben Eigenschaften wie Headsets Desktop Desktop-Mikrofone werden ca. 15 cm entfernt mit Richtung zum Sprecher neben dem Monitor platziert aufgestellt Funktionieren gut, aber nur in ruhigen R�umen Ohr-Mikrofone Werden in das Ohr gesteckt mit Richtung zum Mund Funktionieren ganz gut, aber nicht so gut wie Nahbesprechungs-Mikrofone Kabel kann St�ren Hand-held Hand-Held Mikrofone nehmen wenig St�rger�usche auf M�ssen ca. 10 cm vom Mund platziert werden, eignet sich f�r einige Anwendungen nicht so gut Handset Sehen aus wie Telefone und sind ganz gut geeignet

9. Bauarten von Mikrofonen

10. Erschwerende Bedingungen

11. Eingangspegel der Stimme Variiert von Aussage zu Aussage und auch innerhalb einer Aussage Abh�ngig von der Sprech-Variation (normal, gefl�stert, geschrieen) Abh�ngig von der Entfernung zum Mikrofon Abh�ngig von der Ausrichtung des Mikrofons Normalisierung des Sprachsignals funktioniert nicht, da der Eingangspegel ein Langzeitmerkmal des Sprachsignals ist

12. St�rger�usche Regelm��ige Hintergrundger�usche k�nnen beim Training mit in das HMM aufgenommen werden (Computerl�fter, Stra�enl�rm) d�rfen sich beim Training nicht von den St�rger�uschen bei der Anwendung unterscheiden Unregelm��ige Hintergrundger�usche wie T�ren-Knallen oder Tastaturger�usche verursachen Probleme St�rungen durch andere Sprecher Menschen k�nnen einzelne Stimmen aus einer Menschenmenge heraush�ren (Cocktailpartyeffekt) Spracherkennungsmodell in der Regel nur f�r eine einzelne Stimme ausgelegt Raumakustik und Reflexionen Reflexionen k�nnen als linearer Filter modelliert werden, in dem die Geometrie des Raumes, das Material und die Position des Sprechers dargestellt werden Aufnahmevorrichtung Bei der Verwendung verschiedener Mikrofone �ndert sich sie allgemeine Transferfunktion Feedback der synthetischen Sprachausgabe

13. Sprecher spezifische Probleme Unterschiede in der Physiologie des Vokaltraktes Unterschiede in der L�nge und der Form des Vokaltraktes Formanten der m�nnlichen Stimme tiefer als die von Frauen und Kindern Verschiedene Sprechstile normal, langsam, schnell, geschrien

14. Verst�ndlichkeit

15. H�rfl�che des Menschen

16. Frequenzbereiche der Phoneme

17. L�sungs-M�glichkeiten f�r eine robuste Spracherkennung

18. Modelle f�r die Abdeckung von Nicht-Sprachlaute (garbage models) im Erkennungssystem DuDeutsch

19. Active Noise Cancellation (ANC) Zwei Mikrofone im Headset kommen zum Einsatz, eines Nimmt die Sprache mit dem Hintergrundger�usch auf und eines nimmt nur das Hintergrundger�usch auf. Eines der beiden Signale wird in der Phase gedreht. Beide Signale werden wieder gemischt, woraufhin sich die beiden Gegenphasigen Signale ausl�schen. �brig bleibt nur das Sprachsignal

20. Mikrofonarray

21. Weitere Das St�rger�usch wird einmalig isoliert aufgezeichnet und sp�ter vom Signal wieder abgezogen (Noiseprint) Die Normalisierung des Verh�ltnisses von Signal- zu Rauschleistung in den einzelnen Frequenzb�ndern. Normalisierung des Hintergrundpegels. Ger�uschpegel wird in Sprechpausen automatisch abgesenkt Modellierung der auditiven Schallverarbeitung mit Filtern und Merkmalsvektoren Videoinformation wird mit dem Sprachsignal synchronisiert und die artikulatorischen Bewegungen mit dem Sprachsignal abgeglichen Viele weitere L�sungsans�tze

22. Aussprachest�rungen Alkoholeinfluss,Hektik, Stress, Ungeduld Kindersprache (Dislalie) St�rung der Artikulation, bei der einzelne Laute oder Lautverbindungen fehlen, falsch gebildet oder durch andere ersetzt werden. Stottern der Redeflu� ist durch St�rungen in der Muskulatur der Artikulations- und Phonationsorgane beeintr�chtigt. Es treten Laut- , Silben-, und Wortwiederholungen , Dehnungen und/oder Blockierungen auf. Poltern Sprache und Sprechablauf sind beschleunigt, �berhastet, die Artikulation ist undeutlich und verwaschen, Silben und einzelne W�rter werden wiederholt oder auch ausgelassen. Disphonien Heiserkeiteinen, kratziger Hals, Rauhe oder d�nne Stimme

23. Aphasien, Sprachst�rungen linguistisch als Beeintr�chtigung in den verschiedenen Komponenten des Sprachsystems (Phonologie, Lexikon, Syntax und Semantik) zu verstehen. Dysarthrien, Sprechst�rungen Artikulation verlangsamt oder beschleunigt verwaschen und undeutlich explosiv und gepresst sein verz�gerter Sprechbeginn unregelm��ige Abbr�che Nasalit�t durch gesch�digte Velum- und Pharynxmuskulatur auftreten. Die oralen Laute verlieren erheblich an Deutlichkeit. St�rungen des Phonationsablaufes Stimmklang ist rauh, belegt, gepresst, monoton, m�de, kraftlos, zittrig, �berhaucht, zu tief oder zu hoch, zu laut oder zu leise, resonanzarm; der Stimmeinsatz kann verz�gert sein; es kann zu Stimmabbr�chen kommen. Atmung verk�rzte Sprechatemphasen, inspiratorisches Sprechen, h�rbare Inspiration, unkoordinierte Sprechatmung, zu hohe Atemfrequenz, Hochatmung und Schnappatmung auf.

29. Literatur Dickreiter, Michael, �Handbuch der Tonstudiotechnik� K.G. Saur, M�nchen, 6. Auflage 1997 Vieregge, Wilhelm H., �Patho-Symbolphonetik� Franz Steiner Verlag, Stuttgart, 1996 Bu�mann, Hadumod, �Lexikon der Sprachwissenschaft� Alfed Kr�ner Verlag, Stuttgart, 3.Auflage 2002

Spracherkennung unter schwierigen Bedingungen

Spracherkennung unter schwierigen Bedingungen

Presentation Transcript

Umgang mit Auszubildenden in schwierigen Lebenssituationen

mit Partnern Bedingungen schaffen, unter denen Jugendliche gestärkt erwachsen werden

Grundlagen der Spracherkennung

Die gesellschaftlichen Bedingungen der Suchtentstehung

Psychosoziale Bedingungen des Lernens

unter Jugendlichen

Bildende Anstöße Förderung unter Bedingungen des Freiheitsentzuges

Konzentrationsfähigkeit von Schillerschülern unter verschiedenen Bedingungen

Spracherkennung mit Kellerautomaten und Turingmaschinen

Bedingungen eines Kaufvertrages

Umgang mit schwierigen Patienten

Automatische Spracherkennung

Mailserver unter Linux

Kommunikation in schwierigen Situationen

Unter stufe (Montag)

Grund-bedingungen

Die 5 schwierigen Fragen

Räumliche Bedingungen:

Personalmaßnahmen in wirtschaftlich schwierigen Zeiten

Bedingungen quantitativen Wachstums

Unfälle unter Atemschutz

Was ist Sozialhilfe und wer bekommt unter welchen Bedingungen die Grundsicherung?