1 / 23

HS Transkription in Sprachsynthese und - erkennung

HS Transkription in Sprachsynthese und - erkennung. Analogiebildung II Yavuz Tüzün. Rückblick. Systeme mit Trainingsdaten füttern Ergebnisse müssen kontrolliert werden ggf. durch back propagation verbessern IL-Systeme (inductive learning) bilden Buchstaben(-folgen) auf Phoneme ab

tomai
Download Presentation

HS Transkription in Sprachsynthese und - erkennung

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. HS Transkription in Sprachsynthese und - erkennung Analogiebildung II Yavuz Tüzün

  2. Rückblick • Systeme mit Trainingsdaten füttern • Ergebnisse müssen kontrolliert werden • ggf. durch back propagation verbessern • IL-Systeme (inductive learning) bilden Buchstaben(-folgen) auf Phoneme ab • PbA (Pronunciation by Analogy, s. AB I) vergleicht Zeichenketten auf orthographische Ähnlichkeit und verwendet die durch vorheriges Alignment den Ketten zugewiesenen Lautfolgen. Die Verkettung der Lautfolgen ergibt die Transkription.

  3. Rückblick • Liefern gute Ergebnisse für sprachspezifische Wörter

  4. Pronunciation by Latent Analogy • Weiterentwicklung von PbA • Kein vorheriges Alignment • Alignment nur zwischen Transkriptionen ganzer Wörter • Die Wörter sind auf Grund orthographischer Ähnlichkeit zum Eingabewort ausgewählt • Metrik aus der Analysis (Latent Semantic Analysis) dient als Instrument • bestimmt charakteristische Buchstabenstrings der Wörter • stellt ein Mass der Eindeutigkeit bestimmter Buchstabenketten zur Bestimmung von Wörtern dar

  5. Pronunciation by Latent Analogy • Ergebnis ist Menge von orthographischen Ankern, für jedes „In-Vocabulary“ (IV) -Wort ein Anker

  6. Orthographische Nachbarn • V sei Menge der IV-Wörter, |V| = M • T sei Menge der Substrings mit Länge n, |T| = N • '-' steht für Wortanfang und -ende, gilt als Buchstabe mit Länge 1 M Spalten, j-te Spalte für j-tes Word vj N Zeilen, i-te Zeile für i-ten Substring ti (N x M) Matrix W

  7. Orthographische Nachbarn • wij sagt aus zu welchem Mass Substring ti aus T im Wort vi aus V vorkommt • SWZ von W: W = USVT • U links singuläre Matrix, Reihenvektor ui • V rechts singuläre Matrix, Reihenvektor vj • Typische Grössen: R = 50 – 100, N = 10000,M = 10000 – 100000, n = 3 (N x M) W (N x R) U (R x R) S (R x M) VT

  8. Beispiel Orthographische Nachbarn • Vokabular: „rough“, „though“, „through“ • Substrings mit der Länge n = 3 bilden:-ro rou oug ugh gh- -th tho hou thr hro rough though through -ro 1 0 0 rou 1 0 1 oug 1 1 1 ugh 1 1 1 (10 x 3) W gh- 1 1 1 -th 0 1 1 tho 0 1 1 hou 0 1 0 thr 0 0 1 hro 0 0 1

  9. Beispiel Orthographische Nachbarn • SWZ (engl.: Singular Value Decomposition) mit R = 2 3 2 3 W U S VT 2 10 10

  10. Beispiel Orthographische Nachbarn • OOV-Wort: „thorough“ • Berchnung Vektor thorough -ro 0 rou 1 oug 1 ugh 1 (10 x 1) gh- 1 -th 1 tho 1 hou 0 thr 0 hro 0

  11. Beispiel Orthographische Nachbarn • SWZ von , so dass U und S gleich bleiben: 1 2 1 U S 2 10 10

  12. Beispiel Orthographische Nachbarn • Abstände des OOV-Wortes zu allen IV-Wörtern mit Cosinusfunktion berechen: • IV-Wörter umgekehrt in absteigender Entfernung sortieren • IV-Wörter innerhalb eines vorher bestimmten Radius bilden orthographische Nachbarschaft zu Eingabewort

  13. Beispiel Orthographische Nachbarn -0,6 -0,4 -0,2 0,0 0,2 tho though hou oug ugh gh- thorough -th rou thr hro -ro through rough 0,0 0,2 0,4 0,6 0,8 1,0

  14. Alignment • Alignment von kompletten Aussprachen aus der orthographischen Nachbarschaft • Alignment startet mit jenem Phonemsequenz, welches am nächsten zu einem Substring mit Begrenzung für Wortanfang liegt. • Substring mit Begrenzung für Wortanfang ist der nächstgelegene am OOV-Wort • Im Beispiel: -th  through

  15. Alignment • Modifizierter komplizierter Algorithmus aus Bioinformatik • Findet Gruppe von Proteinen innerhalb einer Proteinkette • Identifikation von Genen in der DNA • Seien φ1...φk...φKund ψ1...ψl...ψLPhonemstrings • A(k,l) sind minimalen Kosten vom Alignment zwischen φ1...φk und ψ1...ψl • C(k,l) sind Kosten für das Austauschen der Phoneme φk und ψl

  16. Alignment • g(i,k) bzw. h(j,l) sind Kosten für Lücke φi...φk im ersten bzw. ψj...ψl im zweiten String • Rekursionsformel: • A(k,0) = h(0,k), 1≤k≤K, und A(0,l) = g(0,l), 1≤l≤L

  17. Alignment • Kosten für Austauschen gleicher Phoneme gleich 0 • Vokal-Konsonant-Austausch wird durch unendliche Kosten verboten • Konsonant-Konsonant- bzw. Vokal-Vokal-Austausch genauso teuer wie Austausch einer Lücke • Phonem, das am häufigsten an einer Stelle auftaucht wird in die Transkription übernommen

  18. Beispiel-Alignment

  19. Vergleich • Um zu zeigen, wie gute Ergebnisse PbLA liefert, wird es mit einem Entscheidungsbaumsystem verglichen • Entscheidungsbaum hat 2000 Knoten • Trainingskorpus besteht aus 56514 überwiegend westeuropäische Namen • Testvokabular: 500 Namen aus 84193 grossem Namenslexikon versch. ethnischer Gruppen • Ergebnis: 23,3% Phonemfehlerrate, 80,2% Wortfehlerrate

  20. Vergleich • PbLA: M = 56514 und N = 8257 bei n = 3 • SWZ auf (8257 x 56514) Matrix W mit R = 100 • Schwelle wurde so gewählt, dass durchschnittlich 200 orthographische Nachbarn für OOV-Worte gefunden wurden • Bessere Ergebnisse: 13,4% Phonemfehlerrate, 38,0% Wortfehlerrate

  21. Vergleich • PbLA liefert bessere Ergebnisse • Erfordert (fast) keine linguistische Vorkenntnisse, ausser Wissen über Vokale und Konsonanten, s. Kostenfunktion • Keine Beaufsichtigung, weil kein Training nötig

  22. Fragen?

  23. Ende!

More Related