230 likes | 362 Views
HS Transkription in Sprachsynthese und - erkennung. Analogiebildung II Yavuz Tüzün. Rückblick. Systeme mit Trainingsdaten füttern Ergebnisse müssen kontrolliert werden ggf. durch back propagation verbessern IL-Systeme (inductive learning) bilden Buchstaben(-folgen) auf Phoneme ab
E N D
HS Transkription in Sprachsynthese und - erkennung Analogiebildung II Yavuz Tüzün
Rückblick • Systeme mit Trainingsdaten füttern • Ergebnisse müssen kontrolliert werden • ggf. durch back propagation verbessern • IL-Systeme (inductive learning) bilden Buchstaben(-folgen) auf Phoneme ab • PbA (Pronunciation by Analogy, s. AB I) vergleicht Zeichenketten auf orthographische Ähnlichkeit und verwendet die durch vorheriges Alignment den Ketten zugewiesenen Lautfolgen. Die Verkettung der Lautfolgen ergibt die Transkription.
Rückblick • Liefern gute Ergebnisse für sprachspezifische Wörter
Pronunciation by Latent Analogy • Weiterentwicklung von PbA • Kein vorheriges Alignment • Alignment nur zwischen Transkriptionen ganzer Wörter • Die Wörter sind auf Grund orthographischer Ähnlichkeit zum Eingabewort ausgewählt • Metrik aus der Analysis (Latent Semantic Analysis) dient als Instrument • bestimmt charakteristische Buchstabenstrings der Wörter • stellt ein Mass der Eindeutigkeit bestimmter Buchstabenketten zur Bestimmung von Wörtern dar
Pronunciation by Latent Analogy • Ergebnis ist Menge von orthographischen Ankern, für jedes „In-Vocabulary“ (IV) -Wort ein Anker
Orthographische Nachbarn • V sei Menge der IV-Wörter, |V| = M • T sei Menge der Substrings mit Länge n, |T| = N • '-' steht für Wortanfang und -ende, gilt als Buchstabe mit Länge 1 M Spalten, j-te Spalte für j-tes Word vj N Zeilen, i-te Zeile für i-ten Substring ti (N x M) Matrix W
Orthographische Nachbarn • wij sagt aus zu welchem Mass Substring ti aus T im Wort vi aus V vorkommt • SWZ von W: W = USVT • U links singuläre Matrix, Reihenvektor ui • V rechts singuläre Matrix, Reihenvektor vj • Typische Grössen: R = 50 – 100, N = 10000,M = 10000 – 100000, n = 3 (N x M) W (N x R) U (R x R) S (R x M) VT
Beispiel Orthographische Nachbarn • Vokabular: „rough“, „though“, „through“ • Substrings mit der Länge n = 3 bilden:-ro rou oug ugh gh- -th tho hou thr hro rough though through -ro 1 0 0 rou 1 0 1 oug 1 1 1 ugh 1 1 1 (10 x 3) W gh- 1 1 1 -th 0 1 1 tho 0 1 1 hou 0 1 0 thr 0 0 1 hro 0 0 1
Beispiel Orthographische Nachbarn • SWZ (engl.: Singular Value Decomposition) mit R = 2 3 2 3 W U S VT 2 10 10
Beispiel Orthographische Nachbarn • OOV-Wort: „thorough“ • Berchnung Vektor thorough -ro 0 rou 1 oug 1 ugh 1 (10 x 1) gh- 1 -th 1 tho 1 hou 0 thr 0 hro 0
Beispiel Orthographische Nachbarn • SWZ von , so dass U und S gleich bleiben: 1 2 1 U S 2 10 10
Beispiel Orthographische Nachbarn • Abstände des OOV-Wortes zu allen IV-Wörtern mit Cosinusfunktion berechen: • IV-Wörter umgekehrt in absteigender Entfernung sortieren • IV-Wörter innerhalb eines vorher bestimmten Radius bilden orthographische Nachbarschaft zu Eingabewort
Beispiel Orthographische Nachbarn -0,6 -0,4 -0,2 0,0 0,2 tho though hou oug ugh gh- thorough -th rou thr hro -ro through rough 0,0 0,2 0,4 0,6 0,8 1,0
Alignment • Alignment von kompletten Aussprachen aus der orthographischen Nachbarschaft • Alignment startet mit jenem Phonemsequenz, welches am nächsten zu einem Substring mit Begrenzung für Wortanfang liegt. • Substring mit Begrenzung für Wortanfang ist der nächstgelegene am OOV-Wort • Im Beispiel: -th through
Alignment • Modifizierter komplizierter Algorithmus aus Bioinformatik • Findet Gruppe von Proteinen innerhalb einer Proteinkette • Identifikation von Genen in der DNA • Seien φ1...φk...φKund ψ1...ψl...ψLPhonemstrings • A(k,l) sind minimalen Kosten vom Alignment zwischen φ1...φk und ψ1...ψl • C(k,l) sind Kosten für das Austauschen der Phoneme φk und ψl
Alignment • g(i,k) bzw. h(j,l) sind Kosten für Lücke φi...φk im ersten bzw. ψj...ψl im zweiten String • Rekursionsformel: • A(k,0) = h(0,k), 1≤k≤K, und A(0,l) = g(0,l), 1≤l≤L
Alignment • Kosten für Austauschen gleicher Phoneme gleich 0 • Vokal-Konsonant-Austausch wird durch unendliche Kosten verboten • Konsonant-Konsonant- bzw. Vokal-Vokal-Austausch genauso teuer wie Austausch einer Lücke • Phonem, das am häufigsten an einer Stelle auftaucht wird in die Transkription übernommen
Vergleich • Um zu zeigen, wie gute Ergebnisse PbLA liefert, wird es mit einem Entscheidungsbaumsystem verglichen • Entscheidungsbaum hat 2000 Knoten • Trainingskorpus besteht aus 56514 überwiegend westeuropäische Namen • Testvokabular: 500 Namen aus 84193 grossem Namenslexikon versch. ethnischer Gruppen • Ergebnis: 23,3% Phonemfehlerrate, 80,2% Wortfehlerrate
Vergleich • PbLA: M = 56514 und N = 8257 bei n = 3 • SWZ auf (8257 x 56514) Matrix W mit R = 100 • Schwelle wurde so gewählt, dass durchschnittlich 200 orthographische Nachbarn für OOV-Worte gefunden wurden • Bessere Ergebnisse: 13,4% Phonemfehlerrate, 38,0% Wortfehlerrate
Vergleich • PbLA liefert bessere Ergebnisse • Erfordert (fast) keine linguistische Vorkenntnisse, ausser Wissen über Vokale und Konsonanten, s. Kostenfunktion • Keine Beaufsichtigung, weil kein Training nötig