140 likes | 328 Views
Romanisierung : Chinesische Schriftzeichen -> Pinyin. Vortragende: Jue Wang, Wenchao Li. Überblick. Chinesische Schriftzeichen Pinyin Schwierigkeiten und L ösungen Test Programme. Chinesische Schriftzeichen. Anzahl:. Verwendungsumfang.
E N D
Romanisierung: Chinesische Schriftzeichen -> Pinyin Vortragende: Jue Wang, Wenchao Li
Überblick • Chinesische Schriftzeichen • Pinyin • Schwierigkeiten und Lösungen • Test Programme
Chinesische Schriftzeichen • Anzahl:
Verwendungsumfang • Chinesische Zeichen werden außerdem in der japanischen Schrift als Kanji, der koreanischen Schrift als Hanja und in der vietnamesischen Schrift als chữ Hán verwendet.
Kodierung • Anzahl der Zeichen unter verschiednen Kodierungen • CNS11643: 76,067 • BIG-5: 13,053 • GBK: 20,912 • Unicode CJK: 20,902 • Unicode CJK + ExtA + ExtB : >70,000
Pinyin • Pinyin (chin. 拼音, Pīnyīn): die offizielle chinesische Romanisierung des Hochchinesischen in der Volksrepublik China. • Eigentlich heißt es Hànyǔ Pīnyīn Wénzì (chin. 汉语拼音文字/漢語拼音文字 „Zeichen zur Fixierung der Laute im Chinesischen“). • Eine Lautumschrift für chinesische Zeichen • http://de.wikipedia.org/wiki/Pinyin • Aussprache: Anaute, Auslaute
Töne Chinesisch - das klingt ja alles gleich • Nur 415 Silben. Diese werden in ihrer Aussprache durch 4 verschiedene Töne unterschieden. • Bezeichnung der Töne: Tone
Schwierigkeiten und Lösungen • Ambiguität: Mehrere Aussprache • 会: • 会和(Hui4-He2, zusammen treffen) 会计(Kuai4-Ji4, Bilanzbuchhalter) • Familienamen, Ortnamen, usw. • 华(Hua2) – 华罗庚(Hua4-Luo2geng1, ein Mathematiker) • 燕(Yan4) – 燕京(Yan1-Jing, alter Name von Beijing) • Wörter Matching, Namenerkennung • Keine Leerzeichen zwischen Wörter • N_Gramm Matching, Tokenisieren
Lösungen: N_gram • N_gram Matching Method: Zeitaufwand für Länge Aufsatz
Lösungen : Tokenisieren • The Maximum Matching Method • The Opposite Directional Maximum Matching Method • The Optimum Matching Method • 中国/经济/发展/很/快。 • Chinesische/ Wirtschaft/ entwickelt/ sehr/ schnell.
Tokenisieren:Personennamen • Familiennamen+Anrede • List der Familienamen • Zeichen nur als Familienamen verwendet • Extra 1 oder 2 Bedeutungen • Allgemeine Zeichen
Program • Einzelnes Zeichen --- Alle Möglichkeiten ausliefern: 啊 • Phrase: entsprechende Möglichkeit von Ergebnis des Tokenisieren 评论/语言 ping2lun4/yu3yan2 评/论语/言 ping2/lun2yu3/yan2