500 likes | 688 Views
Tâi-gú gú-liāu-khò . gú-giân-ha̍k kang-chok-hong 台語語料庫語言學工作坊. 楊允言 Iûⁿ Ún-giân 台中教育大學台灣語文學系 助理教授. Gu-liau-khoo. 2010 語言學卓越營 2010/7/23. 報告大綱. Tai-kong. 說明 羅馬字字型 / 輸入法 字 / 辭典 詞頻統計資料 語詞檢索系統. 報告大綱 -2. Tai-kong. 斷詞 詞類標記 書寫系統轉換 應用:電腦講台語 語料資源. 說明. Soat-bêng.
E N D
Tâi-gú gú-liāu-khò. gú-giân-ha̍k kang-chok-hong 台語語料庫語言學工作坊 楊允言 Iûⁿ Ún-giân 台中教育大學台灣語文學系 助理教授 Gu-liau-khoo 2010 語言學卓越營2010/7/23
報告大綱 Tai-kong • 說明 • 羅馬字字型/輸入法 • 字/辭典 • 詞頻統計資料 • 語詞檢索系統
報告大綱-2 Tai-kong • 斷詞 • 詞類標記 • 書寫系統轉換 • 應用:電腦講台語 • 語料資源
說明 Soat-bêng • 假使有chah[帶]電腦來,請那上課那操作 • 講義有上網Google查詢「楊允言」 好手氣作品演講Yahoo查詢tī [在]第二個
說明-2 Soat-bêng 資料來源:M. Paul Lewis(ed.). 2009. Ethnologue : Languages of the world (16th ed.). SIL International
說明-3 Soat-bêng • 閩南語 • 語言人口數:47M • 世界排名第24名 • 漢字書寫kah羅馬字書寫互相幫贊
說明-4 Soat-bêng • 閩語/閩南語? • 廈門話(Amoy)、台灣土語、福建話、台語、閩南語(國民政府)、福佬話(客家人)、… • 約有20種稱呼 • 一個語言,各自表述? • 民間慣稱「台語」
說明-5 Soat-bêng • 台語tī台灣ê處境 • 強勢族群、弱勢語言 • 錯誤ê語言政策(獨尊華語) • 錯誤ê語言使用觀念(母語厝內講tō好、大人遷就囡仔) • 語詞流失、新語詞補充
羅馬字字型 LMJ ji-heng • 台語羅馬字,有ê符號是兩個character鬥做伙ê(符合Unicode規範),chia ê符號,假使無適當ê字型,有時仔會出現一個四角格仔,無法度正常顯示。
羅馬字字型-2 LMJ ji-heng • Tī Windows 7作業系統,已經完全無問題,總是較早期ê作業系統所提供ê字型大部分攏無支援Unicode規範(兩字鬥做伙)
羅馬字字型-3 LMJ ji-heng • Windows XP 作業系統,會使選用 Lucida Sans Unicode字型,台羅無問題,白話字差一個符號(o.)(Combining Dot Above Right,2004年納入Unicode)
羅馬字字型-4 LMJ ji-heng • Taigi Unicode http://iug.csie.dahan.edu.tw/twu.ttf • Charis SIL http://scripts.sil.org/CharisSIL_download • Doulos SIL http://scripts.sil.org/DoulosSIL_download • Gentium http://scripts.sil.org/gentium_download • DejaVu http://dejavu-fonts.org/wiki/index.php?title=Download
輸入法 Su-jip-hoat • 信望愛台語客語輸入法http://taigi.fhl.net/TaigiIME/ • 有32 bits kah 64 bits版 • 漢羅/全羅, 台羅/白話字 • 雙音節(kah以上)ê語詞,m̄免輸入聲調kah連字符 • 自定詞庫
輸入法-2 Su-jip-hoat • 教育部臺灣閩南語漢字輸入法http://140.111.56.95/hanji/MOE_TBHS_2.0.exe • Taiwanese package(羅馬字)http://tailo.fhl.net/TP/ • TaigiLMJ101http://khai.mtwww.mt.au.edu.tw/ezcatfiles/b077/img/img/775/TaigiLMJ101SB.htm • Transliterator (Firefox add-on) http://addons.mozilla.org/zh-TW/firefox/addon/883/
字/辭典 Ji/su-tian • 台華辭典 http://iug.csie.dahan.edu.tw/q/q.asp • 6萬外個詞條,漳州腔為主 • 提供羅馬字含糊查詢,輸入"hoe-chhia",會chhē出"hoe-chhia (花車)"、"hóe/hé-chhia (火車)"、"hòe/hè-chhia (貨車)"、"hóe/hé-chhiah (火鍘)“ • 會當kā辭典khǹg tī Blog邊a欄位 http://iug.csie.dahan.edu.tw/TG/CK/chhahkiann.asp
字/辭典-2 Ji/su-tian • 台日大辭典台語譯本http://taigi.fhl.net/dict/ • 9萬外個詞條,泉州腔為主 • 林俊育2002年開始整理,台文詞條改做漢羅,日文解說翻寫做台文,蔡哲民開發系統 • 後來kah中研院語言所合作,提供原圖掃瞄
字/辭典-3 Ji/su-tian • 教育部台灣閩南語常用詞辭典 http://twblg.dict.edu.tw/tw/index.htm • 1萬外個詞條,第1份官方辭典 • 漢字用字遵照教育部的規範 • 台語詞條,華語解說
字/辭典-4 Ji/su-tian • 甘字典http://taigi.fhl.net/dick/ • 廈門音新字典 • 台語音節,華語解說 • 2009年上線,台語信望愛網站提供 • 介面kah台日大辭典台語譯本類似,精差資料無仝
詞頻統計資料 Sû-pîn • 台語文詞頻統計 http://iug.csie.dahan.edu.tw/giankiu/keoe/KKH/guliau-supin/guliau-supin.asp • 國科會計畫的結案報告資料,包括漢羅台語文(400外萬詞,word tokens)kah全羅台語文語料(240外萬詞),有詞頻、互訊息、相關度ê資料
詞頻統計資料-2 Sû-pîn • 互訊息(Mutual Information) • 0 無關係(獨立事件) • > 0 愈有關係 • < 0 愈無關係
詞頻統計資料-3 Sû-pîn • 相關度(Correlation) • 數字愈大,愈有關係
詞頻統計資料-4 Sû-pîn • 因為無人工校對,mā無POS (part-of-speech)資料,MI kah Cor 品質並無好 • 台語平均詞長:1.4vs 華語 1.6 (CKIP)、2.0 (香港)
詞頻統計資料-5 Sû-pîn • 教育部台灣閩南語字詞頻http://203.64.42.97 • 官方第1份詞頻統計資料,語料分教材、口傳文學、創作文學3大類,140外萬詞 • thang利用羅馬字kā無仝漢字寫法khǹg做伙
Kiám-sek 語詞檢索 • Corcordancer、 KWIC (KeyWord In Context) • 台語文語詞檢索系統 http://iug.csie.dahan.edu.tw/TG/concordance/ • 漢羅(5.8M+)/羅馬字(3.4M+)Syl.
Kiám-sek 語詞檢索-2 • 教育部台灣閩南語字詞頻http://203.64.42.97/ • 文本lóng chhoân 2種文字型式 • 會當查詢重疊型式ê語詞 • 漢字造字利用中研院缺字系統 • 會當羅馬字、漢羅 頂下對照看Firefox需要add-on(HTML Ruby)https://addons.mozilla.org/zh-TW/firefox/addon/6812/
斷詞 Tng-su • 台語文斷詞系統http://poj.likulaw.info/hanlo_hunsu.php • 利用台華辭典,採用逆向最大比對法(Backward Maximum Matching Algorithm) • 提供使用者詞庫,增加斷詞結果ê正確率
斷詞-2 Tng-su • Backward Maximal Matching (BMM) vs FMM • Ùi聖經看台語語詞變化BMM : Ùi#聖經#看#台語#語詞#變化FMM : Ùi#聖經#看台#語#語詞#變化
斷詞-3 Tng-su • Q1:台語ê分詞規範? • 臺灣閩南語羅馬字拼音方案連字符使用規則http://www.edu.tw/files/site_content/M0001/lanrule.pdf • kah華語無啥仝款:數字、人名、… • Q2: 遵照台語分詞規範ê辭典? • 辭典內底ê詞條有ê是詞組
詞類標記 Tagging • 台語文詞類標記http://iug.csie.dahan.edu.tw/TGB/tagging/tagging.asp • 華語詞類標記http://ckipsvr.iis.sinica.edu.tw/ • 無台語文人工標記詞類資料 • kā每一個台語詞翻做華文(一對多),揀出上適當ê,chhē出這個華語詞所有可能ê詞類標記 • 用MEMM 揀出上適當ê詞類 • 詞類集採用中研院46個簡化詞類
詞類標記-3 Tagging • 實例 • ... Sió-mōe thiaⁿ chè ōe chiū chhe lâng khì kúi-nā kok sì-kè bā ... • ... 小妹聽chè 話就差人去幾若國四界bā...
詞類標記-4 Tagging • 利用程式kā詞隨個對齊 • 小妹[Sió-mōe] 聽[thiaⁿ] chè[chè] 話[ōe] 就[chiū ] 差[chhe] 人[lâng] 去[khì] 幾若[kúi-nā] 國[kok] 四界[sì-kè] bā [bā]
詞類標記-5 Tagging • 查台華辭典,加入華語詞 • 小妹[Sió-mōe]{小妹;妹子;妹妹} 聽[thiaⁿ]{聽} chè[chè]{#制;祭;詐;債;製;際;濟} 話[ōe]{話;話語} 就[chiū ]{就} 差[chhe]{打發;指派;差} 人[lâng]{人;人們} 去[khì]{去;掉} 幾若[kúi-nā]{好幾} 國[kok]{國} 四界[sì-kè]{四下裡;四處;到處;在在;處處} bā[bā]{找;物色;剛好;密;密合;覓;緊;親密}
詞類標記-6 Tagging • 以HMM挑適當ê華語詞 • 小妹[Sió-mōe]{小妹;妹子;妹妹}<妹妹> 聽[thiaⁿ]{聽}<聽> chè[chè]{#制;祭;詐;債;製;際;濟}<際> 話[ōe]{話;話語}<話> 就[chiū]{就}<就> 差[chhe]{打發;指派;差}<差> 人[lâng]{人;人們}<人> 去[khì]{去;掉}<去> 幾若[kúi-nā]{好幾}<好幾> 國[kok]{國}<國> 四界[sì-kè]{四下裡;四處;到處;在在;處處}<到處> bā[bā]{找;物色;剛好;密;密合;覓;緊;親密}<找>
詞類標記-7 Tagging • 以MEMM揀出詞類標記 • 小妹[Sió-mōe] <妹妹>(Na)聽[thiaⁿ] <聽>(VE) chè[chè] <際>(Nd)話[ōe] <話>(Na)就[chiū] <就>(D)差[chhe] <差>(VH)人[lâng] <人>(Na)去[khì] <去>(VCL)幾若[kúi-nā] <好幾> (Neu)國[kok] <國>(Na)四界[sì-kè] <到處>(D) bā[bā] <找>(VC)
choan-oann 書寫系統轉換 • 華台轉換http://taigi.fhl.net/ht/ • 台語信望愛提供,主要是利用辭典詞條來轉換,所以並無調整語詞順序,總是是一個好用ê工具,尤其是對一個初初beh開始試寫台語文ê人,會當協助避免用字無一致ê問題。
choan-oann 書寫系統轉換-2 • 全羅轉漢羅http://taigi.fhl.net/hanlo/ • 漢羅轉全羅 http://taigi.fhl.net/lohan/ • 台語信望愛提供,主要利用辭典資料做轉換
choan-oann 書寫系統轉換-3 • 全羅漢羅轉換http://203.64.42.97/cl2hl/choan-lai-choan-khi.php • 背後利用語料庫ê統計資料 • 透過字典、辭典kā所有可能ê候選字詞chhē出來,利用統計(Mutual Information)來決定beh揀tó一個。
電腦講台語 kong-oe • 台語羅馬字發音試驗系統http://iug.csie.dahan.edu.tw/tts/tts.asp • 規則變調 eg: 清清 • 隨前變調 eg:來看你 • 輕聲 eg:陳先生 • 再變調 eg: 去台南 • á[仔]前變調 eg:簿仔 • 三連音變調 eg:寒寒寒 • 升調 eg: khăn-páng[看板]
電腦講台語-2 kong-oe • 台華辭典(60K詞目)對應到華語詞 • 中研院詞庫小組80K詞目ê詞類標記 • 仝音詞,選查詢詞頻上koân ê eg : kā[把] (1211) vs 咬(294) • 詞類ambiguity暫時無處理 • 詞類標記包括:A形容詞、C連接詞、D副詞、G後置詞、I感嘆詞、M特別標記、N名詞、P介詞、R代名詞、V動詞、S時間詞、T語助詞 • 疊詞當做形容詞,其它未知詞當做名詞
電腦講台語-3 kong-oe • 變調規則:20條 • 音節層次eg: beh[欲]m̄管是m̄是語詞ê一部份(可比「kiông-beh強[欲]」),lóng標記做再變調 • 語詞層次eg: che[這]、he[那],標記做本調
電腦講台語-4 kong-oe • 詞類層次eg:詞類N(名詞),後壁ê詞類若是A(形容詞)、D(副詞)、P(介詞)、R(代名詞)抑是V(動詞),這個名詞詞尾音節標記做本調 • 句型層次eg: ē...bē會...袂ê句型出現時(bē出現tī句尾,句中出現ē ),將bē標記做輕聲
語料資源 chu-goân • (國科會數位典藏)台灣白話字文獻館http://www.tcll.ntnu.edu.tw/pojbh/script/index.php • (台文館)台語文數位典藏資料庫http://iug.csie.dahan.edu.tw/nmtl/dadwt/index.htm • 台語信望愛http://taigi.fhl.net/ • 台語文記憶http://iug.csie.dahan.edu.tw/memory/TGB/mowt.asp • (台文館)白話字數位典藏博物館http://203.64.42.97/taibunkoan/bang-cham/
語料資源-2 chu-goân • 台語線頂聖經http://taigi.fhl.net/list.html • Wikipedia台語版http://zh-min-nan.wikipedia.org/wiki/ • 台語百科http://taigi-pahkho.wikia.com/ • (文建會)台灣民間文學館http://cls.hs.yzu.edu.tw/tfl/ • 台語網http://groups.google.com/group/taigu?hl=zh-TW
Kèng-chhiáⁿ Chí-kàu敬 請 指 教ungian at gmail Kóng Tâi-gú