200 likes | 272 Views
華語文學系台灣語文碩士學位班. 羅馬字 t„ 台語文漢羅文本中 ê 使用比例分析 — 以台語文語料庫為基礎. 研究生:蔡秀俐 中華民國九十七年七月. 第一章 前言. 第一節 研究背景 因為我感覺寫台語文章 ê 時,發現 tiä n - ë tú-tiõh böe- 曉寫 ê 漢字,所以我只好寫白話字,就 ˜ 免煩惱。 到底什麼時陣寫漢字?什麼時陣寫羅馬字?. 第一章 前言. 第二節 研究動機
E N D
華語文學系台灣語文碩士學位班 • 羅馬字t„台語文漢羅文本中ê使用比例分析—以台語文語料庫為基礎 研究生:蔡秀俐 中華民國九十七年七月
第一章 前言 • 第一節 研究背景 因為我感覺寫台語文章 ê 時,發現tiän- ë tú-tiõh böe-曉寫 ê 漢字,所以我只好寫白話字,就 ˜ 免煩惱。 到底什麼時陣寫漢字?什麼時陣寫羅馬字?
第一章 前言 • 第二節 研究動機 Chit-má beh叫逐家用白話字寫台語文,是真困難;‹-koh nä用漢羅合用ê方式來寫,一般ê人kah ë-tàng來做,看ê人mä看kah有。 漢羅合用ê時,漢字、羅馬字混用ê比率,siöng好根據客觀ê語言學ê研究來規劃(張學謙 2003)。羅馬字ê出現有一個頻率標準,是因為虛詞ia-是phái寫ê字,這是我t„ chia beh探討研究ê。
第一章 前言 • 第三節 研究目的 beh了解台語文漢羅書寫時,羅馬字ê使用情形, koh希望提供確實ê羅馬字ê 使用情形kap分析。 1. 羅馬字t„台語文漢羅文本中出現ê頻率是如何? 2. 羅馬字使用ê情形、原因如何?
第二章 文獻分析 第一節 台語漢字ê書寫歷史: 第二節 白話字ê歷史: 第三節 漢羅合用ê主張實踐: 第四節 母語文字化相關研究: 第五節 語料庫語言學ê相關研究:
第三章 研究步驟 • 第一節 語料庫來源 以楊允言、張學謙等人所搜集ê「台語文語料庫」為主,文類涵蓋學術論文、報導性文章(新聞報導、訪談)、各類創作(小說、劇本、散文、新詩、笑話、寓言故事、囝仔歌)、民間文學、書信、...等各類型。
第三章 研究步驟 • 第二節 斷詞 斷詞方法,是利用”逆向最大比對法(Backward maximal matching algorithm)” ê方法來斷詞。 Ë-tàng t„網路ê漢羅台語文斷詞系統(http://poj.likulaw.info/hanlo_hunsu.php)來做斷詞,kan-na kah beh斷詞ê 一句話,phah t„ 輸入資料ê 格á 內底,系統就ë 斷詞好seh。
第三章 研究步驟 • 第三節 詞頻統計 T„「台語文語料庫蒐集及語料庫為本台語書面語音節詞頻統計」(http://iug.csie.dahan.edu.tw/giankiu/keoe/KKH/guliau-supin/guliau-supin.asp)內看到楊允言伊所統計 ê 結果。
第三章 研究步驟 • 第四節 人工檢查及分析方法 • 一、音節統計: 1、T„工具列 ê 資料內底,用排序 ë-tàng kah 羅馬字kap漢字分開。 2、統計羅馬字kap 漢字ê字數。 3、用Σ統計羅馬字kap漢字使用 ê 頻率總合。 4、算出羅馬字kap漢字 ê 使用比率。
第三章 研究步驟 • 二、語詞統計: 1、利用Excel 內函數程式=CODE(B2),ë-tàng kah羅馬字 ê a 到 u ùi 79 到 117排,詞ê第一字是羅馬字先排出來。 2、利用Excel 內函數程式= CODE(RIGHT(B2,1)),ë-tàng kah siöng尾字是漢字,ùi 42,000開始排。 3、kap頂面二 ê 數字加起來,總合 t„ 250以下 ê 是全羅馬字,總合 t„ 42,000到 51,000 是漢羅合用,總合超過80,000 是全漢字。 4、少數漢羅合用 ê 字會 läm t„全羅馬字(bë-記-tit) ia-是全漢字(是˜是)內底,ài用人工揀出來。
第四章 研究分析 • 第一節 使用比例分析 一、Ùi全部音節來看: 1、用字數來分析: Tī chit 5,073字漢字kap 3,454字羅馬字中,使用ê比例是:漢字佔59.49%,羅馬字佔40.51%。 2、用使用頻率來分析: 使用ê頻率是:漢字佔78.44%,羅馬字佔21.56% 。
第四章 研究分析 • 第一節 使用比例分析 二、 Ùi使用總合80% ê音節來看: 1、用字數來分析: Tī chit 546 字漢字kap 92字羅馬字中,使用ê比例是:漢字佔85.58%,羅馬字佔14.42% 。 2、用使用頻率來分析: 使用 ê 頻率是:漢字佔78.84%,羅馬字佔21.16% 。
第四章 研究分析 • 第一節 使用比例分析 綜合頂面二種統計來看,羅馬字ê使用字數比率,用全部字數kap 80%高頻率 ê 字數,ùi 40.51%減到14.42%,差足濟 ê;m̄-koh,in ê 使用頻率就無差不多,kan-na差0.5% niā。
第四章 研究分析 • 第一節 使用比例分析 三、 Ùi語詞來看: Ùi本語料庫 ê 語詞來看,全羅馬字有9,713 ê 詞,漢羅合用有2,676 ê 詞,漢字有34,659 ê 詞,ia有82 ê 符號,總共有47,130 ê 詞。 漢字 ê 詞數佔kah濟,m̄-koh,使用頻率並無kôan;tan-倒羅馬字 ê 使用詞數無濟,m̄-kah,伊 ê 使用頻率khah kôan。
第四章 研究分析 • 第二節 羅馬字詞類分析 Kah使用超過100擺,高詞頻4,358 ê 語詞內底,全羅馬字 627 ê 詞,kap 107 ê 漢羅合用 ê 詞,分兩大類,實詞kap虛詞
第四章 研究分析 • 第二節 詞類分析 統計發現:虛詞 ê 總量比實詞khah濟,雖然 t„ 使用量無夠300擺 ê 詞來講,虛詞kap實詞 ê 使用量差無濟;˜-koh t„ 使用超過1,000擺 ê 比率來算, 100 ê 有羅馬字 ê 詞內底,虛詞就佔超過 82 ê á,實詞kan-na 佔 18 ê,數量差足濟 ê;所以,lán leh書寫台語文章 ê 時,大部分是因為tú-tiõh虛詞chiah來用羅馬字寫。
第四章 研究分析 第三節 使用原因分析 T„ chit節,我beh kah書寫台語文章時,使用羅馬字 ê 原因分作三 ê 部分來分析: 一、因為漢字phái寫。(囝、囡) 二、因為無標準 ê 漢字。(真高、懸) 三、因為是詞綴。(大ê、嬰á)
第五章 結論與建議 結論 漢羅合用,是目前台語文書寫siöng濟人使用 ê 方式,每一個人使用羅馬字 ê 比率 mä 無-kâng ; 有 ê 是因為tú-tiõh虛詞,有 ê 是因為伊bôe-hiáu寫漢字,有 ê 是因為漢字phái-寫,有 ê 是因為漢字書寫時無一個確定 ê 字,所以,一般 ê 人nä tú-tiõh choai問題時,就 ë 寫羅馬字。
第五章 結論與建議 建議 希望本研究 ê 結果,mä ë-tàng h³ 教育部後擺beh推sãk推薦用字 ê 時,有一 ê 初步 ê做法。 Mä希望有人ë-tàng kah近年濟濟 ê 台語文文本,koh加上教育部公佈 ê 400詞漢字推薦用字了後,羅馬字t„ 台語文本 ê 使用情形加入去統計。
報 告 結 束 謝 謝 大 家