1 / 20

華語文學系台灣語文碩士學位班

華語文學系台灣語文碩士學位班. 羅馬字 t„ 台語文漢羅文本中 ê 使用比例分析 — 以台語文語料庫為基礎. 研究生:蔡秀俐 中華民國九十七年七月. 第一章 前言. 第一節 研究背景 因為我感覺寫台語文章 ê 時,發現 tiä n - ë tú-tiõh böe- 曉寫 ê 漢字,所以我只好寫白話字,就 ˜ 免煩惱。 到底什麼時陣寫漢字?什麼時陣寫羅馬字?. 第一章 前言. 第二節 研究動機

naida-oneil
Download Presentation

華語文學系台灣語文碩士學位班

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 華語文學系台灣語文碩士學位班 • 羅馬字t„台語文漢羅文本中ê使用比例分析—以台語文語料庫為基礎 研究生:蔡秀俐 中華民國九十七年七月

  2. 第一章 前言 • 第一節 研究背景 因為我感覺寫台語文章 ê 時,發現tiän- ë tú-tiõh böe-曉寫 ê 漢字,所以我只好寫白話字,就 ˜ 免煩惱。 到底什麼時陣寫漢字?什麼時陣寫羅馬字?

  3. 第一章 前言 • 第二節 研究動機 Chit-má beh叫逐家用白話字寫台語文,是真困難;‹-koh nä用漢羅合用ê方式來寫,一般ê人kah ë-tàng來做,看ê人mä看kah有。 漢羅合用ê時,漢字、羅馬字混用ê比率,siöng好根據客觀ê語言學ê研究來規劃(張學謙 2003)。羅馬字ê出現有一個頻率標準,是因為虛詞ia-是phái寫ê字,這是我t„ chia beh探討研究ê。

  4. 第一章 前言 • 第三節 研究目的 beh了解台語文漢羅書寫時,羅馬字ê使用情形, koh希望提供確實ê羅馬字ê 使用情形kap分析。 1. 羅馬字t„台語文漢羅文本中出現ê頻率是如何? 2. 羅馬字使用ê情形、原因如何?

  5. 第二章 文獻分析 第一節 台語漢字ê書寫歷史: 第二節 白話字ê歷史: 第三節 漢羅合用ê主張實踐: 第四節 母語文字化相關研究: 第五節 語料庫語言學ê相關研究:

  6. 第三章 研究步驟 • 第一節 語料庫來源 以楊允言、張學謙等人所搜集ê「台語文語料庫」為主,文類涵蓋學術論文、報導性文章(新聞報導、訪談)、各類創作(小說、劇本、散文、新詩、笑話、寓言故事、囝仔歌)、民間文學、書信、...等各類型。

  7. 第三章 研究步驟 • 第二節 斷詞 斷詞方法,是利用”逆向最大比對法(Backward maximal matching algorithm)” ê方法來斷詞。 Ë-tàng t„網路ê漢羅台語文斷詞系統(http://poj.likulaw.info/hanlo_hunsu.php)來做斷詞,kan-na kah beh斷詞ê 一句話,phah t„ 輸入資料ê 格á 內底,系統就ë 斷詞好seh。

  8. 第三章 研究步驟 • 第三節 詞頻統計 T„「台語文語料庫蒐集及語料庫為本台語書面語音節詞頻統計」(http://iug.csie.dahan.edu.tw/giankiu/keoe/KKH/guliau-supin/guliau-supin.asp)內看到楊允言伊所統計 ê 結果。

  9. 第三章 研究步驟 • 第四節 人工檢查及分析方法 • 一、音節統計: 1、T„工具列 ê 資料內底,用排序 ë-tàng kah 羅馬字kap漢字分開。 2、統計羅馬字kap 漢字ê字數。 3、用Σ統計羅馬字kap漢字使用 ê 頻率總合。 4、算出羅馬字kap漢字 ê 使用比率。

  10. 第三章 研究步驟 • 二、語詞統計: 1、利用Excel 內函數程式=CODE(B2),ë-tàng kah羅馬字 ê a 到 u ùi 79 到 117排,詞ê第一字是羅馬字先排出來。 2、利用Excel 內函數程式= CODE(RIGHT(B2,1)),ë-tàng kah siöng尾字是漢字,ùi 42,000開始排。 3、kap頂面二 ê 數字加起來,總合 t„ 250以下 ê 是全羅馬字,總合 t„ 42,000到 51,000 是漢羅合用,總合超過80,000 是全漢字。 4、少數漢羅合用 ê 字會 läm t„全羅馬字(bë-記-tit) ia-是全漢字(是˜是)內底,ài用人工揀出來。

  11. 第四章 研究分析 • 第一節 使用比例分析 一、Ùi全部音節來看: 1、用字數來分析: Tī chit 5,073字漢字kap 3,454字羅馬字中,使用ê比例是:漢字佔59.49%,羅馬字佔40.51%。 2、用使用頻率來分析: 使用ê頻率是:漢字佔78.44%,羅馬字佔21.56% 。

  12. 第四章 研究分析 • 第一節 使用比例分析 二、 Ùi使用總合80% ê音節來看: 1、用字數來分析: Tī chit 546 字漢字kap 92字羅馬字中,使用ê比例是:漢字佔85.58%,羅馬字佔14.42% 。 2、用使用頻率來分析: 使用 ê 頻率是:漢字佔78.84%,羅馬字佔21.16% 。

  13. 第四章 研究分析 • 第一節 使用比例分析 綜合頂面二種統計來看,羅馬字ê使用字數比率,用全部字數kap 80%高頻率 ê 字數,ùi 40.51%減到14.42%,差足濟 ê;m̄-koh,in ê 使用頻率就無差不多,kan-na差0.5% niā。

  14. 第四章 研究分析 • 第一節 使用比例分析 三、 Ùi語詞來看: Ùi本語料庫 ê 語詞來看,全羅馬字有9,713 ê 詞,漢羅合用有2,676 ê 詞,漢字有34,659 ê 詞,ia有82 ê 符號,總共有47,130 ê 詞。 漢字 ê 詞數佔kah濟,m̄-koh,使用頻率並無kôan;tan-倒羅馬字 ê 使用詞數無濟,m̄-kah,伊 ê 使用頻率khah kôan。

  15. 第四章 研究分析 • 第二節 羅馬字詞類分析 Kah使用超過100擺,高詞頻4,358 ê 語詞內底,全羅馬字 627 ê 詞,kap 107 ê 漢羅合用 ê 詞,分兩大類,實詞kap虛詞

  16. 第四章 研究分析 • 第二節 詞類分析 統計發現:虛詞 ê 總量比實詞khah濟,雖然 t„ 使用量無夠300擺 ê 詞來講,虛詞kap實詞 ê 使用量差無濟;˜-koh t„ 使用超過1,000擺 ê 比率來算, 100 ê 有羅馬字 ê 詞內底,虛詞就佔超過 82 ê á,實詞kan-na 佔 18 ê,數量差足濟 ê;所以,lán leh書寫台語文章 ê 時,大部分是因為tú-tiõh虛詞chiah來用羅馬字寫。

  17. 第四章 研究分析 第三節 使用原因分析 T„ chit節,我beh kah書寫台語文章時,使用羅馬字 ê 原因分作三 ê 部分來分析: 一、因為漢字phái寫。(囝、囡) 二、因為無標準 ê 漢字。(真高、懸) 三、因為是詞綴。(大ê、嬰á)

  18. 第五章 結論與建議 結論 漢羅合用,是目前台語文書寫siöng濟人使用 ê 方式,每一個人使用羅馬字 ê 比率 mä 無-kâng ; 有 ê 是因為tú-tiõh虛詞,有 ê 是因為伊bôe-hiáu寫漢字,有 ê 是因為漢字phái-寫,有 ê 是因為漢字書寫時無一個確定 ê 字,所以,一般 ê 人nä tú-tiõh choai問題時,就 ë 寫羅馬字。

  19. 第五章 結論與建議 建議 希望本研究 ê 結果,mä ë-tàng h³ 教育部後擺beh推sãk推薦用字 ê 時,有一 ê 初步 ê做法。 Mä希望有人ë-tàng kah近年濟濟 ê 台語文文本,koh加上教育部公佈 ê 400詞漢字推薦用字了後,羅馬字t„ 台語文本 ê 使用情形加入去統計。

  20. 報 告 結 束 謝 謝 大 家

More Related