140 likes | 282 Views
Standardization on Cantonese Romanization for Phonetic based Applications 粵語漢字羅馬拼音標準與語音應用. 陸勤 主要内容 項目概要 標音原則 項目進展. 項目概要. 題目 : 粵語漢字羅馬拼音標準與語音應用 ( ITS/057/02 ) 資助單位 : 香港創新科技基金 開始日期 : 2002 .10.1, 18 個月 預期完成日期 : 31/03/2004 項目負責人 : 陸勤 (luk6 kan4) ,
E N D
Standardization on Cantonese Romanization for Phonetic based Applications粵語漢字羅馬拼音標準與語音應用 陸勤 主要内容 • 項目概要 • 標音原則 • 項目進展
項目概要 • 題目:粵語漢字羅馬拼音標準與語音應用(ITS/057/02) • 資助單位:香港創新科技基金 • 開始日期: 2002.10.1, 18個月 • 預期完成日期: 31/03/2004 • 項目負責人: 陸勤(luk6 kan4), • 項目合作者: Cheung Kwan Hin張群顯(zoeng1 kwan4 hin2), 香港語言學會 • 項目的主要目的和範圍 • 採用一個標準/規範的(羅馬化)粵語拼音方法 • ISO 10646 BMP内和香港增補字符集内所有漢字 • 提供多音字的(簡單)詞例 • 建立一個推動使用粵語拼音方法的網頁 • 提供項目的成果 • 自學工具 • 組織推廣講座
工作形式與方法 • 項目由理大的小組牽頭,並于其它專業團體和專家合作 • 成立一個在政府的[中文界面咨詢委員會] 之下的[中文電腦用字工作小組粵音專責小組] • 通過和採用既定的羅馬化拼音方法 • 制定取音的原則 • 審議和通過結果 • 與香港語言學會合作準備教材和推廣成果
拼音方案的選擇 • [中文電腦用字工作小組:粵音專責小組] 六次會議 • 選擇和確定使用: 粵語拼音方案(LSHK) • 選擇粵音的三個主要來源: • 《廣州話正音字典》,詹伯慧,廣東人民出版社,2002年7月。 • 《廣州話標準音字彙》,周無忌、饒秉才,商務印書館香港分館,1988年2月。 • 《商務新詞典》縮印本,黃港生,商務印書館(香港)有限公司,2002年10月。 • 參考 《粵語拼音字表》和其它資料 • 分類處理不同字的拼音資料 • 系統方法處理系統性的變音/變調 • 區別處理印刷出版的資料和内部工作的數據 • 會為非華語漢字標音,但會區別處理
工作的具體内容 • 漢字的分類 ( 29,145 chars.) • 漢字粵語拼音標註為電腦的應用提供基本信息 • 強調“現代音” • 華語漢字 原指指內地、台灣、香港和新加坡所使用的所有漢字;在本文件內特指國際標準《ISO/IEC 10646-1:2000》內接受的由內地、台灣、香港和新加坡提交的所有漢字以及《香港增補字符集 – 2001》(Hong Kong Supplementary Character Set – 2001) 內的全部漢字。 可包括《漢語大字典〉,《康熙字典〉,和其他漢語字典内的中文漢字 • 非華語漢字 原指國際標準《ISO/IEC 10646-1:2000》內接受的不是內地、台灣、香港和新加坡提交的漢字。 但有漢字出處的除外
簡化字Simplified Chinese Character (GB 12200.1-90《漢語信息處理詞彙01部分:基本術語》) • 特指內地於1986年公佈的《簡化字總表》(見上文2.2.14段) 所列的字。 • 類推簡化字 • 指沒有在《簡化字總表》內列出,但根據《簡化字總表》的簡化偏旁部首類推出來的簡化字。 • 異體字 • 指《第一批異體字整理表》(見上文2.2.15段) 和《新華字典》(見上文2.2.3段) 內與規定的正體字同音、同義而寫法不同的異體字。 • 新舊字形 • 指包含《新舊字形對照表》(見上文2.2.4段) 內部件新舊寫法的漢字。
繁體字環境 • 指在香港及台灣應用的繁體字書寫環境。電腦內以大五碼 (Big5) 編碼的中文平台是典型的繁體字書寫環境。 • 簡化字環境 • 指內地規範的簡體字書寫環境。電腦內以國標 (GB2312-80) 編碼的中文平台是典型的簡體字書寫環境。 • 訓讀 • 指借用同義或近義而讀音不同的字,取其字義而不取字音。 • 破讀 • 同一個字形有兩個或以上讀音時,把習慣上認為非最通常的讀音,叫做破讀。 • 首選音 (default音) • 爲配合電腦的文字語音轉換系統,必須每一個字給予一個 default 音(首選音)。每一個漢字只有一個首選音。 • 首選音爲某字最常用的音,亦即辭書排列在首的讀音。若發現有錯或可疑之處,將提出討論。
字音分類 • 單音字不予分類。 • 多音字先將多義多音區分開。同義多音時,讀音簡單分爲三類: • 無標記 (unmarked):最常用的讀音(default) • 又音:其他讀音 • 罕音:特殊讀音 • 音序: • 多音字注音的排序原則上以音的使用率為基準。 • 多音字破讀可按與意義無關和與意義有關兩個層面區分。 • 破讀與意義無關(例:希臘), 則常用度高的定為無標記音,其他為又音。 • 破讀與意義有關時(例:快樂、音樂),可分別標注為不同的無標記音。
字表以《商務新詞典》、《廣州話正音字典》和《廣州話標準音字彙》(見上文2.2段) 爲主要參考書。凡此三本詞典已有粵音的漢字,本字表會收錄或參考該注音;一字多音時,會先將多義多音區分;同義多音時,則以該字的常用性爲大致的排序。 其它參考是否符合“現代”的要求,由編輯及委員會審核為凖 • 凡《商務新詞典》、《廣州話正音字典》和《廣州話標準音字彙》三本詞典沒有收錄的漢字,會以《漢語大字典》、《漢字標準字典》和《康熙字典》 此次序,根據以下原則標上粵音: • 等同字注音:凡有“同某字”關係者,依其等同字之音。 • 漢語拼音及反切:參考反切及漢語拼音作推論。 • 無任何注音可參考者,按以下之方法注音: • 同義字注音:依同義字字音推定。 例:誮 / 艝 / 㐇 (九) / 㐉 (丁) • 形聲注音:形聲結構者加注聲符之音。 例:枡 sing1 / 猠 din2 • 無理注音:需專家小組討論通過。 例:㐂 / 㐃
特殊漢字可以多音節字標注類別 • 表示度量單位的雙音節字,如:‘’(千瓦)及‘嗧’(加侖)。如某字兼具單音,以該單音作爲無標記(unmarked)音 • ‘卅’及‘卌’兩字由於涉及粵語口語讀法,所以本字表沒有依從詞書所注的單音節音,而賦予實際的雙音節發音 不屬度量衡單位的多音節字,如‘’及‘囍’等字,不可按上述原則處理。這些字可能是雙音或三音,處理方法容後討論。 • 在工作範圍內的字符如爲漢字的基本部件、部首、或非獨立漢字,並統稱部件,會予以獨立分類,賦予名稱,並以名稱讀音 • 字形既是獨立漢字又是部件(含部首), 除注漢字音外,會附加標注爲部件類,並給予部件名稱。 例如:‘丶’(zyu2 / dim2);‘勹’(baau1 / baau1zi6tau4) • 如果僅爲漢字部件 (含部首),而非獨立漢字,《康熙字典》、《漢語大字典》及《漢字標準字典》等皆沒有注音,則按粵語的慣稱注音。 如:“忄”(U+5FC4) 俗稱“豎心邊”,標音爲“syu6sam1bin1” “氵”(U+6C35) 俗稱“三點水”,標音爲“saam1dim2seoi2”
繁簡環境處理: • 有些漢字在簡化字環境下的發音與繁體字環境下發音會有不同 例:‘万’字,在簡化字環境可讀作 maan6(‘萬’的簡化字)及mak6(‘万俟’,複姓),但在繁體字環境只可讀作 mak6。 又如:‘乾’字,在簡化字環境只可讀作kin4(‘乾坤’),但在繁體字環境可讀作gon1(‘乾燥’) 及kin4 • 本字表會標示這類字發音的簡繁體環境,並採用《新華字典》及《簡化字總表》作爲繁簡字體的依據。類推簡化字則以《簡化字總表》內的類推規則作依據
異讀處理細則 • 傳統系統性異讀: • n- l- - 以n- 為無標記音 • ng- 零- - 以ng- 為無標記音 • 零- ng- - 以零- 為無標記音 • gw/kw g/k /_o - 以gw/kw- 為無標記音 • ng m - 以ng- 為無標記音 • 半系統性異讀 • 文白 • 文白分工型 例:坐 zo6 ~ co6 • 常文型 (常規) - 以文讀為無標記音 例:零 ling4~leng4 • 常白型 (例外) - 以白讀為無標記音 例:井 zing2~zeng2
形態 (morphological) 變調 • T3-6 T2一般 • 一般 以T3-6為無標記音 例:情 cing42 • 久變失繫 - 以T2為無標記音 例:橙 caang4~2 - 以T2-6為無標記音 • T2-6 T1 例:尾 mei51 • Tx T4 • 疊字親屬稱謂 - 以Tx為無標記音 例:弟 dai64 • 其他 - 以Tx為無標記音 (待定) 例:芝 zi14
文白異讀涉T2形態變調 例:名 ming4~meng2 - 以文讀T3-6為無標記音 • T3 ~ T5 - 以原調為無標記音 例:試 si3~5 • 陽調變陰 - 必須逐字考慮 例:演 jin52 • 不送氣變送氣 - 必須逐字考慮 例:昆 gk(wan) • 辨義破讀 - 必須逐字考慮 例:樂 lok6~ngok6 • 零散異讀 - 必須逐字考慮 • 純異讀 例:縷 leoi5lau5 • 涉其他因素異讀 • 涉“配詞”破讀 例:(希)臘 laap6lip6 • 涉文白異讀 例:在 zoi6coi5 • 涉形態變調 例:調 diu62