1 / 61

詞語知多少

詞語知多少. 鄭錦全 2001 年 4 月 3 日. 語言. 語言是人一生中習得的符號系統 代代傳承 代代有代溝 -- 粵語“你我他” 時有古今,地有南北,音有轉移,詞有消長 達爾文觀察物種原始與孳乳,發覺詞語隨時代消長,新詞產生,舊語消失。他的解釋是因為人的記憶有限,詞語不能無限積累,只能新陳代替 (Darwin 1871) 。. 文字. 文字的基礎是語言 -- “ 狗戴帽子” Good morning 文化傳承與文字積累. 語言的單位. 語音 詞素,字 詞語,語詞 詞組 句 句群 段 篇章. 多少?. 詞素,字 : 古今字數

Download Presentation

詞語知多少

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 詞語知多少 鄭錦全 2001 年4月3日

  2. 語言 • 語言是人一生中習得的符號系統 • 代代傳承 • 代代有代溝 -- 粵語“你我他” • 時有古今,地有南北,音有轉移,詞有消長 • 達爾文觀察物種原始與孳乳,發覺詞語隨時代消長,新詞產生,舊語消失。他的解釋是因為人的記憶有限,詞語不能無限積累,只能新陳代替(Darwin 1871)。

  3. 文字 • 文字的基礎是語言 -- “狗戴帽子” Good morning • 文化傳承與文字積累

  4. 語言的單位 • 語音 • 詞素,字 • 詞語,語詞 • 詞組 • 句 • 句群 • 段 • 篇章

  5. 多少? • 詞素,字 :古今字數 • 詞語,語詞:報章文字統計 • 詞組:報章文字統計 • 句:信息模組 • 句群:信息模組

  6. 初步計量 李莫愁這麼一哭,楊過和程英也自驚覺,歌聲節拍便即散亂。李莫愁心念一動,突然縱聲而歌,音調淒婉,歌道: 「問世間,情是何物,直教生死相許?天南地北雙飛客,老翅幾回寒暑?歡樂趣,離別苦,就中更有痴兒女。君應有語,渺萬里層雲,千山暮雪,隻影向誰去?」 -- 金庸《神鵰俠侶》

  7. 情是何物?

  8. 直教生死相許 摸魚兒 元好問 泰和五年乙丑歲,赴試并州,道逢捕雁者云:“今日獲一雁,殺之矣。其脫網者悲鳴不能去,竟自投於地而死。”予因買得之,葬之汾水之上,纍石為識,號曰雁丘。時同行者多為賦詩,予亦有《雁丘詞》。 舊所作無宮商,今改定之。

  9. 初步計量 1 有 2 3.509 3.509 2 歡 1 1.754 5.263 3 雙 1 1.754 7.018 4 離 1 1.754 8.772 5 應 1 1.754 10.526 6 趣 1 1.754 12.281 53 中 1 1.754 94.737 54 山 1 1.754 96.491 55 女 1 1.754 98.246 56 千 1 1.754 100.000

  10. 《神鵰俠侶》字數 1 一 15662 1.933 1.933 2 不 14714 1.816 3.749 3 是 12318 1.520 5.269 4 的 11889 1.467 6.736 5 道 11810 1.457 8.194 6 了 11017 1.360 9.553 7 過 9192 1.134 10.688 8 他 8203 1.012 11.700 9 人 8005 0.988 12.688 10 這 7115 0.878 13.566 4094 巳 1 0.000 100.000

  11. 《神鵰俠侶》字數統計 • 4,094 Word types字種 • 810,311 Word tokens字數 • In addition, there are 145,213 punctuation marks標點符號

  12. 文字啟蒙 • “開學了” • 筆比鋤頭還重 • 人生憂患識字始 • 生年不滿百,常懷千歲憂。(《古詩十九首》)

  13. 多少才夠用? • 人間百態 • 百般咒罵 • 百感交集 • 千方百計 • 千奇百怪 • 萬感交集 • 氣象萬千 • 萬物 • 包羅萬象

  14. 《千字文》 天地玄黄 宇宙洪荒 日月盈昃 辰宿列张 寒来暑往 秋收冬藏 闰馀成岁 律吕调阳 云腾致雨 露结为霜 金生丽水 玉出昆冈 剑号巨阙 珠称夜光 果珍李柰 菜重芥姜 海咸河淡 鳞潜羽翔 龙师火帝 鸟官人皇 始制文字 乃服衣裳 推位让国 有虞陶唐 吊民伐罪 周发殷汤 坐朝问道 垂拱平章 爱育黎首 臣伏戎羌 遐迩一体 率宾归王 鸣凤在竹 白驹食场 化被草木 赖及万方 盖此身发 四大五常 恭惟鞠养 岂敢毁伤 女慕贞洁 男效才良 知过必改 得能莫忘 罔谈彼短 靡恃己长 信使可复 器欲难量 墨悲丝染 诗赞羔羊 景行维贤 克念作圣 德建名立 形端表正 空谷传声 虚堂习听 祸因恶积 福缘善庆 尺璧非宝 寸阴是竞 资父事君 曰严与敬 孝当竭力 忠则尽命 临深履薄 夙兴温① 似兰斯馨 如松之盛 川流不息 渊澄取映 容止若思 言辞安定

  15. 《千字文》重字 •   (录自喻岳衡主编《传统蒙学丛书》:《千字文》,周艺点校,岳麓书社1987年5月长沙出版   •    【重字表】《千字文》实录九百九十四个汉字,重字凡六,以汉语拼音为序列于下:   • “发”:周发殷汤;盖此身发 • “巨”:剑号巨阙;巨野洞庭 • “昆”:玉出昆冈;昆池碣石 • “戚”:戚谢欢招;亲戚故旧 • “云”:云腾致雨;禅主云亭 • “资”:资父事君;务资稼穑

  16. 《千字文》非国标字 【非国标字一览表】(音义据《现代汉语词典》,商务印书馆一九八三年北京第二版;  释义未必切合正文) ①【冫青】〖qìng〗凉。 ②【石番】〖pán〗“~溪”,太公望垂钓处。(孙谦益注) ③“义”字无“丶”〖yì〗治理,安定。 ④【↑宀↓是】〖shí〗放置;此;又同“实”。

  17. 蘇蕙璇玑图鏡花緣 • 琴清流楚激弦商秦曲发声悲摧藏音和咏思惟空堂心忧增慕怀惨伤仁芳廊东步阶西游王姿淑窕窈伯邵南周风兴自后妃荒经离所怀叹嗟智     兰休挑林阴翳桑怀归思广河女卫郑楚樊厉节中闱淫遐旷路伤中情怀     凋翔飞燕巢双鸠土迤逶路遐志咏歌长叹不能奋飞妄清帏房君无家德     茂流泉情水激扬眷颀其人硕兴齐商双发歌我兖衣想华饰容郎镜明圣     熙长君思悲好仇旧蕤葳粲翠荣曜流华观冶容为谁感英曜珠光纷葩虞     阳愁叹发容摧伤乡悲情我感伤情徵宫羽同声相追所多思感谁为荣唐     春方殊离仁君荣身苦惟艰生患多殷忧缠情将如何钦苍穹誓终笃志贞     墙禽心滨均深身加怀忧是婴藻文繁虎龙宁自感思岑形荧城荣明庭妙     面伯改汉物日我兼思何漫漫荣曜华雕旗孜孜伤情幽未犹倾苟难闱显     殊在者之品润乎愁苦艰是丁丽壮观饰容侧君在时岩在炎在不受乱华     意诚惑步育浸集悴我生何冤充颜曜绣衣梦想劳形峻慎盛戒义消作重     感故昵飘施愆殃少章时桑诗端无终始诗仁颜贞寒嵯深兴后姬源人荣     故遗亲飘生思愆精徽盛翳风比平始璇情贤丧物岁峨虑渐孽班祸谗章     新旧闻离天罪辜神恨昭感兴作苏心玑明别改知识深微至嬖女因奸臣     霜废远微地积何遐微业孟鹿丽氏诗图显行华终凋渊察大赵婕所佞贤     冰故离隔德怨因幽元倾宣鸣辞理兴义怨士容始松重远伐氏妤恃凶惟     齐君殊乔贵其备旷悼思伤怀日往感年衰念是旧愆涯祸用飞辞恣害圣     洁子我木平根尝远叹永感悲思忧远劳情谁为独居经在昭燕辇极我配     志惟同谁均难苦离戚戚情哀慕岁殊叹时贱女怀叹网防青实汉骄忠英     清新衾阴匀寻辛凤知我者谁世异浮奇倾鄙贱何如罗萌青生成盈贞皇     纯贞志一专所当麟沙流颓逝异浮沉华英翳曜潜阳林西昭景薄榆桑伦     望微精感通明神龙驰若然倏逝惟时年殊白日西移光滋愚谗漫顽凶匹     谁云浮寄身轻飞昭亏不盈无倏必盛有衰无日不陂流蒙谦退休孝慈离     思辉光饬粲殊文德离忠体一违心意志殊愤激何施电疑危远家和雍飘     想群离散妾孤遗怀仪容仰俯荣华丽饰身将与谁为逝容节敦贞淑思浮     怀悲哀声殊乖分圣赀何情忧感惟哀志节上通神祗推持所贞记自恭江     所春伤应翔雁归皇辞成者作体下遗葑菲采者无差生从是敬孝为基湘亲刚柔有女为贱人房幽处己悯微身长路悲旷感生民梁山殊塞隔河津

  18. 織錦回文 • 463 Word types • 833 Word tokens • 據說可以得出 3,752 詩句 • 仁智怀德圣虞唐,贞妙显华重荣章, 臣贤惟圣配英皇,伦匹离飘浮江湘。 • 钦岑幽岩峻嵯峨,深渊重涯经网罗,林阳潜曜翳英华,沉浮异逝颓流沙。 • 嗟叹怀,所离经;遐旷路,伤中情;家无君,房帏清; • 华饰容,朗镜明;葩纷光,珠曜英;多思感,谁为荣?

  19. 古人用字 總字數字種書目 97,973 3,028 禮記 533,505 5,122 史記 34,431 2,716 風俗通 80,121 3,315 桃花扇 459,357 5,225 日知錄 496,855 4,293 紅樓夢前80回 234,980 3,217 紅樓夢後40回 731,835 4,501 紅樓夢120回

  20. 資料來源 • 《禮記》的數目取自劉典爵、陳方正(1992-95) • 《史記》等史書字數見謝清俊、林晰、許金定、傅武嫦、張翠玲(1992) • 《風俗通》、《桃花扇》、《日知錄》統計由中央研究院資訊科學研究所提供 • 《紅樓夢》字數從元智大學的網路電子版計算出來 • 字書字數部分取自《漢語大字典》袖珍本(1999)

  21. 經典 總字數字種書目 15,935 1,355 論語 35,417 1,913 孟子 28,073 2,026 尚書 37,438 2,989 毛詩 97,973 3,028 禮記 38,597 2,259 大戴禮記

  22. 經典 56,809 1,529 儀禮 49,540 2,236 周禮 1,800 373 孝經 61,753 2,248 春秋繁露 44,379 1,648 公羊傳 40,914 1,604 穀梁傳 51,156 2,614 韓詩外傳 10,379 3,410 爾雅

  23. 二十五史 年代總字數字種書目 93BC 533,505 5,122 史記 83AD 742,298 5,833 漢書 289 377,807 4,388 三國志 445 894,020 6,161 後漢書 488 811,893 5,842 宋書 514 299,257 4,962 南齊書 554 998,329 5,417 魏書 636 294,438 4,973 梁書 636 163,382 4,033 陳書

  24. 二十五史 636 212,506 4,032 北齊書 636 262,659 4,161 周書 648 1,158,126 5,997 晉書 656 701,698 5,592 隋書 659 677,624 5,376 南史 659 1,106,543 5,572 北史 945 2,002,600 6,346 舊唐書 974 790,879 5,109 舊五代史 1060 1,694,794 6,771 新唐書

  25. 二十五史 1072 291,476 3,909 新五代史 1345 3,980,123 7,389 宋史 1344 296,254 4,071 遼史 1344 931,070 5,264 金史 1370 1,611,849 5,854 元史 1739 2,802,544 7,124 明史 1927 4,514,567 8,080 清史稿

  26. 公元5世紀以前 年代字種 書目 1300BC 3,000 甲骨文 93BC 5,122 史記 5 5,340 訓纂篇 83 5,833 漢書 100 9,353 說文解字 289 4,388 三國志 4C 12,824 字林 445 6,161 後漢書 488 5,842 宋書

  27. 6-7世紀 514 4,962 南齊書 543 22,726 玉篇 554 5,417 魏書 636 4,973 梁書 636 4,033 陳書 636 4,032 北齊書 636 4,161 周書 648 5,997 晉書 656 5,592 隋書 659 5,376 南史 659 5,572 北史

  28. 10-13世紀 945 6,346 舊唐書 974 5,109 舊五代史 997 26,430 龍龕手鑑 1008 26,194 廣韻 1039 31,319 類篇 1060 6,771 新唐書 1067 30,000 集韻 1072 3,909 新五代史 1212 35,189 改併五音聚韻四聲篇海

  29. 14-18世紀 1344 4,071 遼史 1344 5,264 金史 1345 7,389 宋史 1370 5,854 元史 1615 33,179 字匯 1671 33,549 正字通 1716 47,035 康熙字典 1739 7,124 明史

  30. 現代 1915 48,000 中華大字典 1927 8,080 清史稿 1959 49,965 大漢和辭典 1968 49,905 中文大辭典 1986 54,678 漢語大字典

  31. 古人的詞素量 • 著作總字數從一千多字到四百多萬字不等 • 各人所用字種只有幾千,上限是八千 • 人所能操縱的詞素量有涯邊盡頭 • 對人類語言認知能力我們提出“詞涯八千” 來解釋古人用字的上限

  32. “詞涯八千”

  33. 時有古今地有南北 • 異體字 • 古今字 • 方言字 • 難字 • 生僻字 • 罕見異體字

  34. 漢語大字典

  35. 語言符號知多少? • 4,261字陳鶴琴(1928) 《語體文應用字匯》 • 2,000字四川省教育科學院(1946) 《常用字選》 • 3,500字中國大詞典編纂處(1954) 《識字正音3500 字表》 • 3,000字山東省教育廳(1958) 《普通話常用字表》

  36. 語言符號知多少? • 3,100字北京市教育局中小學教材編審處(1965) 《常用字表》 • 4,444字中國文字改革委員會漢字組(1975) 《4500 字表》 • 4,574字北京語言學院語言教學研究所(1985) 《漢字頻率表》 • 3,500字國家語言文字工作委員會(1988)《現代漢語常用字表》

  37. 古詩文缺字 宋代蘇軾 太白詞,并敘:其一 岐下頻年大旱,禱於太白輒應,故作《迎送神辭》一篇五章 雷闐闐,山畫晦。 風振野,神將駕。 載雲★(原文作左目右干),從玉虯。 旱既甚,蹶往救,道阻修兮。 (羅鳳珠輯)

  38. 電子文獻缺字 中央研究院「臺灣方志資料庫」簡介 本資料庫內約有六百多個罕見字,這些字需造字來解決.因公共造字檔的剩餘空間有限,只能選擇四十三個在資料庫中出現頻率較高者,上計算中心的公共造字檔.

  39. 市場經濟與電腦文字缺失 • 市場經濟決定產品優劣 • 廠商以賺錢為主要目的 • 字符已經能夠滿足一般需要 • 因此一萬多字的字符集通行十幾年 • 我們到底需要多少字?

  40. 電腦字符集 • 電報碼 • 資策碼 • IBM 碼 • 電訊碼 • 國標碼 • 國標擴展碼 • 大五碼 • Unicode • 五胡亂華,萬馬奔騰

  41. 知識經濟 • 基礎是科技 • 從工業經濟轉到知識經濟,操縱的物件從大型機器轉到電腦上的微型符號 • 改變符號並不須要改變整個機器的設計,因此容易讓人用符號來創新,在這樣的環境中形成了人們冒險進取的精神 • 活動全球化 • 語言是知識建構的媒體 • 語言文字在科技基礎和全球化活動中佔重要地位

  42. 符號創新 • .COM 公司無本經營 • 搜索引擎提供大量知識信息 • 網站繁衍,靠廣告發展,依賴收購致富 • 形成只要有電腦就能橫行天下的心態 • 經濟開始不景氣 • .COM 變成 .GONE

  43. E-這個 E-那個 • 網路教育 • 電子商務 • 以語言文字為媒體

  44. 漢字需求 • 5-6 萬字 • 廣深的知識面

  45. 詞語的數目 單音節 多音節 書名 100,000 《國語辭典》(國大辭典編纂處1937) 10,000 30,000 《國語日報字典》(何容1976) 6,000 50,000 《漢英詞典》(北京外國語學院1978) 56,000 《現代漢語詞典》 (社科院語言所1980) 3,994 90,000 《常用構詞字典》(傅興嶺陳章煥1982) 2,116 90,000《現代漢語詞表》 (劉源1984) 4,000 58,000《詞林》 (張聿忠1986) 31,159《現代漢語頻率詞典》 (北京語言學院1986)

  46. 詞語的數目 9,700 48,000《新編漢語詞典》(李國炎等1988) 13,000 80,000《古今漢語實用詞典》 (吳昌恒1988) 60,400《漢語拼音詞匯》(編寫組1991) 13,000 36,000《朗文中文高級新辭典》(葉立群1996) 11,000 28,000《現代漢語用法詞典》(閔龍華1997) 10,000 24,000 《古代漢語詞典》(陳復華 2000)

  47. 衍生詞 • “機”,可以和許多詞結合衍生出 “計算機” “打字機” “縫衣機” • “性”可以和其他詞結合成 “科學性” “積極性” “商業性”

  48. 詞語計量 斷詞 (《明報》1995) <橫濱> <又> <有> <神秘> <氣體> <毒氣> <襲擊> <再> <起> <疑雲> @ ﹙ <綜合> <三#> <日> <外電> <報道>﹚<日本> <警方> <周一> <說> , <港口> <城市> <橫濱> <的> <一#> <間> <超級市場> <出現> <神秘> <氣體> , <六#> <人> <在> <吸入> <氣體> <後> <送院> <救治> 。

  49. 報章詞語統計 覆蓋率 新加坡詞數 香港詞數 臺灣詞數 90% 5,043 7,477 5,005 100% 24,967 42,689 42,686+ Tsou, Benjamin K., Hing-Lung Lin, Godfrey Liu, Terence Chan, Jerome Hu, Ching-hai Chew, and John K.P. Tse. 1997. "A Synchronous Chinese Language Corpus from Different Speech Communities: Construction and Applications". Computational Linguistics and Chinese Language Processing 2.1:91-104.

  50. “詞涯八千”的理論 如果我們假定能覆蓋95%的文本語料的詞語是大多數人所共有的,覆蓋其他5%的語料的詞語是各人的特殊詞條聚集起來的,那麼,每個人能夠運用的詞語數目就是七八千左右。從上文討論的漢字和詞語的出現情形再加這個假定,我們對人的詞語認知提出“詞涯八千”的理論。

More Related