460 likes | 606 Views
數位典藏國家型科技計畫 技術發展簡介. 簡立峰 中央研究院資訊科學研究所 台灣大學資訊管理學系. http://dats.ndap.org.tw/. 計畫目標. 國家重要的文物典藏數位化 促進我國人文與社會、產業與經濟的發展 人文與社會方面 生活品質的提昇 人力素質的提昇 新文化的肇造,承先啟後、繼往開來 國家信心與形象的再造 產業與經濟方面 建立公共資訊制度的雛型 促進有價資訊市場的健全發展 利用各項數位典藏、促進各項相關生產與管理技術 推動在商業、產業、教育、學術研究,以及民生、育樂方面的利用. 計 畫 辦公室. 內容發展分項計 畫.
E N D
數位典藏國家型科技計畫技術發展簡介 簡立峰 中央研究院資訊科學研究所 台灣大學資訊管理學系 http://dats.ndap.org.tw/
計畫目標 • 國家重要的文物典藏數位化 • 促進我國人文與社會、產業與經濟的發展 • 人文與社會方面 • 生活品質的提昇 • 人力素質的提昇 • 新文化的肇造,承先啟後、繼往開來 • 國家信心與形象的再造 • 產業與經濟方面 • 建立公共資訊制度的雛型 • 促進有價資訊市場的健全發展 • 利用各項數位典藏、促進各項相關生產與管理技術 • 推動在商業、產業、教育、學術研究,以及民生、育樂方面的利用
計畫辦公室 內容發展分項計畫 技術研發分項計畫 應用服務分項計畫 訓練推廣分項計畫 辦公室維運分項計畫 中央研究院 文化建設委員會2002 國立台灣大學 國立故宮博物院 國立自然科學博物館 國立歷史博物館 國家圖書館 國史館 國史館台灣文獻館 公 開 徵 選 計 劃 協調、支援與訓練機制 內容發展技術研發應用加值訓練推廣 機 構 計 劃 ※內容發展:12個主題小組 ※技術規範:6個工作群 ※4個服務小組 ※人員培訓 組織架構
指導小組 諮議小組 機構計畫主持人會議 計畫總主持人/共同主持人 審查小組 計畫辦公室 工作小組 各機構計畫 內容發展分項計畫 技術研發分項計畫 應用服務分項計畫 訓練推廣分項計畫 辦公室維運分項計畫 組織架構
技術研發分項計畫目標 • 本計畫負責執行本國家型計畫核心技術研發及支援各所屬計畫之技術服務需求 • 發展典藏核心技術、建立標準化資訊規範與程序、提供各數位化內涵製作單位共通與特殊的資訊技術工具與應用需求、建置典藏與公共資訊系統、進行國際交流,以及協助各參與計畫的資訊人力技術養成等。
System Development & Technical Support • Supports more than 50 DL systems (IIS and ASCC) • Content domains: paintings, rubbing, rare book, animals, antiquary, archaeology, … etc. • Metadata analysis: workflow analysis, system analysis and development, system integrationhttp://daal.iis.sinica.edu.tw/Chinese/System/Project.htm
Technologies in NDAP • 1. Digitization & Acquisition • OCR技術 – 張復, 中文缺字處理 – 莊德明 • 2. Information Organization • Metadata (MAAT), cataloging (聯合目錄 – 黃銘崇) • 3. Preservation • 4. Information Retrieval • Retrieving text (全文檢索 – 林晰, 林宣華, 中文斷詞 – 陳克健) • Retrieving images (圖像標記 –鄭卜任, 多媒體檔案管理系統 -- DAAL), • Retrieving audio (廣播語音檢索 – 王新民) • Retrieving music (MP3搜尋 – 蔡偉和 ), • Retrieving video (電子影音管理檢索-- DAAL) • Cross-language search (簡立峰), 時空座標檢索
Technologies in NDAP • 5. Presentation & Delivery • Visualization (虛擬實境 – 陳祝嵩), interface (缺字顯示 ) • 6. Right Management & Security • 浮水印 (呂俊賢), PKI, 密碼化 (黃世昆) • 7. Portal Service • NDAP Portal, 公共資訊系統 • 8. Evaluation • 9. General Tool • Greenstone
1. Digitization • Text input • OCR processing • Proof reading • Missing characters • Multimedia data input • Image scanning • 3D images • High-quality printing
Digitization Digitization 1.1 Document Analysis and Recognition • Document Analysis and Recognition: Completion of a LINUX-based document image retrieval system that incorporates our recent breakthrough in document image binarization, layout analysis and template construction learning mechanism, with the layout analysis achieving above 98% accuracy rate and character recognition achieving above 99% accuracy rate. (引用自張復教授)
1.2 Missing Character Server • Provide a interface to query Hanzi glyph database • Accept a glyph expression encode in metadata server • The web server automatically transforms the glyph expression to glyph image
漢字構形資料庫光碟2.1b • 《漢語大字典》及Big5共54,711個字形。 • 《漢語大字典》的異體字表,共12,208組,包含36,309個字形。 • 《說文解字詁林》的小篆及重文字形共11,100個字形。 • 中研院史語所金文工作室缺字共54,711個字形。 • 提供4766個部件以檢索字形,其中包含1,324個字根。 • 整理異體字根296組,共包含716個字根。 • 支援True type缺字及小篆字型。 • 擴充Microsoft Office 的功能,可在 Office下至少使用54,711個漢字。 • 開發漢字構形資料庫使用界面,讓使用者可以利用部件檢字及查詢異體字、字形結構及字形演變。 • 提供處理網頁缺字的 Java Applet。
2. Information Organization • Metadata analysis • Markup language • XML • Metadata extraction • Cataloging & indexing • Thesaurus & authority control • Harvesting (or crawling) & caching (like spider)
2.1 Metadata Analysis • Technical Supports • System Development • Technical Research • Consulting • Technical Standardization
Content User MAAT DAAL Planning Metadata Design System Develop Metadata analysis Metadata specification Requirements analysis Technical integration Documentation Metadata arrangement Digitization Development Process
3. Preservation • Digitization might not be a good way • Data formats • Software preservation • Hardware preservation
4. Information Retrieval • Text presentation • Text segmentation • Document clustering • Document summarization • Multimedia presentation • Video summarization • Virtual reality • Image rendering • Delivery • Cache
4.1 Chinese Word Segmentation 中文斷詞暨未知詞偵測系統 連結
Segmentation Result • 蔣宋美齡(Nb)紐約(Nc) 去世(VH) 享年(VJ) 106歲(DM) • 王良芬(Nb)/(FW)紐約(Nc) 廿四日(DM) 電(Na) • 跨越(VCL) 三個(DM) 世紀(Na) 的(DE) 傳奇(Na) 人物(Na) 、(PAUSECATEGORY) 「(PARENTHESISCATEGORY) 永遠(VH) 的(DE) 第一(DM) 夫人(Na) 」(PARENTHESISCATEGORY)蔣宋美齡(Nb)女士(Na) ,(COMMACATEGORY) 於(P) 紐約(Nc) 時間(Na) 十月廿三日(DM) 晚間(Nd) 十一點十七分(DM) ((PARENTHESISCATEGORY) 台北(Nc) 時間(Na) 二十四日(DM) 上午(Nd) 十一點十七分(DM) )(PARENTHESISCATEGORY) ,(COMMACATEGORY) 在(P)曼哈頓(Nc) 上(Ncd) 東(Ncd) 城(Na) 的(DE) 寓所(Na) 與世長辭(VH) ,(COMMACATEGORY) 享年(VJ) 一百零六歲(DM) 。(PERIODCATEGORY) 外甥女(Na)孔(Na) 令(VL) 儀(b) 與(Caa) 夫婿(Na)黃雄盛(Nb) ,(COMMACATEGORY) 以及(Caa) 曾孫(Na)蔣友(Nb) 常(D) 都(D) 隨侍在側(VA) 。(PERIODCATEGORY) 臨終(VH) 前後(Ng) 家人(Na) 一直(D) 為(P) 她(Nh) 讀(VC) 聖經(Nb) ,(COMMACATEGORY) 以及(Caa) 不斷(VH) 禱告(VA),(COMMACATEGORY) 祈願(VK) 她(Nh) 歸主(Na) 天國(Nc) 。(PERIODCATEGORY) 蔣(Nb) 夫人(Na) 生前(Nd) 在(P) 意識(Na) 清醒(VH) 的(DE) 時候(Na) ,(COMMACATEGORY 曾(D) 對(P) 身旁(Nc) 的(DE) 親人(Na) 說(VE) 過(Di) ,(COMMACATEGORY) 她(Nh) 能(D) 活到(VH) 一百多歲(DM) 是(SHI) 上帝(Na) 的(DE) 賜福(VB) ,(COMMACATEGORY) 心(Na) 中(Ng) 充滿(VJ) 喜樂(Na) ,(COMMACATEGORY) 她(Nh) 把(P) 一切(Neqa) 都(D) 交給(VD) 上帝(Na) ,(COMMACATEGORY) 沒有(VJ) 任何(Neqa) 憂愁(VK) 和(Caa) 懼怕(VJ) 。(PERIODCATEGORY) 蔣(Nb) 夫人(Na) 辭世(VH) 之後(Ng) ,(COMMACATEGORY) 遺體(Na) 已(D) 從(P) 寓所(Na) 移到(VC) 一家(DM) 位於(VCL) 麥迪遜(Nb) 大道(Na) 和(Caa) 第八十一街(DM)交口(Nc)的(DE) 殯儀館(Nc) ,(COMMACATEGORY) 這(Nep) 是(SHI) 紐約(Nc) 最(Dfa) 高級(VH) 的(DE) 殯儀館(Nc) 之一(Nc) ,(COMMACATEGORY) 曾(D) 辦過(VC) 許多(Neqa) 名流(Na) 的(DE) 後事(Na) 。(PERIODCATEGORY) 家屬(Na) 並(D) 將(D) 遵照(VC) 其(Nep) 生前(Nd) 交代(VE) ,(COMMACATEGORY) 將(P) 她(Nh) 安葬(VC) 在(P) 紐約(Nc) 上州(DM)威徹斯特郡(Nc) 的(DE)芬克里夫(Nb) 墓園(Nc) ((PARENTHESISCATEGORY)Ferncliff(FW)Cemetery(FW) )(PARENTHESISCATEGORY) ,(COMMACATEGORY) 而(Cbb) 不會(D) 移靈(VCL) 回(VCL) 台灣(Nc) 和(Caa) 在(P)大溪(Nc) 慈湖(Nc) 的(DE)蔣公(Nb) 合葬(VC) ,(COMMACATEGORY) 同時(Nd) 也(D) 完全(D) 排除(VC) 了(Di) 安葬(VC) 在(P) 大陸(Nc) 故土(Nc) 的(DE) 可能性(Na) 。(PERIODCATEGORY) 未知詞列表: 王良芬 Nb 1 黃雄盛 Nb 1 蔣友 Nb 1 歸主 Na 1 麥迪遜 Nb 1 交口 Nc 1 威徹斯特郡 Nc 1 芬克里夫 Nb 1
4.3 Multimedia Databases • A repository of archive multimedia objects • Batch processing to upload multimedia file • Media Processing • Rotation, Creating Thumbnails • Online cataloging and searching • Describing metadata for multimedia objects • Multimedia Presentation • Thumbnails listing • High quality Image browsing • Video broadcasting
(Back) EX: (Back) 線上檢視超高解析度影像檔,以提供合作典藏單位有效率的檔案管理機制及多樣化的處理功能
聲音 & 影片 數位出版品 影像 & Metadata Metadata伺服器 多媒體伺服器 內容伺服器 檢索伺服器 Web 伺服器 無線傳輸 語言辨識伺服器 Information Retrieval *國立歷史博物館提供
Retrieval Retrieval CMU: Informedia Howard Wactlar (and many others) CNN, Discovery Captioning, Speech rec’gn, OCR in image, Etc.
V V V X X V 4.4 Image Retrieval *國立歷史博物館/師大/新視提供
Cross-Language Web Search LiveTrans
5. Presentation & Delivery • Text presentation • Document clustering • Document summarization • Multimedia presentation • Video summarization • Virtual reality • Image rendering • Delivery • Cache
Presentation Arizona: classification systems H. S. Chen Searchers look through clusters of documents to pick the areas they are interested in. Seems to work a bit better.
Presentation 5.2 Image-based 3D VR • http://smart.iis.sinica.edu.tw/projects/digitarchive/ 增添式環場環物影像 環場環物即時互動系統系統 環物影片
6. Right Management & Security • Digital right management • A conditional-access system is a simple form of rights-management system in which subscribers are given access to objects based (typically) on a service contract. • Digital rights management systems often perform the same function, but typically impose restrictions on the use of objects after unlocking. • Digital watermarking? • Watermarking embeds an “indelible” invisible mark in content. A plethora of schemes exist for audio/video and still image content and computer programs.
Visible Watermarks (From http://www.dlib.org/dlib/december97/ibm/rev-vis.gif)
Invisible Watermarks (From http://www.npm.gov.tw/dl/plan06/img/pic-1.gif)
7. Portal Service • Online catalog service • OAI architecture • Pros & cons • Federated search • Meta search, ranking, distributed search • E-commerce • Billing, accounting • Promotion • Web portal’s experience • Maintenance • Backup service
8. Evaluation • System reliability • Usability evaluation • Logging • Information updating • Users’ requests • Transactions • EX: 檔案局
Other Achievements • 技術支援服務 (technical support and services) • 論文發表 (publications) • 技術移轉 (technical transfers) • 學術交流 (conferences organizing)
Q&A Thanks !