160 likes | 296 Views
マウスをクリックしてください。(カーソルはどこにあっても結構です。)次ページが表示されます。. XMLドキュメンテーション. ( XML の仕組). 2001 / 10. 有限会社中央商会 Tel 03-3661-1606/4081/0834 Fax 03-3662-9586 E-mail: info@chuou-shokai.co.jp. ■ XMLとは ……… ???. コンピュータによる出版や文書データの交換を効率的に行うために考え出された SGML がその母体となっています。. ① 文書の 意味内容 と 表示の仕方 を区分して取り扱う
E N D
マウスをクリックしてください。(カーソルはどこにあっても結構です。)次ページが表示されます。マウスをクリックしてください。(カーソルはどこにあっても結構です。)次ページが表示されます。 XMLドキュメンテーション (XMLの仕組) 2001/10 有限会社中央商会 Tel 03-3661-1606/4081/0834 Fax 03-3662-9586 E-mail: info@chuou-shokai.co.jp
■ XMLとは………??? コンピュータによる出版や文書データの交換を効率的に行うために考え出されたSGMLがその母体となっています。 ① 文書の意味内容と表示の仕方を区分して取り扱う ② 文書を意味内容で要素別に把握し目印を付けて取り扱う XML: eXtensible Markup Language 拡張可能な 「拡張可能なテキストへの印(しるし)を付けるためのコンピュータ用の言葉」
【XML文書の作成】 1)文書構造の解析 ⇒ 要素分解(1) タイトル 文字コードの基礎 1.コンピュータと文字 コンピュータは古くから文字を扱ってきました。それは、コンピュータが扱っているデータはバイナリであり、人間が直接それを見ても理解し難いので、人間に分かり易くするために文字に変換する必要があるからです。 コンピュータは数値しか処理できないので、文字に番号を振って対応付けなくてはなりません。一般的には、それを"文字コード"と呼んでいます。 2.文字集合 コンピュータが扱う文字を集めたものが"文字集合"です。ただし、単に集めるだけでなく、種類ごとに分類をしたり、並べる順番なども決めなければなりません。また、集めた文字に番号を振る(つまり、文字に背番号を付ける)ことも必要です。 文字集合の例としては、ISOによって規格化されている"ISO 10646"があります。 3.エンコーディング さて、文字集合が決まったので、コンピュータで取り扱う文字がどれだけあるかがはっきりしました。また、文字に番号も振られているので、後はそれをどうやってコンピュータのデータ(つまりビット列)に対応させるかを決めれば文字コードになります。この対応のさせ方を"エンコーディング"と呼びます。 一番単純なエンコーディングは、文字集合で割り振られた番号をそのまま使用してまうことです。UCS-4は、ISO 10646で文字に振られた番号を、そのまま4バイトのコードにしたものです。 セクション
【XML文書の作成】 1)文書構造の解析 ⇒ 要素分解(2) 見出し 1.コンピュータと文字 コンピュータは古くから文字を扱ってきました。それは、コンピュータが扱っているデータはバイナリであり、人間が直接それを見ても理解し難いので、人間に分かり易くするために文字に変換する必要があるからです。 コンピュータは数値しか処理できないので、文字に番号を振って対応付けなくてはなりません。一般的には、それを"文字コード"と呼んでいます。 本 文 コンピュータは古くから文字を扱ってきました。それは、コンピュータが扱っているデータはバイナリであり、人間が直接それを見ても理解し難いので、人間に分かり易くするために文字に変換する必要があるからです。 コンピュータは数値しか処理できないので、文字に番号を振って対応付けなくてはなりません。一般的には、それを “文字コード” と呼んでいます。 段 落 コンピュータは数値しか処理できないので、文字に番号を振って対応付けなくてはなりません。一般的には、それを “文字コード” と呼んでいます。 キーワード
【XML文書の作成】 1)文書構造の解析 ⇒ 階層(ツリー)表示 文書全体 文書を階層構造として把握しそれぞれの要素の関係・意味内容を分析 タイトル セクション キーワード 見出し 段 落 キーワード キーワード 本 文 段 落 段 落 セクション
【XML文書の作成】 2)各要素(エレメント)分析 ⇒ DTD作成 DTD: Document Type Definition(文書型定義) 各要素(エレメント)に名前を付ける タグ作成 各要素(エレメント)の階層関係・意味内容・性質を記述する エレメント定義 etc. DTD
【XML文書の作成】 3)XML文書記述 (“タグ”の挿入) DTDに基づき“タグ”を挿入します。 <文書全体> <タイトル>文字コードの基礎</タイトル> <セクション> <タイトル> 1.コンピュータと文字</タイトル> <本文> <段落>コンピュータは古くから文字を扱ってきました。それは、コンピュータが扱っているデータはバイナリであり、人間が直接それを見ても理解し難いので、人間に分かり易くするために<キーワード>文字</キーワード>に変換する必要があるからです。 </段落> <段落>コンピュータは数値しか処理できないので、文字に番号を振って対応付けなくてはなりません。一般的には、それを"文字コード"と呼んでいます。 </段落> </本文> </セクション> <セクション> <タイトル> 2.文字集合</タイトル> <本文> <段落>コンピュータが扱う文字を集めたものが"文字集合"です。ただし、単に集めるだけでなく、種類ごとに分類をしたり、並べる順番なども決めなければなりません。また、集めた文字に番号を振る(つまり、文字に背番号を付ける)ことも必要です。 </段落> <段落>文字集合の例としては、 <キーワード> ISO </キーワード>によって規格化されている"ISO 10646"があります。 </段落> </本文> </セクション> <セクション> <タイトル> 3.エンコーディング</タイトル> <本文> <段落>さて、文字集合が決まったので、コンピュータで取り扱う文字がどれだけあるかがはっきりしました。また、文字に番号も振られているので、後はそれをどうやってコンピュータのデータ(つまりビット列)に対応させるかを決めれば<キーワード>文字コード</キーワード>になります。この対応のさせ方を"エンコーディング"と呼びます。 </段落> <段落>一番単純なエンコーディングは、文字集合で割り振られた番号をそのまま使用してまうことです。UCS-4は、ISO 10646で文字に振られた番号を、そのまま4バイトのコードにしたものです。 </段落> </本文> </セクション> </文書全体> <>でくくられたブルーの部分が“タグ”です。
【XSLの適用】 1)XSLで閲覧・利用可能な表示へ XML文書は、そのままではコンピュータが理解するための文書である。 XSL:eXtensible Stylesheet Language タグを利用して、閲覧しやすい形式で表示するための指示をします。 タグを利用して、必要な部分を抽出しHTML文書に変換する。 人間が閲覧・利用し易い形式での表示 HTML文書として、インターネトのブラウザで閲覧・利用する形式が一般的です。 XSLは実際には以下の3つの規格の複合です。 XSLT(XSL Transformation) Xpath(XML Path Language) XSL(eXtensible Stylesheet Language)
【XSLの適用】 2)XML文書のブラウザ(IE)での表示 IE: Internet Explorer XML HTML XSL DTD HTML(Hyper Text Markup Language) :インターネトの画面表示のための言語・書式
【XSLの適用】 3)ブラウザ(IE)での表示例① <文書全体> <タイトル>文字コードの基礎</タイトル> <セクション> <タイトル> 1.コンピュータと文字</タイトル> <本文> <段落>コンピュータは古くから文字を扱ってきました。それは、コンピュータが扱っているデータはバイナリであり、人間が直接それを見ても理解し難いので、人間に分かり易くするために<キーワード>文字</キーワード>に変換する必要があるからです。 </段落> <段落>コンピュータは数値しか処理できないので、文字に番号を振って対応付けなくてはなりません。一般的には、それを"文字コード"と呼んでいます。 </段落> </本文> </セクション> <セクション> <タイトル> 2.文字集合</タイトル> <本文> <段落>コンピュータが扱う文字を集めたものが"文字集合"です。ただし、単に集めるだけでなく、種類ごとに分類をしたり、並べる順番なども決めなければなりません。また、集めた文字に番号を振る(つまり、文字に背番号を付ける)ことも必要です。 </段落> <段落>文字集合の例としては、 <キーワード> ISO </キーワード>によって規格化されている"ISO 10646"があります。 </段落> </本文> </セクション> <セクション> <タイトル> 3.エンコーディング</タイトル> <本文> <段落>さて、文字集合が決まったので、コンピュータで取り扱う文字がどれだけあるかがはっきりしました。また、文字に番号も振られているので、後はそれをどうやってコンピュータのデータ(つまりビット列)に対応させるかを決めれば<キーワード>文字コード</キーワード>になります。この対応のさせ方を"エンコーディング"と呼びます。 </段落> <段落>一番単純なエンコーディングは、文字集合で割り振られた番号をそのまま使用してまうことです。UCS-4は、ISO 10646で文字に振られた番号を、そのまま4バイトのコードにしたものです。 </段落> </本文> </セクション> </文書全体>
【XSLの適用】 3)ブラウザ(IE)での表示例② <文書全体> <タイトル>文字コードの基礎</タイトル> <セクション> <タイトル> 1.コンピュータと文字</タイトル> <本文> <段落>コンピュータは古くから文字を扱ってきました。それは、コンピュータが扱っているデータはバイナリであり、人間が直接それを見ても理解し難いので、人間に分かり易くするために<キーワード>文字</キーワード>に変換する必要があるからです。 </段落> <段落>コンピュータは数値しか処理できないので、文字に番号を振って対応付けなくてはなりません。一般的には、それを"文字コード"と呼んでいます。 </段落> </本文> </セクション> <セクション> <タイトル> 2.文字集合</タイトル> <本文> <段落>コンピュータが扱う文字を集めたものが"文字集合"です。ただし、単に集めるだけでなく、種類ごとに分類をしたり、並べる順番なども決めなければなりません。また、集めた文字に番号を振る(つまり、文字に背番号を付ける)ことも必要です。 </段落> <段落>文字集合の例としては、 <キーワード> ISO </キーワード>によって規格化されている"ISO 10646"があります。 </段落> </本文> </セクション> <セクション> <タイトル> 3.エンコーディング</タイトル> <本文> <段落>さて、文字集合が決まったので、コンピュータで取り扱う文字がどれだけあるかがはっきりしました。また、文字に番号も振られているので、後はそれをどうやってコンピュータのデータ(つまりビット列)に対応させるかを決めれば<キーワード>文字コード</キーワード>になります。この対応のさせ方を"エンコーディング"と呼びます。 </段落> <段落>一番単純なエンコーディングは、文字集合で割り振られた番号をそのまま使用してまうことです。UCS-4は、ISO 10646で文字に振られた番号を、そのまま4バイトのコードにしたものです。 </段落> </本文> </セクション> </文書全体>
【XSLの適用】 3)ブラウザ(IE)での表示例③ <文書全体> <タイトル>文字コードの基礎</タイトル> <セクション> <タイトル> 1.コンピュータと文字</タイトル> <本文> <段落>コンピュータは古くから文字を扱ってきました。それは、コンピュータが扱っているデータはバイナリであり、人間が直接それを見ても理解し難いので、人間に分かり易くするために<キーワード>文字</キーワード>に変換する必要があるからです。 </段落> <段落>コンピュータは数値しか処理できないので、文字に番号を振って対応付けなくてはなりません。一般的には、それを"文字コード"と呼んでいます。 </段落> </本文> </セクション> <セクション> <タイトル> 2.文字集合</タイトル> <本文> <段落>コンピュータが扱う文字を集めたものが"文字集合"です。ただし、単に集めるだけでなく、種類ごとに分類をしたり、並べる順番なども決めなければなりません。また、集めた文字に番号を振る(つまり、文字に背番号を付ける)ことも必要です。 </段落> <段落>文字集合の例としては、 <キーワード> ISO </キーワード>によって規格化されている"ISO 10646"があります。 </段落> </本文> </セクション> <セクション> <タイトル> 3.エンコーディング</タイトル> <本文> <段落>さて、文字集合が決まったので、コンピュータで取り扱う文字がどれだけあるかがはっきりしました。また、文字に番号も振られているので、後はそれをどうやってコンピュータのデータ(つまりビット列)に対応させるかを決めれば<キーワード>文字コード</キーワード>になります。この対応のさせ方を"エンコーディング"と呼びます。 </段落> <段落>一番単純なエンコーディングは、文字集合で割り振られた番号をそのまま使用してまうことです。UCS-4は、ISO 10646で文字に振られた番号を、そのまま4バイトのコードにしたものです。 </段落> </本文> </セクション> </文書全体>
■ XMLは多目的な文書活用に有効です <文書全体> <タイトル>文字コードの基礎</タイトル> <セクション> <タイトル> 1.コンピュータと文字</タイトル> <本文> <段落>コンピュータは古くから文字を扱ってきました。それは、コンピュータが扱っているデータはバイナリであり、人間が直接それを見ても理解し難いので、人間に分かり易くするために<キーワード>文字</キーワード>に変換する必要があるからです。 </段落> <段落>コンピュータは数値しか処理できないので、文字に番号を振って対応付けなくてはなりません。一般的には、それを"文字コード"と呼んでいます。 </段落> </本文> </セクション> <セクション> <タイトル> 2.文字集合</タイトル> <本文> <段落>コンピュータが扱う文字を集めたものが"文字集合"です。ただし、単に集めるだけでなく、種類ごとに分類をしたり、並べる順番なども決めなければなりません。また、集めた文字に番号を振る(つまり、文字に背番号を付ける)ことも必要です。 </段落> <段落>文字集合の例としては、 <キーワード> ISO </キーワード>によって規格化されている"ISO 10646"があります。 </段落> </本文> </セクション> </文書全体> ひとつの文書資源をさまざまな切り口で表示(アウトプット)させることで、多目的な活用(マルチユース)が可能となります。
■ 文書利用形態の検討⇒ DTD作成 エンド・ユーザー(利用者)の文書利用形態の精査 エンド・ユーザー(利用者)の要望の検討 DTD作成 文書構造の解析 XML文書作成 文書構造の標準化 XSL作成 文書表記の標準化 タグ付けされた文書に対して検索・抽出・表示を行うXML文書の仕組から、DTDの作成が大変重要なポイントになると考えられます。 利用目的・文書構造に即したDTD作成のために、十分な検討が必要です。
■ まとめ(XML文書作成のために) 従来の文書単位での管理に対して、XML文書はタグ付けされた文書要素単位での検索・抽出を行うことで高度な再利用を可能としたものです。 文書単位での管理 XML: タグ付けされた文書要素単位での管理 文書のXML化の目的(文書交換・電子配布・データベース化・共同執筆など)をどこにおくかで、文書構造解析にあたっては以下の2つの方法が考えられます。 ●「章」「節」「項」といった外形的な構造に着目 ●「働き」「機能」といった文書の意味に着目 文書の性質・利用目的の詳細な検討分析が必要となります。 XML化が有効な文書であるかの基本的な検討も必要です。