740 likes | 821 Views
報告 4 :蔵書評価における文字コード問題について. 池内 淳. 報告 4 の内容. 蔵書評価における文字列照合について 文字コードと文字集合の概観 NDL 蔵書データについて 米国議会図書館及び中国国家図書館の蔵書データについて 文字列照合の際の諸問題について. 書誌同定の照合キーとしての ISBN コードの評価. 複数の 図書館間 における大量の 所蔵資料 の 重複数 を調査しようとする際に、極めて 効率的 なアプローチである。 その一方で、 ISBN コード のみを 照合キー とすることによる 調査バイアス の存在についても 自覚的 でなければならない。.
E N D
報告4:蔵書評価における文字コード問題について報告4:蔵書評価における文字コード問題について 池内 淳
報告4の内容 • 蔵書評価における文字列照合について • 文字コードと文字集合の概観 • NDL蔵書データについて • 米国議会図書館及び中国国家図書館の蔵書データについて • 文字列照合の際の諸問題について
書誌同定の照合キーとしてのISBNコードの評価書誌同定の照合キーとしてのISBNコードの評価 • 複数の 図書館間 における大量の 所蔵資料 の 重複数 を調査しようとする際に、極めて 効率的 なアプローチである。 • その一方で、 ISBNコード のみを 照合キー とすることによる 調査バイアス の存在についても 自覚的 でなければならない。 Powered by Monta Method<http://www.bricklife.com/weblog/000626.html>
ISBNを単独の照合キーとする場合の調査バイアス(確認)ISBNを単独の照合キーとする場合の調査バイアス(確認) • 重複数を過小評価する可能性について • ISBNが付与されていない資料の存在 • ISBNが誤入力されている資料の存在 • 重複数を過剰評価する可能性について • 同一の資料に複数のISBNが付与される場合(シリーズ物等) • 出版国・装丁等が異なるため、同内容の資料に異なるISBNが付与される場合
では Powered by Takahashi Method<http://www.rubycolor.org/takahashi/>
ISBN International Standard Book Number
複数の書誌事項を照合キーに含めることの意味:1複数の書誌事項を照合キーに含めることの意味:1 • ISBN 単独の場合よりも、より 精緻 な評価結果を得る可能性がある。 • 一方、ISBN 単独の場合では、ほとんど考慮する必要のない 文字コード や文字集合 の問題について、注意を払わなければならない。
複数の書誌事項を照合キーに含めることの意味:2複数の書誌事項を照合キーに含めることの意味:2 • ISBN単独の場合にもたらされる 誤差 と、積極的に 調査バイアス を除去しようとする場合の コスト とを評価することが必要。 • 文字コードの問題に対する 適切な処置 を怠った場合、ISBN単独の場合よりも、より精度の低い 評価結果を得る可能性がある。
文字コードについて • 文字コード(character code) • コンピュータが 文字・記号 に 数字 を割り当てるための符号化方式、あるいは、その符合そのもの • 文字集合(character set) • 特定の文字コード系において表現可能な 文字・記号 の集合(=符号化文字集合)
代表的な文字コードの例:ASCII(1963~) American Standard Code for Information Interchange 7ビット(27)2進数: 0000000~111111116進数: 00~7F10進数: 0~127
文字集合を拡張するための代表的なアプローチ文字集合を拡張するための代表的なアプローチ • ISO/IEC 2022系 • 様々な 文字コード表 を切り替えることで、同一のコードポイントに 異なる複数の文字 を割り当てる方式 • 言語圏ごとに 地域化(localization: l10n)が必要 • Unicode/ISO/IEC 10646系 • 数多くの言語を網羅する単一の 文字コード表 を構築し、特定の文字に対して、一意のコードポイントを割り当てる方式(→ 国際化(internationalization: i18n)) • 地域化のための コスト を節約できるが、ファイルが 重く なり易い。
ISO/IEC 2022(8ビット) の概念図(コード表の切り替え) 中間バッファ(G0~G3)に読み込まれた複数の文字コード表を、インユーステーブル(GL/GR)に読み込み、特定のエスケープシーケンスを用いて、適宜、文字コード表を切り替える。 <インユーステーブル> <中間バッファ>
Unicode/ISO 10646における文字集合の概念図:1 0点 255点 0区 UCS-2 16ビット 2オクテット 256区×256点 65,536コードポイント 巨大な文字空間を確保する 255区 UCS: Universal multiple-octet coded Character Set
Unicode/ISO 10646における文字集合の概念図:2 UCS-4 31ビット 4オクテット 128群×256面×256区×256点 2,147,483,648コードポイント ×256面 ×128群 UCS: Universal multiple-octet coded Character Set