480 likes | 740 Views
第 2 章 情報の表現 記号・符号化. コンピュータでの数の表現. 「 0 」と「 1 」の 2 種類の記号を用いたビット列で表現される 表現できる数値はコンピュータに依る 表現できる正の整数、整数 16 ビットのシステム: 0 ~ 65535 まで - 32768 ~ 32767 まで 32 ビットのシステム: 0 ~ 4294967295 まで - 2147483648 ~ 2147483647 まで. 文字・記号とコード化の種類 ( 1 バイト文字 = 半角文字 ) ■ ASCII コード ( 1 バイト文字 = 半角文字 )
E N D
コンピュータでの数の表現 • 「0」と「1」の2種類の記号を用いたビット列で表現される • 表現できる数値はコンピュータに依る • 表現できる正の整数、整数 • 16ビットのシステム:0~65535まで -32768~32767まで • 32ビットのシステム:0~4294967295まで -2147483648~ 2147483647まで
文字・記号とコード化の種類(1バイト文字=半角文字)文字・記号とコード化の種類(1バイト文字=半角文字) ■ASCIIコード(1バイト文字=半角文字) (American Standard Code for Information Interchange)1963年にアメリカ規格協会(ANSI)で定められた文字コード。 7ビット128文字で構成されている。94文字がアルファベット・数字・記号等の印刷可能な文字。34文字が空白文字と制御記号。 滅多に文字化けしない。 ・実際には7ビットの先頭に 0 をつけて 8 ビット (1 バイト)で扱われる。 Def. 1バイト=8ビットそれゆえ、メモリなどの容量を示すのにバイトが使われる。(基本的に文字数をそのまま表すから。) 3
10 進法 2 進法 16 進法 0 0 0 1 1 1 2 10 2 3 11 3 4 100 4 5 101 5 6 110 6 7 111 7 8 1000 8 9 1001 9 10 1010 A 11 1011 B 12 1100 C 13 1101 D 14 1110 E 15 1111 F 16 10000 10 17 10001 11 整数の表現-2進法10進法16進法 10進法と16進法の表記の比較 グレイ符号 00000 00001 00011 00010 00110 00111 00101 00100 01100 01101 01111 01110 01010 01011 01001 01000 10000 11001 A45F = 42,079 44,604 = FA3C 漢字のJISコード 6C6F 跫 5F25 潺 • グレイ符号 • 構成法は HTML で説明 4
必要なメモリの容量を見積もってみよう。 1冊200ページからなり、1ページに20行、1行に45文字で 1 冊の日本語の本を収納するのに 計算上、1文字2バイト必要と考えて 200 ページ * 20 行 * 45 文字 * 2 バイト = 360 * 10 の 3 乗 バイト = 360 k Byte (キロバイト) のメモリ容量が必要と考えられる。これと同じサイズの本を10万冊蔵書にもつ図書館があるとすれば、その図書館 の本の全体を記録するのに、計算上 36 G Byte (ギガバイト) 必要だということになる。現在のパソコンのハードディスクの容量が40から60ギガバイト程度だということを考えると、逆に、いかに大きな容量のメモリが身近に使えるようになっているかが分かる。
2.1 情報の表現—その形態 • 情報の説明の仕方の違い • 手続き的表現 <- 手続き的プログラミング言語 • 時間をおった手順を説明 • 宣言的表現 <- 関数的プログラミング言語 • 対象間の関係や対象の属性を説明 • 情報の表現のされ方の違い • 記号表現 Schnnon流の情報理論 • 与えられた記号の集合と解釈するための規則体系 • パターン表現 • 構成要素間の時空間パターン
・情報 • ある事柄についての知らせ。 • 判断を下したり、行動を起こすために必要な知識。 「広辞苑第4版」より ・Information n. telling; things told; knowledge (COE) ・Information n. • facts provided or learned about something or someone • what is conveyed or represented by a particular arrangement or sequence of things (OED)
情報 (新明解国語辞典(第四判)三省堂) ある事柄に関して伝達 (入手) されるデータ (の内容). [通常は送り手・受け手にとって何らかの意味を持つ (形に並んでいる) データを指すが、データの意味内要そのものを指すこともある。さらに、そのデータをもとにして適切な判断を下したり行動をとったりするという判断材料としての側面に重点を置く場合が多い。また、個別のデータが生のままの未整理段階にとどまっているというニュアンスで用いられることもあり、知識に比べて不確実性を包含した用語] 8
データ (1) 推論の基礎となる事実。 (2) ある事柄に関して集めた個々の事実を広義の記号(=数字、文字、符号、音声など)で表現したもの。 (3) 計算機では計算機で処理できる対象をすべて指す。 プログラムそれ自体もデータであるが、狭義では除外する。 「新明解国語辞典第四版」三省堂より p.868
モデルの表現形式の例(1) • 表(table) • こみいった事柄を整理できる • 歴史年表/貸借対照表/成績表など • 計算機上の表計算ソフトの利用も一般的 • 図 • 何らかの目的で描いた2次元図形 • 人間の思考・推論を支援/拡張する • 設計図/地図など • 広義には絵画/スケッチなども含める
モデルの表現形式の例(2) • グラフ • ノード(node)とエッジ(edge)から構成される • ラベル付きグラフ • ラベル付きのエッジで構成されるグラフ • 有向エッジ,弧 • 方向を持つエッジ • 道路ネットワーク/組織図/pert図/意味ネットワークなど様々な領域で幅広く用いられる
5 1 4 1 • 無向グラフ • 有向グラフ 3 2 5 6 6 3 4 2 点(頂点)集合={1,2,3,4,5,6} 辺(枝)集合
記号表現 • 記号表現 • 事物/事象,心的概念を抽象化したもの • 記号表現の実際の形式 • 図記号(ピクトグラム),数の表現など • 記号の2側面以下の言葉は構造主義の用語である • 意味するもの(シニフィアン) • 意味されるもの(シニフィエ)
サービスエリアの図記号 • 抽象化された図形によるデザイン • 瞬時に表示内容を認識できる • ナイフとフォークのように物理的実体に直接関係があるものは、記号論では「記号」と呼ばず「シンボル」と呼んで区別する
車両通行禁止の標識(日本) • すべての車両通行禁止(欧州) • 二輪車以外の車両通行禁止(欧州) • 記号の恣意性 これは本来、構造主義の用語である。上のように絵が違う意味を持つということとは、やや違う。
ASCII コードa (0110 0001) b (0110 0010), c (0110 0011) これらの8ビットの 0, 1 の列の内、最後の7ビットで文字を表現し、ゆえに、2の7乗つまり128通りあるから、計算機内では余分な 1 ビットを加えて、8 ビット= 1 バイト (byte) で表現している。 ( 1 byte = ASCII 文字 1 文字) ■ JISコード (1バイト文字=半角文字) ASCII で表現される文字は、英字、数字、他に ? # などのいくつかの記号である。日本ではこれにカタカナ(半角カナ)を加えてJIS コードとしている。
2バイト文字(全角文字)(日本語の表記) ■ JISコード:日本語で漢字も含めて扱おうとすると、128通りでは足りない。そこで日本では JIS(日本工業規格)によって漢字を表わすコードが定められている。そこでは漢字、ひらがな、カタカナを 16ビット(2バイト)で表わす。 16ビットの列は、2の16乗=65536通りあるので、ひらかな、カタカナと日常に必要とされる程度の漢字をそこに割り当てて、表現できる。 JIS コードを持つ漢字のうち、比較的良く使われる漢字を第一水準(2965字)、その他を第二水準(3388字)と区別してある。 例 漢字(全角文字)のJIS コードの例。 JIS コードの 16ビット列は、通例4けたの16進数の列として表記される。次がその例。左が16進数の4つ組、右がそのビット列。 中 --> 4 3 6 6 = (0100 0011 0110 0110) 村 --> 4 2 3 C = (0100 0010 0011 1100) 17
■Shift JISコードMicrosoftによって考案された、日本で一番使用されている日本語文字コード。主にMS-DOS、Windows、Mac OS、OS/2等のOSで広く使用される。パソコンで使われている。半角カナを扱うことが可能。ASCII部分は、7bitのJIS X 0201のローマ字で表現しているため、・バックスラッシュ(半角の\)⇒円記号(\)・ティルダ(~)⇒オーバースコア( ̄)の違いがある。 18
■EUC-JPコード主に UNIX、Linux で広く使用される。 情報棟の UNIX サーバでは EUCが使われている。そのため日本語をファイル名に使えない。 ■Unicodeすべての文字を16ビット(2バイト)で表現し、1つの文字コード体系で多国語処理を想定した文字コード。2バイト表記の場合、最大65536文字の表現の為、漢字圏の言語は全てをサポート出来ない問題がある。JavaではUnicodeをデフォルトのデータ型としている。情報棟iMac端末では Shift-Jisを使っている。 19
第2章・補足 ソシュールの言語学 構造主義と記号論 記号の恣意性
象徴 (symbole) 記号=(シニフィアン、シニフィエ) 意味するものSignifian シニフィアン、 意味されるものSignifeシニフィエ、 Man Ferfi 男性 Hommes 実体 Woman No 女性 Damen .. 実体 対応は恣意的で、物理的必然性がない。それぞれの言語、社会の構造の中でのみ意味を持つ。普通の「言語」こそ、記号論で言う記号の代表例である。 物理的必然性がある 21
ソシュールの言語学 ・「もの」がありそれに名前を付けただけたものが言語であるという言語観を「名称目録的言語観」「カタログ言語観」という。ソシュールはこれを否定した。 ・「ことばとは「ものの名前」ではない。」 ・フランス語の mouton は英語の sheep とほぼ同じだが、料理して卓上に供されたものを英語では mouton と言うように、意味の幅が違う。 ・言語活動はちょうど星座を見るように、もともとは切れ目の入っていない世界に人為的に切れ目を入れて、まとまりをつけることである。(分節と呼ぶ) ・言葉が与えられることによって、はじめて(意識の上での)認識が可能になる。 (個人的に:伝達が可能になる?) 22
記号(言語)の恣意性 「ある言葉が指すものは、世界にある実物ではない。その言葉が世界から勝手に切り取ったものである(分節)。言葉が何を指すかは社会的・文化的に決まっているだけである。自然自身の中にそれを必然とする根拠があるわけではない。こういう特徴をソシュールは言語の「恣意性」と呼んだ。」 外来語が入ってくる前には、日本にはデスクもテーブルも存在しなかった! Desk Table 机 23
スペクトルごとの色の名前 英語 yell-ow green orange red purple blue ショナ語(ローデシア) cipswuka citema cinena cipswuka バッサ語(リベリア) ziza hui
構造主義: 私たちはつねにある時代、ある地域、ある社会集団に属しており、その条件が私たちのものの見方、感じ方、考え方を基本的なところで決定している。だから、私たちは自分が思っているほど自由に、主体的にものを見ているわけではない。むしろ私たちは、ほとんどの場合、自分の社会集団が受け容れたものだけを選択的に「見せられ」「感じさせられ」「考えさせられている」。自分の属する社会集団が無意識的に排除してしまったものは、そもそも私たちの視界に入ることがなく、私たちの思索の主題になることもない。 (内田樹「寝ながら学べる構造主義」文春新書) 25
参考文献:ソシュールの言語学と構造主義 田中克彦「言語学とは何か」岩波新書 (1993) ☆☆☆ 田中克彦「ことばと国家」岩波新書 (1981) 内田樹「寝ながら学べる構造主義」 文春新書(H14) ☆☆☆ 橋爪大三郎「はじめての構造主義」講談社現代新書 (1988) 池上嘉彦「記号論への招待」岩波新書 (1984) (面白くない本) 贈り物は孤立している。 恩恵も感謝も贈り物にかかわりをもたない。 魂は贈り物に感染しない。 (ロラン・バルト「表徴の帝国」ちくま学芸文庫p.103.)(表徴の帝国=記号の王国=日本) 26
アナログ表現とデジタル表現 • アナログ表現 • ある情報を連続量(アナログ量)として表すこと • 無限の精度を必要とするため,データの複製は元のデータの近似にしかならない • デジタル表現 • ある情報を離散的に表すこと(デジタル量) • ある情報に対して一定の間隔の尺度を導入し,その尺度の値に近似して表現する • 複製時にデータが劣化しにくい • 情報コンテンツの著作権保護への問題をもたらす
アナログ表現とディジタル表現の実際 量子化観測値を離散的に取る 例 気温を 0.1 度単位ではかる 標本化 観測の時間間隔を離散的にする 例 1時間ごとの気温をはかる (左の図)気温のアナログ表現-観測の標本化 (右の図)気温のディジタル表現-標本化と観測値の量子化 この絵はまずい 28
量子化と標本化の実際 情報の用途によって間隔の詳細度を決める コンピュータディスプレイ装置 赤(R)緑(G)青(B)を混色したRGB形式を用いている 各々 8 ビット=256種類の異なる色で表現 256×256×256=16,777,216色を表示できる 29
音楽CDのデジタル化 • 人は通常 20Hzから、個人差があるが 15,kHz ないし20 kHz 程度の音を音として感じることができ、この周波数帯域を可聴域と いう。 . • 標本化 • 標本化の基準:44.1kHz • 1/44100=0.0000227秒間隔で音の標本化 • 量子化 • 量子化のために16ビットを用いて、音の振幅を65536(2の16乗)個の段階に分割している。周波数の対数を 65536 分の一に分けているはずだと思う。(Weberの法則) • 人間の視覚、聴覚の分解能を十分カバーできる詳細な量子化になっている
・標本化定理標本化するときの時間間隔 をt とすると、 の周波数まで復元できる 。 をナイキスト周波数と呼ぶ。 例 上限が 2000Hz の情報を復元するには、時間間隔 4000Hz以上でサンプリング、標本化すれば、元のデータが復元できる。 31
標本化定理 f(t)が W以上の周波数成分を持たないとき での 時刻 から 観測値 もとの信号関数が一意に復元できる 32
エイリアシング • 対象にナイキスト周波数より高い周波数の周期関数が含まれている場合に,誤った関数が復元される現象をエイリアシングと呼ぶ • (左の図)オリジナル画像 • (右の図)エイリアシングが生じた例
ディジタル符号の圧縮 • ディジタル符号化された情報は圧縮できる利点を持つ • 可逆圧縮 • 圧縮したものから元の情報を完全に復元できる方法 • 非可逆圧縮 • 元の情報には復元できない方法 • 人間の知覚では差異が分からない程度の復元が可能ならば様々に応用が可能
ランレングス圧縮(可逆圧縮) • ビット列を値とその繰り返し回数で表す • (例)32ビットのビット列00001100000001111100011111101000 • 0と1の繰り返しを数えると • 4回(0),2回(1),7回(0),5回(1),3回(0),6回(1),1回(0),1回(1),3回(0)となる • 繰り返し回数を並べる • 4 2 7 5 3 6 1 1 3 →100 010 111 101 011 110 001 001 011 • 27ビットに圧縮する事ができる • ファクシミリ通信などで使われている • 背景の白の部分が多いので,大幅な圧縮が可能
JPEG圧縮 (非可逆圧縮) • 画像データの圧縮方法(非可逆圧縮) • 要求される精度の周波数成分までを符号化する JPEGでは、画像を固定サイズ(8×8画素)のブロックに分割し、そのブロック単位で、離散コサイン変換 を用いて、空間領域から周波数領域へ変換する(この変換自体では情報量は削減されない)。変換されたデータは、量子化によって情報量を落としてから、ハフマン符号によるエントロピー符号化がなされ圧縮が行われる。( ハフマン符号については後述する)
2.4 ディジタル符号化 ハミング距離 二つの記号列 の間の距離を で定義する 37
A=(0 0 1 0 1 1 1 1 0 0 0 1 1 1 0 0) B=(0 0 1 0 0 1 1 1 0 1 0 0 1 1 0 0) ハミング距離は3である。 数学上の距離の定義:以下の3つの性質を持つこと [演習] ハミング距離が上の3つの公理を満たすことを示せ。
分子系統樹のアルゴリズム • 距離行列法:列の間のハミング距離を使って、系統樹を構築する Neighbour-Joining法(NJ法、 Saitou&Nei)、UPGMAなど • 樹形探索法:2分木を変形しながら、最適解に近づく 最大節約法、最尤法、最小二乗法など
A13 こんぎく属:シオン、ヨメナなど AAGTCGTACCAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTCGAAGCCTGCAAAGCAGAACGACCCGTGAACATGTTATAACAACCATGCCATAATGGGTTGAGCGGCAGTTCAATCCTTGTGGCATCGTCGATGTGCATCCTTGATGACCCATTCGGGCCTCTTGGTTGTTGCTTCGACATAACAAAACCCCGGCACGGGATGTGCCAAGGAAATTTAAAGTGAAGAATGGCTTGTTCCATGATGTCCCGTTTGCGGTGCGTTCATGGAGCATGGCTTCTTTGTAATCACAAACGACTCTCGGCAACGGATATCTCGGCTCACGCATCGATGAAGAACGTAGCAAAATGCGATACTTGGTGTGAATTGCAGAATCCCGTGAACCATCGAGTTTTTGAACGCAAGTTGCGCCCGAAGCCATTCGGCCGAGGGCACGTCTGCCTGGGCGTCACGCATCGCGTCGCTCCCACCATTCCTTCCTTCGGGAAGTTTGGTTGGGGGCGGATAATGGCCTCCCGTTCCTCACCGAGCGGTTGGCCAAAATAAAAGTCCCCTTTGATGGATGCACGACTAGTGGTGGTTGACAAAACCCGGTATTGTGTCGTGTGTCTTGTCGAAAGGGTGCATCTTAATAGACCCAACGCGTTGTCACGAAGCAACGCATCGACCGGGACCCCAGGTAGGGnGGGG A26 AAGTCGTACCAAGGTTTCGTAGGTGAACCTGCGGAAGGATCATTGTCGAACCCTGCAAAGCAGAACGACCCGCGAACATGTTAAAACAACCATGCCAGGATGTGTCGAGCATCCGTTCGATCGTTCTGGCACACCGTTGATGTGCCTGCCTAGTTGGCCCAACGGGTCATCTTGGTGGTCGCTTTGACGTAACAAAACCCAGGCACGGGATGTGCCAAGGAACTTTAAATTGAAGAATTGCCCGTCCCATGAAGTCCCGTTCGCGGTGTGCTCATGGGGTGTGGCGTCTTTGTAATCACAAACGACTCTCGGCAACGGATATCTCGGCTCACGCATCGATGAAGAACGTAGCAAAATGCGATACTTGGTGTGAATTGCAGAATCCCGTGAACCATCGAGTTTTTGAACGCAAGTTGCGCCCGAAGCCATTTGGCTGAGGGCACGTCTGCCTGGGCGTCACGCATCGCGTCGCTCCCCACCATTTCCTTTGGGATGCTTGGCTGGGAGCGGATATTGGCCTCCCGTTATAACCGAGCGGTTGGCCAAAATAAAAGCACCTCTTGACGGGCGCAAGACTATTGGTGAGAAAACCATGAAATTTGTTGCGTGTCTCGTCAAAAGGTTGCCGAATTGACCCAACGCGTTGTCTTCTGATGACGCTTCGTCTGCGAACCCCAGGTAGGGGGGG
ハミング距離を数える前にアラインメント(立て揃え)をするハミング距離を数える前にアラインメント(立て揃え)をする GCCTAGTTGGCCCAATGGGTCA CCTTCATG - - CCCATTCGGGCC CCTTGAT - GACCCATTCGGGCC GCCTAGTTGGCCCAACGGGTCA CCTTGATGA - CCCATTGGGGCC CCTTGAT - - GCCCATTTGGGCC CCTTGAT - - GCCCATTTGGGCC CCTTGAT - - GCCCATTCGGGCC
パリティ • パリティ検査 • 冗長なビットを追加することで符号の誤り検出や訂正を行う • nビットの符号(x1-x2-x3-…-xn)に付加ビットyを追加して1となるビットが偶数になるようにする • x1+x2+x3+….+xn+y≡0(mod 2) • パリティ:元の符号で1となるビットの個数が偶数個か奇数個かを表す • 単一パリティ検査符号:ビットを1つ追加してパリティを検査できるようにした符号
2.5.3 パリティ(パリティビットの付加) p.34 n ビットの符号列 に常に となるビット y を加える通信中に誤りが起これば、誤りがあることが検出できる
ハミング距離と誤り検出・訂正 • 符号の1つのビットが反転すると,反転前後の符号のハミング距離は1となる • 2つの符号に関して, • 誤り検出に必要な符号間のハミング距離:2以上 • 誤り訂正に必要な符号間のハミング距離:3以上 • 一般にt個までの誤りに関して • 誤り検出に必要な符号間のハミング距離:t+1以上 • 誤り訂正に必要な符号間のハミング距離:2t+1以上
001 011 101 000 111 010 100 110 000 00 001 101 10 100 011 0 01 000 11 110 010 誤り検出 101 011 1 110 誤り訂正 111
符号の誤り検出・訂正 • A,Bという情報を相手に伝えたい場合にノイズによりビットが1つ反転しうると仮定すると… • A:0,B:1として符号化 • 受け手側では誤りを検出する事ができない • A:00,B:11として符号化 • 受信する可能性のある符号は4通り • 誤りを検出できる:01,10は誤りが生じたと分かる • A:000,B:111として符号化 • 受信する可能性のある符号は8通り • 誤り検出と訂正ができる • 001,010,100はAを伝送しようとして誤ったもの • 110,101,011はBを伝送しようとして誤ったもの
(赤瀬川源平「新解さんの謎」文藝春秋、平成八年)(赤瀬川源平「新解さんの謎」文藝春秋、平成八年) おとこ[男] (1) 人間のうち、雄としての性器官・性機能を持つほう (2)一人前に成熟した男性。{狭義では、弱いものをかばう、積極的な行動性を持った人を指す} おんな[女] (1) 人間のうち、雌としての性器官・性機能を持つほう (2) 一人前に成熟した女性。{やさしい心根や優柔不断や決断力の乏しさがからまり存する一方で、強い粘りと包容力を持つ} ほうよう[抱擁] おおらかで、自分と反対意見を持つ人、自分の悪口を言う人などと、承知の上で付き合うこと。
・ おそかれはやかれ 「ーー 一度は死ぬのだ」 ・ 凡人 自らを高める努力を怠ったり功名心を持ち合わせなかったりして他に対する影響力が皆無のまま一生を終える人。 [ マイホーム主義から脱することの出来ない大多数の庶民の意にも用いられる ] 特定の異性に特別な愛情を抱いて、二人だけで一緒にいたい、できるなら合体したいという気持ちを持ちながら、それが常にはかなえられないでひどく心を苦しめる・まれにかなえられて歓喜する状態 ・ 恋愛