1 / 40

この講義について

この講義について. 担当: 楫 勇一(かじ ゆういち) , ソフトウェア 基礎 学 研究室 2年前まで は,全15回の専門科目として実施 ベーシック な部分を抜き出し,全8回の基礎科目として再構成 基本的に,情報系以外の学部を卒業した学生向け. 情報を正確に,効率よく伝えるための理論と技術を学ぶ. 本講義スライド http ://isw3.naist.jp /~kaji/lecture/. about this class. T his class is given in Japanese. English slides are available at

Download Presentation

この講義について

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. この講義について 担当: 楫 勇一(かじ ゆういち),ソフトウェア基礎学研究室 • 2年前までは,全15回の専門科目として実施 • ベーシックな部分を抜き出し,全8回の基礎科目として再構成 • 基本的に,情報系以外の学部を卒業した学生向け 情報を正確に,効率よく伝えるための理論と技術を学ぶ 本講義スライド http://isw3.naist.jp/~kaji/lecture/

  2. about this class • This class is given in Japanese. • English slides are available at http://isw3.naist.jp/~kaji/lecture/12/ but the slides are based on an previous version of this course; • 15-classes • more extensive • Use them with your own risk. • Feel free to visit me @ A615.

  3. 情報理論 • 1948年の C. E. Shannonの論文からスタート • 情報通信の数学的側面に着目 • 今日のデジタル技術に多大な影響 • 有線・無線の通信・放送技術 • CD/DVD/HDD等のデータ記録技術 • データ圧縮 • 暗号,言語学,バイオ情報学,ゲーム理論,... 本講義では,情報理論の基礎的な知見について学ぶ Claude E. Shannon 1916-2001

  4. 講義の構成 最初の能書き + 3つの章: • 能書き:講義内容全体の予告編 • chapter 1: 情報を測る • chapter 2: 情報をコンパクトに表現する • chapter 3: エラーから情報を守る

  5. シャノン当時の時代背景を知る 1940年代の通信技術... • 電信が広い用途で一般的に使われていた • モールス符号:「トン ( ∙ )」と「ツー( − )」の記号の組み合わせ • トン = 1 単位時間, ツー= 3 単位時間 • 記号と記号の間は,1単位時間の空白 • 英文字間は3単位,英単語間は8単位時間の空白 10101000111000101110001011101000111 00000001110100011101110111000101110111 ある意味で,「デジタル通信」が既に用いられていた

  6. 情報処理の自動化・機械化 通信の一部を自動化する「装置」が出現 Teletype model 14-KTR, 1940 http://www.baudot.net/teletype/M14.htm Enigma machine http://enigma.wikispaces.com/ 機械...人間より高速で,ミスを犯さない(と思われていた) 当時の興味の方向性:限られた資源(時間,通信路)の中で... • 【効率の問題】 どれだけ多くの情報を伝えることができるか • 【信頼性の問題】 どれだけ正確に情報を伝えることができるか

  7. 通信のモデル 通信は,下記のようにモデル化できる 伝送路 情報源 送信機 (符号化器) 受信機 (復号器) 受領者 雑音源 C.E. Shannon, A Mathematical Theory of Communication, The Bell System Technical Journal, 27, pp. 379–423, 623–656, 1948. 通報 通信 = 広い意味での情報の伝達

  8. 効率的であるとは 通信を効率化する =B のサイズを小さくする • ただし A = D(または A ≈ D) の必要あり • 通信路に雑音あり(B ≠ C ), 雑音なし (B = C)の2つのケース A B C D

  9. 問題その1:効率性 例:天気を毎日記録したい(情報源 =天気) • 通報 = {晴, 曇, 雨} • 記録には“0” と “1”だけが使用可能(空白等は使えない) 天気 晴 曇 雨 符号語 00 01 10 • 1日当たり2ビットの記号を送信することになる • 送信すべきビット数を減らすことができれば,より効率的 0100011000

  10. 良い符号はあるか? 符号 B のほうが,よりコンパクトに情報を表現できる • 符号語の長さが違っているが,正しく復号できるか? • 先頭から処理すれば問題ナシ • 符号 B よりも良い符号はあるか? • Yes でもあり,No でもある(→ 次ページ) 天気 晴 曇 雨 符号 A 00 01 10 符号B 00 01 1 符号 A...0100011000 符号 B...010001100

  11. 「平均」で考える 天気の発生確率は,一般には均等でない... 天気 晴 曇 雨 確率 0.5 0.3 0.2 • 符号 A • 00 • 01 • 10 • 符号 B • 00 • 01 • 1 • 符号C • 1 • 01 • 00 一日あたりの記録に必要なビット数は • 符号 A:2.0 bit • 符号 B:20.5 + 20.3 + 10.2 = 1.8 bit • 符号 C:10.5 + 20.3 + 20.2 = 1.5 bit 「この確率分布では」符号 C が最良 ... 「この確率分布で」,符号 C よりも良い符号はあり得るか?

  12. 最良の符号 たとえば,一日あたり,平均 0.0000000001 bit で表現できる? ...無理っぽい • 「どこかに限界がある」ことは,直感的にわかる • シャノン:「どこに限界があるのかを数学的に解明したい」 → この確率分布では,一日あたり 1.485 ビットが絶対に必要 • 天気 • 晴 • 曇 • 雨 確率 0.5 0.3 0.2 天気という情報が持つ「情報量」 「容器(通報)のサイズは, 中身(情報量)よりも小さくできない」

  13. 本講義の前半部分について • 能書き:講義内容全体の予告編 • chapter 1: 情報を測る • 情報を定量的に測るための技術に ついて学ぶ • chapter 2: 情報をコンパクトに表現する • 情報をコンパクトに表現するための 技術と限界について学ぶ • chapter 3:エラーから情報を守る

  14. 信頼性の高さとは 通信の信頼性を上げる = 「A = D(またはA ≈ D)」を保証する • 雑音の影響により,B ≠ Cとなるおそれがある • B のサイズをあまり大きくせず,A = Dとなる確率を上げたい A B C D

  15. 問題その2:信頼性 伝送路は,必ずしも信頼できるものではない • 送信情報≠受信情報 ABCADC ABCABC • 伝送路上での誤りを根絶することは難しい • 日常会話では...「符丁」の利用により問題回避 ABC Alpha, Bravo, Charlie あさひの「あ」 いろはの「い」 Alpha, Bravo, Charlie ABC

  16. 符丁とは • 符丁では,冗長な記号を故意に付加する • 冗長記号により,誤りを訂正可能とする →これと同種の機構を,0-1 データ上で実現したい 冗長 必要のない 余分な Alpha = 送りたい通報 誤り対策のため,やむを得ず 付加する冗長な記号

  17. 冗長性について Q. どうやって 0-1 データに冗長性を付加するか? A. パリティビットを使えばよい パリティビットとは... データ中の1 の個数を偶数にするための「追加ビット」 • 00101 → 001010 (2個の1 → 2個の 1) • 11010 → 110101(3個の1 → 4個の 1) パリティビットを一個使うと,奇数個のビット誤りを検出可能

  18. 誤りを訂正するには? パリティビットを複数使うと,誤りを訂正できる(場合もある) 例: 4ビットデータ (a0,a1, a2, a3)に対し,パリティビットを5個付加 a0 a1 p0 a2 a3 p1 符号語 = (a0,a1, a2, a3, p0,p1, q0,q1, r) q0 q1 r

  19. 誤り訂正の例 • 1011 を送信する... • 100110011 が受信された... 符号語 = 1 0 1 1 1 0 0 1 1 ○ 1 1 0 0 1 1 × 0 1 1 1 0 0 ○ 0 0 1 1 1 1 3ビット目が怪しい... 「送信されたのは101110011 だろう」 1ビット誤りを訂正可能 (だが,あまりにも安直) ○ ○ ×

  20. 本講義の後半部分について • 能書き:講義内容全体の予告編 • chapter 1: 情報を測る • chapter 2: 情報をコンパクトに表現する • chapter 3:エラーから情報を守る • 誤りを発見し,訂正するための技術に ついて学ぶ

  21. 授業日程 • 火曜1限(9:20~10:50) • 4/8, 15, 22, 5/7, 13, 20, 27, 6/3 ... 全8回 • 中間レポート... 4月末前後 • 試験... 6月3日(最終回の講義) 講義資料(本スライド) http://isw3.naist.jp/~kaji/lecture/ http://isw3.naist.jp/~kaji/lecture/12/ (old version in English) 8 ココだけ水曜1限

  22. chapter 1:情報を測る

  23. 測るべき「情報」 情報とは,何かを伝えるもの.ただし... • まったく興味のないことを教わっても,「情報」とは思わない • わかりきったことを教わっても,「情報」とは思わない 情報とは... 不確実性を持つ興味対象について,その不確実さを減らすもの Before After 不確実さが 大きい 不確実さが 小さい

  24. 興味対象を,どのように表現するか • 興味対象は様々 • 明日の天気,野球の試合結果,テストに出る問題, 友人の予定,夕食のおかず ... 現実の細部はバッサリと切り落とし,確率・統計の世界で考える • 興味対象は,確率変数の値 • どれくらいの確率で,どの値を取るかはわかっている • 実際に発生する(発生した)値は,いまのところ不明 • 「サイコロの目」が典型例

  25. 復習:確率変数とは 確率変数 : 中身を覗けない「箱」のようなもの • 箱の中には,のどれか一個が入っている • 何が入っているかは,箱を開けてみないとわからない • ...確率変数の実現値と呼ぶ • 実現値の集合... と書く • である確率が のとき • と書く

  26. 復習:確率変数の例 • 「サイコロの目を,確率変数で表す」 • の値はのどれか,全部同じ確率 • 「今夜のメニューを確率変数で表す」 • , , ...

  27. 情報の伝達と確率変数 • 確率変数 の値を知りたい • の実現値の集合や,確率分布は既知 • 実際に が取った値は不明 • の値について,なんらかの情報を得る • の確率分布が変化する • 正確で完全な情報 ⇒ の値が一意に定まる • 不正確,不完全な情報 ⇒ 多少の不確実さが残る X X

  28. 情報伝達の例 はサイコロの目を表す確率変数, 1/6 不確実さ:大 1 2 3 4 5 6 ① 「は 4だ」 ② 「は 3の倍数ではない」 1 1/4 不確実さ:0 不確実さ:小 1 2 3 4 5 6 1 2 3 4 5 6

  29. 情報の「量」と不確実さ ① 「は 4だ」 ② 「は 3の倍数ではない」 • 直感的には ... ①のほうが②よりも大きな「情報量」を持つ,ように思われる • ① ... 不確実さを大きく削減 • ② ... 不確実さを少しだけ削減 「情報量 = 不確実さの削減量」 として定義するのが自然 ① ② 1 1/4 情報量 before after 1 2 3 4 5 6 1 2 3 4 5 6

  30. この後のシナリオ 最終目標:「情報」の量を測る定量的指標を導入する • step 1: 確率変数の「エントロピー」を定義 • エントロピー大 不確実さ大 • step 2: 一つのニュースが持つ情報量を定義 • 情報量= (BEFORE エントロピー) – (AFTER エントロピー) • step 3: 確率変数の間の相互情報量を定義 • ある確率変数の値が,他の確率変数について何を語るか 今日 次回

  31. エントロピーの定義 確率変数... 以下の値と確率分布を持つ ... ... 値 確率 (値は,あまり重要でない) (確率値が重要) • の(一次)エントロピー (ただし,とする) • の平均(期待値)と考えることもできる • を,値の自己エントピーと呼ぶ場合も

  32. 自己エントロピーの直感的意味付け 自己エントロピー ... 確率の出来事が起こったと 知ったときの「驚き」の量 • に対して単調減少 ... 滅多にないことが起こる(が小さい)と,驚きが大きい • で連続 ... 同程度の確率であれば,驚きも同程度 • ならば, ... 驚きの「加法性」に対応している(次ページ)

  33. 驚きの加法性 トランプのカードを一枚引く • =「ダイヤの5だった」... 1/52の確率 • =「ダイヤだった」... 1/4の確率 • =「5だった」... 1/13の確率 = を知り,その後に を知ったときの驚き を知ったときの驚き = 自己エントロピーは,我々の直感的な理解と良く対応している

  34. エントロピーの定義(再) • の(一次)エントロピー • 確率で重み付けした,自己エントロピーの平均値 • 確率変数の値が与える「驚き」の平均値= 不確実さ

  35. エントロピー計算の例(1) • コインを投げて出た面を確率変数で表す • の取りうる値は「表」か「裏」の2種類 = = bit • 1bit の情報は,2進数1桁で表現できる ⇒ Chapter 2

  36. エントロピー計算の例(2) • 2枚の異なるコインを投げる • 4 = = bit • コイン1枚のときの2倍のエントロピー ...不確実さが「2倍」

  37. エントロピー計算の例(3) • サイコロ投げ • の取りうる値は 1, 2, 3, 4, 5, 6 = = bit • コイン投げのときと同じ尺度で比較ができる

  38. エントロピー計算の例(4) • 公正でないサイコロ • の取りうる値は 1, 2, 3, 4, 5, 6 = = bit • コインを1枚投げるときより,不確実さが小さい

  39. エントロピーのありがたみ • 一回100円のゲーム,予想が当たれば200円もらえる 賭けるのならコレ

  40. 本日のまとめ • 講義概要 • エントロピーの定義 復習問題(レポートではありません) • 講義 webページにあるデータを使い,エントロピーを計算せよ http://isw3.naist.jp/~kaji/lecture/ • 英語の文字出現頻度 • 株価の騰落データ

More Related