320 likes | 541 Views
レポート 課題. 4/25 出題, 5/9 提出締切 問題1: を利用 各種エントロピーの定義まで立ち入っての式計算が必要 問題2: (電子シラバスだけでなく )講義ページも参照すべき http ://isw3.naist.jp/~kaji/lecture /. A. 1/0.6. 0/0.4. 0/0.5. 1/0.2. B. C. 0/0.8. 1/0.5. 前回 4/22 の 練習問題. 定常 確率分布を求めよ 010 が出力される確率を求めよ 極限エントロピー を 求めよ. 前回スライドの p.24 ~の情報源と
E N D
レポート課題 4/25出題,5/9提出締切 問題1: • を利用 • 各種エントロピーの定義まで立ち入っての式計算が必要 問題2: • (電子シラバスだけでなく)講義ページも参照すべき http://isw3.naist.jp/~kaji/lecture/
A 1/0.6 0/0.4 0/0.5 1/0.2 B C 0/0.8 1/0.5 前回 4/22 の練習問題 • 定常確率分布を求めよ • 010 が出力される確率を求めよ • 極限エントロピーを求めよ 前回スライドの p.24~の情報源と (本質的には)同じでした...すみません • 定常確率分布
A 1/0.6 0/0.4 0/0.5 1/0.2 B C 0/0.8 1/0.5 前回 4/22 の練習問題(続) • 010 が出力される確率 • 状態 A から 010... • 状態 B から 010... • 状態 C から 010... 定常確率分布で重みを付けて...
A 1/0.6 0/0.4 0/0.5 1/0.2 B C 0/0.8 1/0.5 前回 4/22 の練習問題(続々) • 極限エントロピー 0/0.4 0/0.8 0/0.5 A B C 1/0.6 1/0.2 1/0.5 定常確率 • 状態A: • 状態B: • 状態C:
chapter 2の目的 情報源からの記号(列)を,効率よく(コンパクトに)符号化する • 情報源符号化 • データ圧縮 情報源符号化の目的: • 通信に適した表現方式への変換 • 情報の中の無駄な部分を整理し,捨て去る 目標とする符号化方式: • できるだけ正確に元の情報を復元できること • できるだけコンパクトな情報表現を与えること 0101101 符号化 情報源
議論の順序 • 情報源符号化の基礎 • 一意復号可能性 • 瞬時復号可能性 • ハフマン符号 • ハフマン符号の構成法 • ハフマン符号の拡張 • データ圧縮の理論限界 今日の目標
用語について はじめに,情報源の記号ごとに符号化を行う方式を考える • M: 情報源が生成する記号の集合 • Mの各記号に対し,{0, 1}上の系列を対応付ける • 符号語: Mの記号に対応付けられた{0, 1}上の系列 • 符号: 符号語の集合 • 2種類の文字 {0, 1} を使用...2元符号 符号語は3つ; 00, 010, 101 符号 C = {00, 010, 101} 011 は符号語ではない M 晴 曇 雨 C 00 010 101
符号化と復号 • 符号化... 与えられた記号から,対応する符号語を求めること • 復号... 与えられた符号語から,対応する記号を求めること encode = 符号化 decode = 復号 晴 曇 雨 00 010 101 符号化 復号 • 符号語間に,スペース,コンマ等の区切り記号は使わない • 01000101101はOK,010 00 101 101 はNG • 「区切り記号 = 第3の文字」 ⇒ 「3元」符号を考えることになってしまう
一意復号可能性 • 符号は,一意に復号可能でないといけない • 異なる記号が同じ符号語を持つのは,当然NG • 異なる記号が異なる符号語を持つ,だけでも不十分 • 異なる記号系列は,異なる0-1系列に符号化されること C4 を使う場合... C1 00 10 01 11 C2 0 01 011 111 C3 0 10 11 0 C4 0 10 11 01 a1a3a1 a1 a2 a3 a4 0110 a4 a2 OK OK NG NG
一意性だけで十分か? C2 0 01 011 111 • C2 を使ってa1, a4, a4, a1を符号化,1bit/secでデータ送信 • a1, a4, a4, a1⇒ 01111110 (8ビットのデータ) 受信者が,最初の記号を確定できるのはいつか? • 7秒経過後 ...0111111 まで受信 • 次に 0 が来ると,0 - 111 - 111 - 0 a1, a4, a4, a1 • 次に 1 が来ると, 01 - 111 - 111 a2, a4, a4 7秒後でも,最初の記号すら確定できない 受信データのバッファが必要,復号遅延の問題... 動画ダウンロードだったら,どうなるか a1 a2 a3 a4
瞬時復号可能性 実用的なシステムでは,瞬時に復号可能であることが望ましい • 「符号語のパターンが出現したら,即時に復号して良い」 • 一意復号可能の「上位」の性質 • 「瞬時復号可能」ならば「一意復号可能」である 符号 が瞬時復号可能であるとは... 任意の系列 に対し, となる符号語が存在するならば, となる他の符号語が存在しない × =
語頭条件 符号が瞬時復号可能でないならば,となる 系列と,二つの異なる符号語, が存在する = はの語頭である,という 補題: 符号Cが瞬時復号可能である必要十分条件は,他の符号語の語頭となる符号語が存在しないこと (prefix condition, 語頭条件) C2 0 01 011 111 a1 a2 a3 a4 “0” は “01” と “011”の語頭 “01” は “011”の語頭
雑談:語頭条件とユーザインタフェース 語頭条件は,情報理論以外でも重要 Palm Vx 1999発売 Sony Clie PEG-TH55 2004年発売 graffiti (ver. 2) 2画の文字が出現 語頭条件に反する “3-1”と書いたつもりが “3+” に... graffiti (ver. 1) すべて一筆書きでOK
語頭条件を確保するには 語頭条件を満たす符号の作り方: • 全ての符号語を,同じ長さで設計する; 等長符号 • 符号語の最後に「特殊パターン」を置く C = {011, 1011, 01011, 10011} ; “コンマ符号” ... どちらも,(後述する)効率がよくない • 木構造を利用して符号語を選ぶ (「符号木」) • 2元符号の場合,次数がの木を利用 • 元符号の場合,次数がの木を利用 次数3の 符号木
符号の構成法(元の場合) 個の符号語を持ち,語頭条件を満たす元符号の作り方 • 葉を個持つような,次数の木を構成する • の各枝に,からの値をラベル付けする • 兄弟が同じラベルを持つことは禁止 • 根節点から葉節点まで木をたどり,途中のラベルを連接する 連接の結果得られる系列を符号語とする
0 0 00 0 0 1 1 01 0 0 10 1 1 1 1 11 構成例 個の符号語を持つ元符号を構成する Step 1 Step 2 Step 3 構成された符号は {00, 01, 10, 11}
1 0 0 1 0 1 1 0 0 0 0 1 0 0 1 1 1 1 0 1 0 構成例(続き) 他の構成方法もアリ; • 異なる木を使う,異なるラベル付けを行う... C1={0, 10, 110, 111} C2={0, 11, 101, 100} C3={01, 000, 1011, 1010} どのように作っても,語頭条件は保証される 瞬時復号可能な符号となる
1 0 0 1 0 1 1 0 0 0 0 0 1 1 1 「最良な」瞬時復号可能符号 • C1の符号語のほうが,C3の符号語より短そう... • 符号語の長さ = [1, 2, 3, 3] vs. [2, 3, 4, 4] もっとコンパクトな瞬時復号可能符号はあるか? たとえば • 符号語の長さ= [1, 1, 1, 1]? • 符号語の長さ= [1, 2, 2, 3]? • 符号語の長さ= [2, 2, 2, 3]? C1={0, 10, 110, 111} C3={01, 000, 1011, 1010} ? どこに壁がある?
クラフトの不等式 定理: A) 元符号(とする)が瞬時復号可能なら, (クラフトの不等式)が成り立つ ...次ページで証明 B) もしなら,瞬時復号可能な 元符号で となるものが存在する ... 深さ に葉節点を配置していけばよい
定理Aパートの証明(の場合) A) 2元符号(とする)が瞬時復号可能なら, (クラフトの不等式)が成り立つ • 証明:とし,を示せばよい 高さの完全2分木を考える • 符号語=深さ の節点,先祖にも子孫にも他の符号語ナシ • 深さにあるの子孫の数= • 深さにある節点の総数= よって
具体例に戻って考える できるだけコンパクトな瞬時復号可能な 2元符号を作りたい • 符号語の長さ = [1, 2, 2, 3]? … 瞬時復号可能な符号は構成できない • 符号語の長さ = [2, 2, 2, 3]? … 瞬時復号可能な符号を構成可能...符号木を使えば簡単
次の段階へ • 情報源符号化の基礎 • 一意復号可能性 • 瞬時復号可能性 • ハフマン符号 • ハフマン符号の構成法 • ハフマン符号の拡張 • データ圧縮の理論限界
「コンパクトさ」の指標 情報をコンパクトに表現する符号を作りたい 1個の記号を表現する符号語の長さの期待値を小さくしたい = 平均符号語長 記号 確率 符号語 長さ 平均符号語長は ビット (記号)
平均符号語長の計算例 記号 確率 0.4 0.3 0.2 0.1 0 10 110 111 111 110 10 0 00 01 10 11 • : 0.4×1+0.3×2+ 0.2×3+ 0.1×3 = 1.9 • : 0.4×3+ 0.3×3+ 0.2×2+ 0.1×1 = 2.6 • : 0.4×2+ 0.3×2+ 0.2×2+ 0.1×2 = 2.0 が最も効率よく(=コンパクトに)情報を表現できる(はず)
ハフマン符号 ハフマンアルゴリズム: 平均符号語長の小さな瞬時復号可能符号を作る方法 • M個の節点を準備し,各節点に記号の発生 確率を付与する (節点 = サイズ 1の木) • 木が一個になるまで,以下の操作を繰り返す • 確率最小の木を二個選択... T1, T2とする • 新しい節点を導入し, T1, T2を新節点の子とする (二個の木を一個に併合) • T1, T2の確率の和を,併合してできた木の確率とする David Huffman 1925-1999
0.15 0.6 A 0.25 B 0.1 C 0.05 D 0.6 A 0.25 B 0.1 C 0.05 D 1.0 0.4 0.4 1 0 1 0 0.15 0.15 0 1 0.6 A 0.25 B 0.1 C 0.05 D 0.6 A 0.25 B 0.1 C 0.05 D 例 “資本の小さな会社の合併劇”
練習問題 • 「等長符号」と平均符号語長を比べると,ありがたみがわかる 確率 0.2 0.1 0.3 0.3 0.1 符号語 A B C D E
符号構成の自由度について • ハフマンアルゴリズムの実行結果は,一意でない可能性も... • 同じ確率を持つ節点が多数存在 • 枝へのラベル付けにも,自由度がある • 異なる選択肢を取ると異なるハフマン符号ができあがる,が, 平均符号語長は,どの選択肢を取っても変わらない 0.4 a1 0.2 a2 0.4 a1 0.2 a2 0.2 a3 0.1 a4 0.1 a5 0.2 a3 0.1 a4 0.1 a5
ここまでのまとめ • 情報源符号化の基礎 • 一意復号可能性 • 瞬時復号可能性 • ハフマン符号 • ハフマン符号の構成法 • ハフマン符号の拡張 • データ圧縮の理論限界
練習問題 • 右図に示す記号に対し ハフマン符号を構成し, その平均符号語長を求めよ 確率 0.3 0.2 0.2 0.1 0.1 0.1 符号語 A B C D E F
レポート課題 4/25出題,5/9提出締切 問題1: • を利用 • 各種エントロピーの定義まで立ち入っての式計算が必要 問題2: • (電子シラバスだけでなく)講義ページも参照すべき http://isw3.naist.jp/~kaji/lecture/