透過的データ圧縮 Transparent Data Compression

透過的データ圧縮Transparent Data Compression K. Sadakane and R. Grossi: Squeezing Succinct Data Structures into Entropy Bounds, Proc. ACM-SIAM SODA 2006, to appear. 九州大学システム情報科学研究院定兼　邦彦 2005年11月22日

背景 • データ圧縮の目的 (過去) • ディスク容量の節約 • 通信コスト(料金，時間)の削減 • データ圧縮の目的 (現在) • アクセスの高速化 (CPU速度 > ディスク速度) • 連続的なアクセスに限られる • ランダムアクセスができたらどうなるか保存用

透過的データ圧縮 もし圧縮データの任意部分を高速に復元できれば • データを圧縮したまま保存できる • ディスク容量の節約 • 高速なアクセスが可能 • 圧縮されていることを意識しなくていい

本研究の結果 • 長さ nの文字列 Sを圧縮 (アルファベットサイズ) • サイズ： LZ78 [Ziv, Lempel 78] と漸近的に同じ • Sの i文字目からの連続する logn文字 (log n ビット) を定数時間で復元可能 (decode(S,i)) (計算モデル: word RAM (語長 log nビット)) • このアクセス時間は未圧縮の場合と同じ (Hk: Sの k 次経験的エントロピー)

研究の動機 • Succinctデータ構造を更に圧縮したい • bit vector • 検索木 • グラフ • 圧縮接尾辞木

Succinctデータ構造 • あるデータ集合 Dを格納するデータ構造 • データ構造のサイズ: 情報理論的下限に近い • 情報理論的下限 L = log (Dの場合の数) • 高速な問合せが可能 • 補助的なデータ構造 (索引) を使用 • サイズ: 漸近的に無視できる (o(L) bits)

1 i n S: 01000110001001000001 集合のSuccinctデータ構造 • 集合 D {1,2,...,n} を格納 • 問合せ (定数時間) • member(D,i): D中に iが存在するか • rank(D,i): D中の i以下の要素の数 • select(D,j): D中で j番目に小さい要素 • サイズ: n + o(n) bits [J89] [M96] rank(D,i) = 3

a e c d b a c e b d ((()())()) S 木のSuccinctデータ構造 • n節点の順序木 Tを格納 • 通常のデータ構造は O(n log n) bits • Tは通り存在 (Catalan数) • 情報理論的下限 = 2n (log n) bits • 問合せ(定数時間) • 長男，兄弟，親，深さ，preorder，子孫の数など • サイズ: 2n o(n) bits [MR01] [GRR04] 木を括弧列 Sで表現

bitsで表現できるはず 問: Succinctデータ構造はそれ以上圧縮できないか? • 答: 場合によっては可能 • 例: 集合 D {1,2,...,n} の要素数が少ない場合 • 要素数が mの集合は通り • bitsのデータ構造でmember, rank, selectを定数時間で返すものが存在 [RRR02] FID (Fully Indexable Dictionary) と呼ばれる

FIDを用いたポインタの圧縮 ある nビットのデータ構造(ビット列)へのポインタ m個を格納する場合 • ポインタの値 iを S[i] = 1 で表現 • SをFIDで圧縮．ポインタはselectで求まる • m = O(n/log n) のとき，FIDのサイズはビット列 S 000000010000000000001000000000001000000000000100000000

問: 木のSuccinctデータ構造は圧縮できるか? • FIDでは不可能 • (と )が同数ある ⇒ B(n,2n) = 2n bits 必要 • 2n + O(n log log n/log n) bits [GRR04] • データ間の相関を考慮する必要がある • FIDでは 0 次のエントロピーまで圧縮 • k次のエントロピーまで圧縮したい

本研究の圧縮法の応用 • 集合 D {1,2,...,n} に対するmember, rank, selectを定数時間で返すデータ構造 • サイズ: nHk+O(n log log n/log n) bits (k=O(log log n)) • Hkは Dを表す0,1列 Sの k 次経験的エントロピー • EID (Entropy-Bound Indexable Dictionary) と呼ぶ • FID よりもさらに小さい

EIDのデータ構造とアルゴリズム • データ構造 • Dを表す0,1列 Sを圧縮したもの nHk+O(n log log n/log n) bits (任意の連続する log nビットを定数時間で復元可) • FIDの補助データ構造 O(n log log n/log n) bits • 問合せアルゴリズム • FIDとほぼ同じ (S[i,i+log n1] へのメモリ参照をdecode(S,i)に置き換える) • どんな問合せの計算量も漸近的には同じ

木のSuccinctデータ構造の圧縮 • FIDでは不可能 • 2n + O(n log log n/log n) bits [GRR04] • EIDでは可能 • 木を表現する括弧列 Sの Hkまで圧縮可 (k=O(log log n)) • 2nHk + O(n log log n/log n) bits • 問合せの計算量は圧縮前と同じ • 構造が同じ部分木があると Hkは小さくなる (接尾辞木で特に有効)

EIDの圧縮サイズの限界 • S = 010101...010101 を圧縮する場合 • FID: nH0 = n bits (+ O(n log log n/log n)) • EID: nH1 = O(log n) bits (+ O(n log log n/log n)) • エントロピーが小さいと第2項が無視できない • rank を定数時間で返すデータ構造のサイズは (n log log n/log n) bits [Miltersen 05] 　つまり第2項は最適

従来の圧縮法

従来の圧縮法 統計的圧縮法 PPM[Cleary, Witten 84] PPMD [Howard 93] PPM*[Cleary, Teahan, Witten 95] block sorting [Burrows, Wheeler 94] 高圧縮率、PPMより高速(bzip2) context tree weighting [Willems, Shtarkov, Tjalkens 95] PPMより高圧縮率辞書式圧縮法 LZ77 [Ziv, Lempel 77] LZ78 [Ziv, Lempel 78] LZW[Welch 84] compress LZSS [Storer, Szymanski 82] gzip

....a compressed suffix tree consists of a compressed suffix array, a Pat tree and edge-length information. ....a compressed suffix tree consists of [l=19, d=36] array, a Pat [l=4, d=51] and edge-length information. LZ77圧縮法 • 文字列を辞書へのポインタで置き換える • 辞書 = すでに圧縮した文字列圧縮率は文字列のエントロピーに収束

PPM • 文字を1文字ずつ符号化 • 各文字の符号は文脈から決まる • 文脈：符号化する文字の直前の k文字 • 圧縮サイズ： abcababc 文脈符号化する文字

高次圧縮の問題点 • k次のエントロピーの圧縮率を達成するには隣接する文字列の情報を用いて圧縮する必要がある • 一部分を復元する場合も全体を復元ことになる k = 4 c o m p r e s s i o n

従来の圧縮法との比較 [GGV03]

新圧縮法の概要 LZ78の改良+補助データ構造

a b 2 a b 4 b 3 7 a 5 b 6 8 a b b a a b b 2 3 4 5 1 2 1 LZ78 圧縮法 • 文字列を辞書中のフレーズに分割 • 数字に置き換えて符号化 • 辞書を更新 1 LZ-trie S = aaabbbaaaabbbb 2 3 4 5 6 7 8 出力

LZ78の圧縮率 [Ziv, Lempel 78] 長さ nの文字列 Sを分解したフレーズの数 cは • 圧縮後のサイズ: bits • Sが定常エルゴード情報源 (エントロピー H) から生成されるなら • Sの k 次経験的エントロピーHkに対し (: アルファベットサイズ) [Kosaraju, Manjini 99]

S = aaabbbaaaabbbb a 1 b R 2 3 6 7 4 5 8 2 a b 6 P b 1 2 4 5 7 10 12 3 5 a 7 b 4 8 1 2 3 4 5 6 7 8 (((())())((()))) E C a a a b b b b 本研究のデータ構造 T Tを表現する括弧列フレーズの添字を格納添字が Tのpreorderと一致するように付け替えるフレーズの開始位置を格納 Tの枝ラベル

S = aaabbbaaaabbbb a 1 b R 2 3 6 7 4 5 8 2 a b 6 P b 1 2 4 5 7 10 12 3 5 a 7 b 4 8 decodeアルゴリズム S[i,i+log n1] を復号する場合 • S[i] を含むフレーズ pを求める • pを表すLZ-trieのノード vを求める • vから根に向かうパス上のラベルを復号

branching node (根へのパスを格納) 枝分かれ無し(定数時間で復号可) jump node (子孫をw/2個以上持つ) micro tree (jump nodeの子孫) 定数時間で復号可 Long phraseの復号 • Long phrase: 長さ w = ½ logn以上のフレーズ

Short phraseの復号 • Short phrase: 長さ w = ½ logn未満のフレーズ • Sの長さ ½ log n の部分列はshort phraseを O(log n)個含む可能性あり ⇒ 定数時間で復号できない • r > 1 個の連続するshort phraseをそのまま格納 • 対応する Rは格納しない • データ構造のサイズは増加しない • Rを格納する場合: r log c bits • そのまま格納する場合: ½ log n bits • ½ log n<r log c (∵ )

まとめ 新圧縮法の提案 • 任意の文字列を高次エントロピー限界まで圧縮 • 部分列の定数時間復号 (未圧縮と同じ時間) 応用 • 既存の索引構造のサイズを改善 • 検索速度も同じ • 個々の索引ごとに圧縮法を考える必要がない課題 • 文字列の更新 • LZ77などの改良

透過的データ圧縮 Transparent Data Compression

透過的データ圧縮 Transparent Data Compression

Presentation Transcript

INFORMATION THEORY

LONGITUDINAL STIFFENERS ON COMPRESSION PANELS

THERMO-COMPRESSION WELDING HOT ISOSTATIC PRESSURE WELDING EXPLOSION WELDING PROCESS SELECTION

Characteristics of Three Bridge Types

Homogeneous Charge Compression Ignition (HCCI) Engines

Flexible display and Transparent electrodes

Lecture 10: data compression

Digital Image Processing Chapter 8: Image Compression 11 August 2006

Multimedia Compression (2)

WindowsXP Technical

Data Preprocessing

Traitement d'images 4TC - Option « Télécoms » Hugues BENOIT-CATTIN

Axial Members

Social Media Class 1: Basic Social Media Strategy

On the Process of Realizing the Best BinDCT Configuration for Image Compression

Bridges, Routers and Switches Part One

Computational Geometry

Compression

Chapter 8 图像压缩

Major Models and Hypotheses of Chiropractic Subluxation: II. Neurologic Models

Eigen Value Analysis in Pattern Recognition

DEA-INFO Analyse et Compression de Séquences Vidéos