210 likes | 330 Views
文字の表現. 文字列. ビット列. 符号化の 仕組み. 符号化の利用. 入力装置 文字. 符号化. 文字. メモリー ビット列集合. 復号化. 出力装置 文字. 文字の符号化. ASCII (ANSI X 3.4) A, B, C, ..., 0, 1, 2, … 94文字 JIS漢字 (JIS X 0208 : 1997) 6879文字 旧版 旧JIS (JIS C 6226 – 1978, 78 JIS)(互換性なし) 旧版 新JIS (JIS X 0208 – 1983, 83 JIS)(互換性なし) EUC
E N D
文字の表現 文字列 ビット列 符号化の 仕組み
符号化の利用 入力装置 文字 符号化 文字 メモリー ビット列集合 復号化 出力装置 文字
ASCII (ANSI X 3.4) A, B, C, ..., 0, 1, 2, … 94文字 JIS漢字 (JIS X 0208 : 1997) 6879文字 旧版 旧JIS (JIS C 6226 – 1978, 78 JIS)(互換性なし) 旧版 新JIS (JIS X 0208 – 1983, 83 JIS)(互換性なし) EUC UNICODE (ISO 10646) 256 x 256文字 文字セット
制約 通信→7ビット単位が望ましい パリティビット 符号化方式
7ビットでASCII文字セットを表現 通信に際しては、全体で8ビット、ただしその時の先頭ビットはパリティビット 表(次ページ) ASCII 文字コード
0E : SO, 0F : SI, 41 : A, 62 : b 先頭3ビット 0 1 2 3 4 5 6 7 後ろの4ビット 0 @ P 1 A Q a 2 B R b 8 9 A Z B C / D E SO F SI 7ビットASCIIコード表
0E : SO, 41 : チ(半角) 先頭3ビット 後 ろ 4 ビ ッ ト 0 1 2 3 4 5 6 7 0 未定義 未定義 1 ア チ 2 イ ツ 9 A B C ワ D ン E SO F SI 7ビットカタカナ
例 文字化け 混在
例。2A24:お、7423:t 先頭8ビット(16進数2ケタ) 00 2A 2B 74 75 FF 後 ろ 8 ビ ッ ト ( 1 6 進 数 2 ケ タ ) 00 ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ 21 ! ' # & 22 → ← # ♭ 23 - - t u 24 お か - - ・・・ ・・・ ・・・ ・・・ ・・・ 30 葵 茜 尤 印 31 迂 雨 鉛 鶯 ・・・ ・・・ ・・・ FF ・・・ ・・・ ISO 2022 – JP JIS漢字コード ・・・ ・・・
EUC CN(中国語), EUC KR(韓国語) あり EUC JP コード
ACII/JIS ローマ字 21 ~ 7E JIS X 0201 カタカナ A! ~ DF JIS X 0208 第1バイト 81 ~ 9F, E0 ~ EF 第2バイト 40 ~ 7E, 80 ~ FC 特徴 1.初めの1バイトを見て、文字の種別が分かる。→内部処理に向く 2.8ビットを使うので、外部用(通信用)には向かない(パリティビットをとれない) SHIFT JIS コード
2バイト、4バイト UTF 8 UNICODE ISO 10646文字コード
比較 (A, B)→T, F 照合 連接 (A, B) → A・B 部分列 (A1 A2・・・An, m, n) → Am・・・An 文字列演算の表現
先頭4ビットが0110と等しいかどうか 入力 8bitビット列 例 0110 0000 出力 0000 0000 (等しい時) それ以外の値 (それ以外の時) 文字列照合