110 likes | 243 Views
SAMBA 日本語問題と今後. 日本 SAMBA ユーザ会 www.samba.gr.jp 2000.4.19. 日本語独特の L10N 問題とは ?. 各社仕様の拡張文字 アップル、 IBM 、 NEC 、マイクロソフト 文字の正規化問題 複数の符号化 EUC 系、 JIS 系、 SJIS 系 規格の混乱など JIS X 0208-1978 -> 1983 での文字のいれかえ JSA による第 3 水準、第4水準の策定の問題 広くフォントの存在しない JIS X 0212 補助漢字 Unicode とのマッピング. 各種 OS の日本語文字.
E N D
SAMBA日本語問題と今後 日本SAMBAユーザ会 www.samba.gr.jp 2000.4.19
日本語独特のL10N問題とは? • 各社仕様の拡張文字 • アップル、IBM、NEC、マイクロソフト • 文字の正規化問題 • 複数の符号化 • EUC系、 JIS系、SJIS系 • 規格の混乱など • JIS X 0208-1978 -> 1983での文字のいれかえ • JSAによる第3水準、第4水準の策定の問題 • 広くフォントの存在しない JIS X 0212 補助漢字 • Unicodeとのマッピング
SHIFT-JISコード ※SJIS文字エンコーディングであり、符号化集合ではないことに注意
Windows符号化文字集合 • コードページとは? • Windowsにおいて、各国語をサポートする文字コード符号化セット • CP932の特徴 • SJISを中心に • IBM拡張文字、NEC拡張文字セット、NEC選定IBM拡張文字を採用 • 外字領域 • MS定義のUnicodeへのマッピング • 他にApple,IBM等の定義もSJISでは存在する
Unicodeとsamba • Unicode変換 • ftp.unicode.orgのテーブル利用 • Unicode2.1準拠 • Unicode-CP マッピング • 漢字コード正規化を公式にはサポートせず Unicode Samba OS ファイル システム Windows NT・2k Unicode →SJIS SJIS → LFN EUC, SJIS, JIS, HEX, CAP SJIS Windows95・98 SJIS Windows95・98
EUC,JIS • JISでは多様なコードが存在 • ISO-2022-JP [-2] • 新JIS, 旧JIS, NEC漢字 • ASCII or JIS ROMANと併用 • サポートする符号化集合 • JIS X 0208-1990, JIS X 0201 KANA, JIS X 0201 ROMAN/ASCII, JIS X 0212-1990 • ISO 2022に則り符号化
Discussion • SAMBAのCoding Systemは何がいちばんいいのか • 内部コードはなにがいいのか • Windowsの拡張をどこまで、どのようにサポートするのか • JIS X 0212補助漢字はどうするのか • その他、皆さんの議題 • VFAT-JPパッチとの整合性? • Li18nux • 韓国語、中国語、台湾
将来のSAMBA内部コード Unicode Samba UCS4 OS ファイル システム Windows NT・2k UCS4 → LFN EUC, SJIS, JIS, HEX, CAP Unicode Windows95・98 OS ファイル システム UCS4 UTF8 SJIS → UCS4 SJIS LANMAN, etc