470 likes | 680 Views
第 5 章 数字媒体及应用. 5. 1 文本与文本处理 5. 2 图像与图形 5. 3 数字声音及应用 5.4 数字视频及应用. 5.1 文本与文本处理. 5.1.1 字符的编码 5.1.2 文本准备 5.1.4 文本编辑、排版与处理 5.1.3 文本的分类 5.1.5 文本的展现. 文字 数值 语言 音乐 图像 ···. 信息的形态有多种. 文字处理是计算机应用的基础. 计算机应用=使用计算机进行信息处理. 其中, 文字信息处理是涉及面最广的一种计算机应用,几乎与任何领域任何人都有关。. 写作. 写作. 编辑.
E N D
第5章 数字媒体及应用 5.1文本与文本处理 5.2图像与图形 5.3数字声音及应用 5.4 数字视频及应用
5.1 文本与文本处理 5.1.1 字符的编码 5.1.2 文本准备 5.1.4 文本编辑、排版与处理 5.1.3 文本的分类 5.1.5 文本的展现
文字 数值 语言 音乐 图像 ··· 信息的形态有多种 文字处理是计算机应用的基础 • 计算机应用=使用计算机进行信息处理 • 其中,文字信息处理是涉及面最广的一种计算机应用,几乎与任何领域任何人都有关。
写作 写作 编辑 印刷 排版 发行 传统的文字处理过程
(3) 文本处理 文本编辑与排版 (文本处理软件) (文本编辑器) 格式化的电子文本 (文字与图表 的输入) 文本准备 文本存储 与传输 文本展现 电子文本 (2) (文本阅读器) (1) (4) (5) (存档/通信软件) 计算机文字处理过程 • 文字信息在计算机中称为“文本”(text),文本是计算机中最常用的一种数字媒体 • 文本由一系列 “字符”(character)组成,每个字符均使用二进制编码表示 • 文本在计算机中的处理过程是:
字符、字符集及其编码表 • 文字的基本元素是字母和符号,统称为“字符” (character),它包括:字母、数字、标点、符号等 • 字符集:一组特定字符的集合 • 不同的字符集包含的字符数目与内容不同,如: 中文字符集、西文字符集、日文字符集等 • 字符的编码: • 字符集中每个字符的二进位表示,称为该字符的编码或代码(code) • 不同的字符其编码各不相同 • 字符集中所有字符的编码的一览表,称为该字符集的码表
X X X X X X X 0 复习:西文字符的编码——ASCII码 • 西文是表音文字(拼音文字),它由拉丁字母、数字、标点符号以及一些特殊符号所组成 • 美国标准信息交换码(ASCII码): • ASCII字符集包含96个可打印字符和32个控制字符 • 采用7个二进位进行编码 • 计算机中使用1个字节存储1个ASCII 字符 • 存在问题: • 字符集太小(只有128个字符) • 不同国家和地区使用不同的字符集及其编码,互不兼容 • 东亚地区使用的大字符集无法编码
汉字如何编码? • 汉字是记录汉语(国语,华语)的文字,属于表意文字,它用符号直接表达词或词素,有多个国家和地区使用(中、日、韩、新、马······) • 汉字的特点 • 数量大;字形复杂,同音字多,异体字多 • 如何编码? • 确定收入多少字、哪些字? • 在字符集中如何排列? • 使用多少个二进位进行编码?
常用的汉字编码字符集 • 国家标准GB2312-1980 • 汉字扩充规范 GBK • 国家标准GB18030-2005 • 台湾地区的标准汉字字符集CNS 11643 (BIG 5,俗称“大五码”) • 日本工业标准汉字字符集JIS X 0208-90 • 韩国国家标准汉字字符集KSC 5601-87 • UCS/Unicode多文种大字符集
位号 ……………… 1 2 3 94 1 一级汉字 (3755个) 二级汉字 (3008个) (扩充使用) 字母、数字和各种符号 …… …… 9 16 区 号 (按汉语拼音排列) 55 56 (按偏旁部首排列) 87 94 GB2312汉字编码字符集 • 1980年颁布《信息交换用汉字编码字符集·基本集》——GB2312-1980 • GB2312字符集由三个部分构成: 拉丁字母、俄文、日文平假名与片假名、希腊字母、汉语拼音等共682个 共6763个汉字和682个符号,每个汉字和符号都有一个确定位置
X X X X X X X X X X X X X X 1 1 第1字节 第2字节 GB2312汉字的编码 • 每一个GB2312汉字使用16位(2个字节)表示 • 为了与ASCII字符相区别,每个字节的最高位均为“1” • 例如: “南”字的代码是11000100 11001111 (用十六进制表示为C4CF)
X X X X X X X X X X X X X X 1 X 第1字节 第2字节 GBK汉字内码扩充规范 • GB2312的不足: • 汉字字数太少,缺少繁体字,无法满足人名、地名、古籍整理、古典文献研究等应用的需要;与ASCII码不兼容 • GBK汉字内码扩充规范(1995): • 在GB2312基础上,增加了1万多汉字(包括繁体字)和符号 • 共有21003个汉字和883个图形符号,如“計算機”、冃、冄、円、冇等繁体字和生僻字 • 与GB8312保持向下兼容,也使用双字节表示,第1字节最高位必须为“1”:
Unicode:UTF-16双字节可变长编码 Unicode:UTF-8 单字节可变长编码 单字节:ASCII字符 双字节:拉丁、希腊、阿拉伯,··· 三字节:CJK汉字 四字节:其他 双字节: ASCII字符、拉丁、希腊、 阿 拉伯,常用CJK汉字,··· 四字节:非常用CJK汉字 应用:Linux,Web网页,电子邮件 应用:Windows,Mac,Java,··· UCS/Unicode多文种大字符集 • 背景:为了实现全球数以千计的不同语言文字的统一编码 • 方案:ISO将全球所有文字字母和符号集中在一个字符集中进行统一编码(目前共收集了17x216=1,114,112 个) ,称为UCS/Unicode • UCS/Unicode的编码方案: • 先实现部分字符的编码(共107,361个字符) • 尽量与已有编码标准兼容 • 其中包含有中、日、韩统一整理出来的近3万汉字(称CJK汉字) • 允许有若干不同的编码方案, 例如:
GB18030汉字编码标准 • 背景:无论是Unicode的UTF-8还是UTF-16,其CJK汉字字符集虽然覆盖了我国已使用多年的GB2312和GBK标准中的汉字,但它们的编码并不相同 • 为了既能与UCS/Unicode编码标准接轨,又能保护我国已有的大量汉字信息资源,我国在2000年和2005年两次发布GB18030汉字编码国家标准。 • GB18030实质上是UCS/Unicode字符集的另一种编码方案: • 单字节编码(128个)表示ASCII字符 • 双字节编码(23940个)表示汉字,与GBK(以及GB2312)保持向下兼容,GBK不再使用 • 四字节编码(约158万个)用于表示 UCS/Unicode中的其他字符 • GB18030目前已在我国信息处理产品中强制贯彻执行。
编码保持向下兼容 小结:几种汉字编码的对比
字符信息的输入 自动识别输入 人工输入 文字符号输入计算机的方法 键盘输入 (1)数字编码, 如电报码、区位码等, (2)字音编码, 如智能ABC等 (3)字形编码,如五笔字形和表形码等, (4)形音编码 发展趋势:基于统计和学习功能的以词语(短语)或句子作为输入单位的输入方法
字符信息的输入 自动识别输入 人工输入 键盘输入 联机手写输入 文字符号输入计算机的方法 • 优点: • 自然,流畅 • 小型化,适合移动计算 • 不足: • 识别速度和正确性还需提高 • 书写要求还要降低
字符信息的输入 自动识别输入 人工输入 键盘输入 联机手写输入 语音输入 文字符号输入计算机的方法 • 优点: • 自然,方便,适合移动计算 • 不足: • 对说话人、说话方式、说话内容的适应能力要大大增强 • 识别速度和正确性还需大大提高
字符信息的输入 自动识别输入 人工输入 数字文本 文本的映象 (image) 纸介质文本 键盘输入 印刷体识别 联机手写输入 语音输入 扫描仪 OCR 文字符号输入计算机的方法 • 识别率已达到98% • 功能: • 简、繁体字混合识别 • 中文、西文混合识别 • 文字、表格混合识别 • 智能校对功能
字符信息的输入 自动识别输入 人工输入 键盘输入 印刷体识别 手写体识别 联机手写输入 语音输入 文字符号输入计算机的方法 • 技术上非常困难,还无法实用 • 目前准备先突破工整的楷书手写体的识别!
汉字的键盘输入 • 汉字与键盘上的键无法一一对应,因此必须使用几个键来表示一个汉字,这就称为汉字的“键盘输入编码” • 优秀的汉字键盘输入编码应具有的特点: • 易学习、易记忆 • 效率高(平均击键次数较少) • 重码少 • 容量大(可输入的汉字字数多)
复习:使用Word的操作流程 创建新文档或打开老文档 输入中西文字、符号和图表 文稿输入 进行增、删、改操作,保证文本的正确性 编辑 满足清晰、美观、便于使用等要求 排版 文档存盘、打印或发送
文本编辑(text editing) • 目的:确保文本内容正确无误 • 操作:对字、词、句和段落进行添加、删除、修改等操作 • MS Word的功能: • 在文本的任何位置都可以插入新的文字 • 从文本的任何位置都可以删除不需要的文字 • 将一段文字从一处移动到另一处 • 将一段文字从一处复制到另一处 • 在文本中自动查找指定的词语 • 用一个词语自动替换文本中指定的词语
文本排版(格式化) • 目的:使文本清晰、美观、便于阅读 • 操作内容:对文本中的字符、段落乃至整篇文章的格式进行设计和调整,分成3个层次: • 对字符格式进行设置 • 对段落格式进行设置 • 对文档页面进行格式设置
设置字符的格式 • 字号(八号 → 初号,5磅→72磅以上) 1磅相当于1/72英寸 • 字体(宋体、楷体、黑体、仿宋、隶书···) • 字符的修饰 • 字符的形状(字形):正常、加粗、倾斜、加粗倾斜 • 字形的修饰:下划线、着重号、上下标、删除线··· • 字符的颜色 • 字符的宽度 • 字符的间距 • 字符的效果 • 字符的排列方向 Demo1
设置段落的格式 • 什么是段落?用“回车”相互隔开的一组文字 • 段落格式的设置: • 段落的对齐方式(两端对齐、分散对齐、居中对齐、左对齐、右对齐) • 段落的缩进方式(首行缩进、悬挂缩进、左缩进、右缩进) • 段间距和段内行距 • 使用编号和项目符号 • 段落添加边框和底纹 • 首字下沉或悬挂 • 段落与分页的关系 Demo2
悬挂缩进标记 首行缩进标记 右缩进标记 右缩进 左缩进标记 首行缩进 正文区 左边界 左缩进 正文区 右边界 控制段落的缩进 • 段落缩进是指段落中的文本到正文区左、右边界的距离,包括段落左缩进、右缩进和首行缩进。其缩进的距离可由水平标尺上对应的三个缩进标记来指示
设置页面的格式 • 页面格式的设置: • 设置纸张大小和页边距 • 设置每页的行、列数目 • 设置分栏数目与格式 • 设置页码 • 设置页眉和页脚
提高Word操作效率的若干措施 • “所见即所得”(操作效果屏幕立即可见,打印结果与屏幕所见完全相同) • 撤销(undo)和恢复(redo)操作 • 格式刷 • 多种视图(大纲视图与大纲编辑) • 自动更正、自动套用格式、自动编号、自动图文集 ······ • 自动保存功能和自动备份功能 • 样式、模板和向导(wizard)功能 • 宏操作(Macro)
选讲:什么是文本处理? • 使用计算机对文本中的字、词、短语、句子、篇章进行识别、转换、分析、理解、压缩、加密和检索等有关的处理 • 文本处理内容: • 字数统计,词频统计,简/繁体相互转换,汉字/拼音相互转换 • 词语排序,词语错误检测,文句语法检查 • 自动分词,词性标注,词义辨识,大陆/台湾术语转换 • 关键词提取,文摘自动生成,文本分类 • 文本检索(关键词检索、全文检索),文本过滤 • 文语转换(语音合成),文种转换(机器翻译) • 篇章理解,自动问答,自动写作等 • 文本压缩,文本加密,文本著作权保护
例:Word 2003的文本处理功能 • 英文拼写检查和英语同义词检查 • 字数统计 • 自动编写摘要 • 中文简繁体转换和术语转换 • 中英词语翻译 • 语法和格式检查 • 语音识别(口授命令和听写) • 文档保护(防止打开或修改文档)
文本在计算机中的表示 • 本 书 由 南 京 大 学 出 • B1 BE CA E9 D3 C9 C4 CF BE A9 B4 F3 D1 A7 B3 F6 • 版 社 ( P u b l i s h i n g • B0 E6 C9 E7 28 50 75 62 6C 69 73 68 69 6E 67 • H o u s e o f N a n j i n • 20 48 6F 75 73 65 20 6F 66 20 4E 61 6E 6A 69 6E • g U n i v e r s i t y ) 出 版 • 67 20 55 6E 69 76 65 72 73 69 74 79 29 B3 F6 B0 E6 文本的内容 简单文本(纯文本 ) • 没有字体、字号的变化,不能插入图片、表格,也不能建立超链接,其文件后缀名是 .txt • 由一串用于表达正文内容的字符编码所组成,几乎不包含任何其他的格式信息和结构信息 • 举例:
丰富格式文本 本书由南京大学出版社(Publishing House of Nanjing University)出版 • 有字体字号等属性变化、设置了段落和页面排版格式的文本称为“丰富格式文本” • 丰富格式文本中,除了正文内容之外,还使用了许多“标记”来描述字符的属性和格式的设置。 • 举例:下面标题的格式为:中文用黑体,西文用Arial Black体,居中 • 使用HTML语言描述为: <p align="center"><font face="黑体">本书由南京大学出版社</font><font face="Arial Black">(Publishing House of Nanjing University)</font><font face="黑体">出版</font></p> 用一对< >指出的是标记,如<font face=“黑体”> 和 </font>等,用于说明排版的格式和文字属性,它们不属于正文内容 正文内容
A B C D a1 c1 b1 a2 d1 b2 c2 a3 E F G H h1 e1 g1 f1 超文本 • 若干文本或文本中的各个部分可按照其内容的关系互相链接起来,从而形成 “超文本” 文本块可以是一个网页,一个文档,一段文字,也可以是一张图片,甚至一段声音或视频 超链是有向的,起点位置称为链源,它可以是文本块中的一个标题、一句句子、一个关键词、一幅画、一个图标等 “超链”实际上就是一个指针,用于指向其他文本块,也可以指向同一文本块中的其他部分
文本的展现(输出) • 目的:阅读、浏览或打印文本 • 使用的软件:文本阅读器/文本浏览器 • 嵌入在文本编辑(处理)软件中,如微软的Word, • 独立的软件:如Adobe公司的Acrobat Reader,微软公司的IE等 • 文本展现的过程: • 对文本的格式描述进行解释 • 生成文字和图表的映像(bitmap) • 传送到显示器或打印机输出
轮廓点 直线 轮廓描述 点阵描述 二次曲线 附:输出过程中字形的生成 • 过程: • 先根据字符的字体确定相应的字库(font), • 再按照该字符的代码从字库中取出该字符的形状描述信息 • 然后按形状描述信息生成字形,并按照字号大小及有关属性(粗体、斜体、下横线)将字形作必要的变换 • 最后将变换得到的字形放置在页面的指定位置处 • 2种不同的字库:
附:电子书阅读器 • “电子书阅读器” 是一种专门用于阅读各种电子文档(如.txt、 .doc 、 .html、.pdf 等)的专用硬件设备 • 采用电子墨水显示屏,被动发光,耗电极少,持续工作时间很长(1个月以上) • 阅读效果接近纸质图书 • 轻薄,便于携带 • 颇有发展前景