720 likes | 913 Views
第一章 多媒体技术概述. 多媒体技术及应用. 1.1 多媒体技术. 1.2 多媒体计算机系统. 1.3 多媒体网络技术. 1.4 多媒体素材及处理软件. 1.5 多媒体软件开发流程和软件工具. 1.1.1 多媒体技术概要. 1. 媒体.
E N D
第一章 多媒体技术概述 多媒体技术及应用 1.1 多媒体技术 1.2多媒体计算机系统 1.3 多媒体网络技术 1.4 多媒体素材及处理软件 1.5 多媒体软件开发流程和软件工具
1.1.1多媒体技术概要 1. 媒体 媒体是多媒体的核心词,是英文Media(Medium)的译音,意为“介质”、“媒质”、“媒介”或“媒体”,是我们日常生活和工作中经常会用到的词汇,如我们经常把报纸、广播、电视等称为新闻媒介,报纸通过文字、广播通过声音、电视通过图像和声音来传送信息。信息需要借助于媒体来传播,所以说媒体就是信息的载体,是人们为表达思想或感情所使用的手段、方式或工具。 2. CCITT对媒体的分类 根据国际电报电话咨询委员会(CCITT—— Consultative Committee International Telegraph and Telephone)的定义,目前媒体可分为五大类。
⑴感觉媒体(Perception Medium):是指能直接作用于人们的感觉器官,使人能直接产生感觉的一类媒体。 ⑵表示媒体(Representation Medium):是为了加工、处理和传输感觉媒体而人为构造出来的一种中介媒体,即用于数据交换的编码。 ⑶表现媒体(Presentation Medium):是指进行信息输入和输出的媒体,即把感觉媒体进行输入和输出的设备。 ⑷存储媒体(Storage Medium):又称存储介质,指的是用于存储表示媒体(也就是把感觉媒体数字化以后的代码进行存入),以便计算机随时加工处理和调用的物理实体。 ⑸传输媒体(Transmission Medium):用于传输表示媒体的物理介质,是传输信息的载体。
1.1.2 多媒体信息类型 ①文本:是以文字和各种专用符号表达的信息形式,包括西文字符、中文字符和专用特殊字符,是现实生活中使用得最多的一种信息表示形式。 ②图形:通常由点、线、面、体等几何元素和灰度、色彩、线型、线宽等非几何属性组成。从处理技术上来看,图形是由线条组成,如工程图、等高线地图、曲面的线框图等。 ③图像:是多媒体术中最重要的信息表现形式之一,它是决定一个多媒体软件视觉效果的关键因素,主要指静止的图像。 ④动画:是利用人的视觉暂留特性,快速播放一系列连续运动变化的图形图像,也包括画面的缩放、旋转、变换、淡入淡出等特殊效果。 ⑤声音:是人们用来传递信息、交流感情最方便、最熟悉的一种方式之一。在多媒体软件中,按其表达形式,可将声音分为讲解、音乐、效果三类。 ⑥视频:具有时序性与丰富的信息内涵,常用于交待事物的发展过程。视频非常类似于我们熟知的电影和电视,有声有色,在多媒体中充当起重要的角色。
1.超文本 1.1.3 多媒体技术相关的概念 文本通常以字符、字、句、段、节、章作为文本内容的逻辑组织单位,无论是普通书籍还是计算机的文本文件,都是用线性方式加以组织的。读者在阅读时,通常以字、行、页顺序地往下阅读。 超文本是一种电子文档,一个非线性的网状结构,其中的文字包含有可以链接到其他字段或者文档的超文本链接,允许从当前阅读位置直接切换到超文本链接所指向的文字。读者在阅读时不必顺序阅读,可以根据实际需要,利用超文本机制提供的联想式查询能力,迅速找到自己感兴趣的内容和有关信息。
2.超媒体 超媒体在本质上和超文本是没有多大差别,只不过超文本技术管理的对象是纯文本,而超媒体技术的管理对象为多媒体,在很多书中如果不特别强调管理对象,一般认为超文本和超媒体这两个词是等价的,可以混用。尽管超文本发展到超媒体本质上没有太大的变化,但是它无论在技术方面,还是在应用方面都跨了一大步。 超文本、超媒体和多媒体三者已很难区分。从目前情况来看,超文本系统已很少见,而多媒体信息使用非常普及,对于超媒体则更强调的是对多种媒体信息的组织、管理,面向对这些信息的检索和浏览。可以说,超媒体技术是超文本技术和多媒体技术综合的产物。目前超媒体技术广泛应用于与各种信息查询有关的方面,如教学、信息检索、字典和参考资料、商品介绍展示、旅游和购物指南、交互式娱乐等。
3.超链接 超链接(hyper link)是指文件中的词、短语、符号、图像、声音剪辑或视频剪辑之间的链接,或者与其他的文件、超文本文件之间的链接。词、短语、符号、图像、声音剪辑、视频剪辑和其他文件通常被称为对象或者称为文档元素(element),因此超链接是对象之间或者文档元素之间的链接。建立互相链接的这些对象不受空间位置的限制,它们可以在同一个文件内也可以在不同的文件之间,也可以通过网络与世界上的任何一台联网计算机上的文件建立链接关系。
4.多媒体与多媒体技术 多媒体(Multimedia),其含义就是“多种媒体”。多媒体这一概念常用来兼指多媒体信息和多媒体技术。 多媒体信息:是指集文本、图形、图像、动画、音频、视频为一体的综合媒体信息,也就是“多媒体”一词的字面含义,是指文本、图形、图像、音频、视频、动画等信息载体中的两种或多种媒体的组合。而要将这两种或多种媒体进行组合,往往需要利用计算机系统来实现,这是由于计算机系统具有很强的数字化及交互处理能力。从这个意义上来说,多媒体更多的含义是指一种将多种媒体综合起来处理的技术。 多媒体技术:不是各种信息媒体的简单复合,它是一种把文本、图形、图像、动画、音频、视频等形式的信息结合在一起,并通过计算机技术与通信技术,综合处理、传送和贮存的数字技术。
2.控制性 1.1.4多媒体技术的特点 多媒体技术是融合两种以上媒体的人-机交互技术,它主要包含两层意思:一是综合性,二是交互性。多媒体技术有以下几个主要特点: 1.集成性 3.交互性 4.非线性 5.实时性 6.信息使用的方便性 7.信息结构的动态性
1.2.1 多媒体计算机系统的组成 在多媒体计算机之前,传统的个人计算机处理的信息往往仅限于文字和数字,人机之间的交互只能通过键盘和显示器,交流信息缺乏多样性。为了改变人机交互的接口,使计算机能够集声、文、图、像处理于一体,诞生了有多媒体处理能力的计算机。所谓多媒体计算机是指具有多媒体处理功能的个人计算机,简称为MPC(Multimedia Personal Computer)。事实上,多媒体计算机是在原有的PC机上增加多媒体套件而构成,即在原有的PC机上增加多媒体硬件和多媒体软件。其中,Modem、网卡和网络通信软件已成为多媒体计算机不可缺少的基本配置
1.2.2 多媒体计算机规范和技术标准 1. 硬件系统基本组成 (1)主机 (2)多媒体接口卡 (3)多媒体外部设备 (4)视频、音频接入设备
MPC2.0 MPC3.0 MPC4.0 CPU 80486 Pentium 75 Pentium133 内存容量 4MB 8MB 16MB 硬盘容量 160MB 850MB 1.6GB CD--ROM 2x 4x 10x 声卡 16位 16位 16位 图像 16位彩色 24位彩色 32位真彩色 分辨率 640×480 800×600 1280×1024 软驱 1.44MB 1.44MB 1.44MB 操作系统 Windows 3.x Windows 95 Windows 95 2. 规范和技术标准
1.2.3多媒体计算机软件系统 将多媒体硬件有机地组织到一起,使用户能够方便使用多媒体数据,是多媒体软件的主要任务。除了常见软件的一般特点外,多媒体软件常常要反映多媒体技术特有的内容,如数据压缩、各类多媒体硬件接口的驱动和集成、新型的交互方式等。 多媒体软件可划分成不同的层次或类别,这种划分是在发展过程中形成的,并没有绝对标准。如果按其功能划分可为五类三个层次:多媒体硬件驱动程序、多媒体操作系统和多媒体应用软件(多媒体数据准备软件、多媒体素材制作软件和多媒体播放软件)
用户 多媒体软件平台 多媒体应用软件 多媒体数据准备软件 多媒体素材制作软件 多媒体播放软件 多媒体操作系统 多媒体硬件驱动程序 多媒体硬件平台 多媒体软件系统分层示意图
1. 多媒体硬件驱动程序 多媒体软件中直接和多媒体硬件打交道的软件称为驱动程序,它是硬件与操作系统的接口,完成设备的初始化、各种设备的打开和关闭、基于硬件的压缩/解压、图像快速交换等基本功能,此软件一般随硬件提供。 2. 多媒体的操作系统 多媒体操作系统又称多媒体核心系统(Multimedia Kernel System)。它具有实时任务调度、多媒体数据转换和同步控制机制,对多媒体设备的驱动和控制,以及图形用户界面管理等。一般是在原有的操作系统基础上扩充和改造,或重新设计。
3. 多媒体数据准备软件 多媒体数据准备软件是用于采集多种媒体数据的软件,如声音录制、图像扫描、全动态视频采集、动画生成等软件。从层次角度来看,多媒体数据准备软件不能单独作为一个模块,它往往是多媒体素材制作软件的一部分。 4. 多媒体素材制作软件 多媒体素材制作软件又称多媒体创作工具,是多媒体专业人员在多媒体操作系统之上开发的供特定应用领域的专业人员组织编排多媒体数据,并把它们连接成完整的多媒体应用的系统工具。
5. 多媒体播放软件 多媒体软件制作完成以后需要在计算机上播放,以便用户学习或欣赏。由于有多种多媒体制作软件,它们制作完成的软件存放的格式各不相同,为了能播放这些不同格式的文件,常需要不同的播放软件,最初的多媒体播放软件,通常是与多媒体文件格式一一对应的,因此,为了能够播放多种格式的多媒体文件,用户必须安装不同的播放软件。此后,随着多媒体应用的不断发展,出现了集成式多媒体播放器软件,在支持多种格式多媒体文件的同时,保持统一的用户操作界面,Windows系统中的媒体播放器和Jet Audio播放软件是其典型代表。
多媒体网络的一种含义就是互联网。此外,也有人将多媒体网络定义为一个端到端的、能够提供多性能服务的网络。它是由多媒体终端、多媒体接入网络、多媒体传输骨干网络以及能够满足多媒体网络化应用的网络软件等4个部分组成的。多媒体网络的一种含义就是互联网。此外,也有人将多媒体网络定义为一个端到端的、能够提供多性能服务的网络。它是由多媒体终端、多媒体接入网络、多媒体传输骨干网络以及能够满足多媒体网络化应用的网络软件等4个部分组成的。 多媒体网络技术是多媒体技术与网络技术有机结合的产物。它集多种媒体功能和网络功能于一体,将文字、数据、图形、图像、声音、动画等信息有机地组合、交互地传递,多媒体技术主要指多媒体计算机技术,是指用计算机综合处理和控制文字、图像、动画和活动影响等多媒体信息,使多种信息建立起逻辑链接,集成为一个系统并具有交互作用,它与传统的多种媒体的简单组合不同。
1.要有足够的带宽2.要有足够小的延时3.要有同步的控制机制4.要有较高的可靠性1.要有足够的带宽2.要有足够小的延时3.要有同步的控制机制4.要有较高的可靠性 1.3.1多媒体信息传输对网络技术的要求
1. 基本概念 1.3.2 多媒体数据压缩技术 光纤通信技术的迅猛发展为多媒体通信奠定了基础,速率可从155Mbps达到几个Gbps,速率和带宽将不再成为最主要的障碍。随着多媒体网络技术的发展,由其是宽带多媒体网络的发展,其他制约多媒体传输的问题也将会得到解决。 数据压缩:是通过数学运算将原来较大的文件变为较小文件的数字处理技术,数据解压缩是把压缩数据还原成原始数据或与原始数据相近的数据的技术。数据压缩通常可分为无损压缩和有损压缩两类。
无损压缩:利用数据的统计冗余进行压缩,可完全恢复原始数据而不引入任何失真,但压缩率受到数据统计冗余度的理论限制,一般为2:1到5:1。这类方法广泛用于文本数据、程序和特殊应用场合的图像数据(如指纹图像、医学图像等)的压缩。由于压缩比的限制,仅使用无损压缩方法不可能解决图像和数字视频的存储和传输问题。无损压缩:利用数据的统计冗余进行压缩,可完全恢复原始数据而不引入任何失真,但压缩率受到数据统计冗余度的理论限制,一般为2:1到5:1。这类方法广泛用于文本数据、程序和特殊应用场合的图像数据(如指纹图像、医学图像等)的压缩。由于压缩比的限制,仅使用无损压缩方法不可能解决图像和数字视频的存储和传输问题。 有损压缩:利用人类视觉对图像中的某些频率成分不敏感的特性,允许压缩过程中损失一定的信息;虽然不能完全恢复原始数据,但是所损失的部分对理解原始图像的影响较小,却换来了更大的压缩比。有损压缩广泛应用于语音、图像和视频数据的压缩。
2. 常见压缩标准 ⑴ JPEG 静止图像压缩编码 国际标准化组织(ID)和国际电报电话咨询委员会(CCITT)联合成立的专家组JPEG(Joint Photographic Experts Group)于1991年3月提出了ISO CDIO918号建议草案:多灰度静止图像的数字压缩编码(通常简称为JPEG标准)。这是一个适用于彩色和单色多灰度或连续色调静止数字图像的压缩标准,由于综合采用多种压缩编码技术,因此经其处理的图像质量高、压缩比大,包括无损(压缩比2:1)与各种类型的有损模式(压缩比可达30:1且没有明显的品质退化)。
⑵ MPEG (Moving Pictures Experts Group)运动图像压缩编码 ISO/IEC/JTC/SC2/WG11的一个小组,于1992年制定了运动图像数据压缩编码的标准ISO CD11172,简称MPEG(Motion Picture Expert Group)标准。它旨在解决视频图像压缩、音频压缩及多种压缩数据流的复合与同步,它很好地解决了计算机系统对庞大的音像数据的吞吐、传输和存贮问题,该编码技术的发展十分迅速,从MPEG-1、MPEG-2到MPEG-4,不仅图像质量得到了很大的提高,而且在编码的可伸缩性方面,也有了很大的灵活性。 MPEG-1 是针对传输速率为lMb/s到l.5Mb/s的普通电视质量的视频信号的压缩; MPEG-2 是针对每秒30帧的720x572分辨率的视频信号的压缩,在扩展模式下,MPEG-2可以对分辨率达1440Xl152高清晰度电视(HDTV)的信号进行压缩。
⑶ JBIG (Joint Bi-level Image Group)标准 是一种无损的二值图像压缩标准。JBIG可以支持很高的图像分辨率,常用的文件格式为1728×2376或2304×2896,压缩比可达10:1。虽然JBIG是二值图像的编码标准,但是它也可以对含灰度值的图像或彩色图像进行无失真压缩,在这种情况下,JBIG是对图像的每个比特面作压缩变换。
1. 流媒体含义 1.3.3 流媒体技术 流媒体(Streaming Media)是一种可以让音频、视频及其它多媒体信息在网络上以实时的、无需下载等待的方式进行播放的技术。 流媒体也就是多媒体流,是指多媒体数据在网络上传输时的数据流,它不同于一般文件数据的传输和下载。一般来说,流包含两种含义,广义上的流是使音频和视频形成稳定和连续的传输流和回放流的一种技术、方法和协议的总称,习惯上称之为流媒体系统;而狭义上的流是相对于传统的下载---回放(Download-Playback)方式而言的一种媒体格式,能从Internet上获取音频和视频等连续的多媒体流,客户可以边接收边播放,使播放时延大大减少。
2. 流媒体传输的特点 ⑴ 观看启动速度快 ⑵ 能充分利用网络带宽 ⑶ 无需占用硬盘空间 ⑷ 缓存容量需求降低 ⑸ 需有特定传输协议支持
3. 流媒体系统的组成 实现流媒体处理的所有硬件和软件总和称为流媒体系统,它主要由五个部分组成。 ⑴ 创作工具:用于创建、捕捉和编辑多媒体数据软件,使得多媒体数据形成流媒体格式文件; ⑵ 流媒体数据:即以流媒体格式存放的多媒体数据文件; ⑶ 服务器:用于存放和控制流媒体数据的计算机; ⑷ 网络:适合多媒体传输协议,甚至是实时传输协议的计算机网络; ⑸ 播放器:供客户端播放流媒体文件的播放软件; 这5个部分有些是服务器端需要的,有些是客户端需要的,而且不同的流媒体标准和不同公司的解决方案会在某些方面有所不同。
4. 流媒体主流产品 ⑴ Real system:由媒体内容制作工具Real Producer、服务器端RealServer、客户端软件ClientSoftware三部分组成。其流媒体文件包括RealAudio、RealVideo、Real Presentation和RealFlash四类文件,分别用于传送不同媒体信息的文件。Real流式文件采用Real Producer软件进行制作,首先把源文件或实时输入变为流式文件,再把流式文件传输到服务器上供用户点播。 由于其成熟稳定的技术性能,美国在线(AOL)、ABC、AT&T、Sony和Time Life等公司都使用Real System向世界各地传送实时影音媒体信息以及实时的音乐广播。在我国,大量的影视、音乐也都采用了RealSystem系统。
RealAudio RealVideo 编码 服务器 Internet Real 服务器 Real流式文件实现流程
⑵ Windows Media Technology:是Microsoft提出的实现信息流式播放方案,其主要目的是在Internet和Intranet上实现包括音频、视频信息在内的多媒体流信息的传输。其核心是ASF(Advanced Stream Format)文件,它是一种包含音频、视频、图像以及控制命令、脚本等多媒体信息在内数据格式文件,以数据包的形式在Internet上传输,实现流式多媒体内容发布。ASF支持任意的压缩/解压缩编码方式,并可以使用任何一种底层网络传输协议,具有很大的灵活性。Microsoft已将Windows Media技术捆绑在Windows操作系统中,并计划将ASF作为将来Windows操作系统的多媒体信息流的标准文件格式。 Windows Media Technology由Media Tools、Media Server和Media Player工具构成。
⑶ QuickTime:Apple公司于1991年开始发布QuickTime,它几乎支持所有主流的个人计算平台和各种格式的静态图像、视频和动画,具有内置Web浏览器插件(Plug-in)技术,支持IETF(Internet Engineering Task Force)流标准以及RTP、RTSP、SDP、FTP和HTTP等网络协议。 QuickTime包括服务器QuickTime Streaming Server、带编辑功能的播放器QuickTime Player、制作工具QuickTime 4 Pro、图像浏览器PictureViewer以及使Internet浏览器能够播放QuickTime影片的QuickTime 插件。
除了上述的流媒体技术的三种主要格式外,在多媒体课件和动画方面的流媒体技术还有Macromedia的Shockwave技术和MeataCreation公司的Meta Stream技术。 通过Shockwave技术可以方便地在Web页面中加入图像、动画以及交互式界面等操作。 MetaStream 3D的图形设计软件是Ray Dream Studio 5 以及Ray Dream 3D,可以方便地在网上创建、发布及浏览被缩放的3D图形,它具有小文件量及流传输的特点,比其它任何一种已存在的Internet 3D技术压缩率都高。
5. 常用流媒体文件格式 ⑴ RM文件格式和RA文件格式:是RealNetworks公司开发的一种新型流式视频Real Vedio和音频Real Audio文件格式。主要用在低速率的网络上实现实时传输活动视频影像,同时可以根据网络数据传输速率的不同而采用不同的压缩比率。在客户端可通过Real Player播放器进行播放。 ⑵ ASF文件格式:Microsoft Media technology的ASF也是比较流行的一种流媒体格式。它的使用与windows操作系统普及有关,因其播放器Microsoft Media Player已经与windows捆绑在一起,因此该文件格式得到广泛使用。 ⑶ QT文件格式:QuickTime Movie 的QT文件格式是Apple 公司开发的一种音频、视频文件格式,用于保存音频和视频信息,具有先进的音频和视频功能。该文件格式支持25位彩色,支持RLC、JPEG等领先的集成压缩技术,提供150多种视频效果。
⑷ SWF文件格式:是基于Macromedia公司Shockwave技术的流式动画格式,是用Flash软件制作的其中一种格式,由于其体积小、功能强、交互能力好、支持多个层和时间线程等特点,故越来越多地应用到网络动画中。客户端安装Shockwave插件即可播放。 ⑸ MTS文件格式:MetaCreations公司开发,用于实现网上流式三维网页的浏览,它是一种新兴的网上3D开放文件标准(基于Intel构架),主要用于创建、发布及浏览可缩放的3D图形和电脑游戏。 ⑹ AAM文件格式:用Authorware制作的多媒体软件,可以利用Shockwave技术和Web Package软件把Authorware生成的文件压缩为AAM和AAS流式文件格式;也可以利用Director生成后,再利用Shockwave技术改造为网上传输的流式文件格式。
1.4.1 文本及文本处理软件 1. 文本的类型 数字文本指计算机屏幕上呈现的各种文字或符号。数字文本的呈现形式有两种:一种是扫描文本,它是纸介质文本经过扫描输入后得到的,实质上是一种特殊的位图图像;一种是合成文本,也称做编码文本,它是基于特定字符集的、具有上下文相关性的一个字符流,每个字符均使用编码表示,这是计算机中常用的文本形式。 数字文本的分类方法很多,按是否格式化来分,可分为简单文本(plain text)和丰富格式文本(rich text);按结构来分可分为线性文本(linetext)和超文本(hypertext);按是否可执行来分,可分为静态文本和动态文本等等。
2. 常见的文本格式 TXT格式:这是最通用、也是最早的一种纯文本格式。文件体积小,阅读不受限制,几乎所有的文字处理软件都能识别,但是不能插入图片,不能做超链接。 HTML格式:是纯文本格式中的一种,可以使用任何文本编辑软件建立一个HTML文件,完成编辑之后,将输出设为纯文本格式,文件的后缀名“.html”或“.htm”。主要是通过各种标记(Tag)来表示和排列各种对象的,通常标记由符号“<”、“>”以及其中所包含的标记元素组成。 RT格式:RealText文件是流式文本文件,属于纯文本文件。在完成文件编辑后,将其保存为纯文本格式,文件的后缀名为.rt。RealText文件为标记性语言,通过各种标记的排列和对各个标记属性的设置,来定义各类媒体文件的播放效果。 RTF格式:是一种特殊的文本格式,支持脚注和一些特殊格式的字符如下划线、双下划线和隐藏正文。有很多编辑软件支持RTF格式,比如微软的Word。
输入文本 识别文本 所需格式文本 可编辑文本 转换文本 3. 文本的处理方法 编辑输入:键盘输入,OCR识别、手写识别、语音识别 编辑排版:记事本,WPS、无锡永中、MS Office等, 在功能上,向着能处理多媒体信息、体现民族文化特色、融入更多的嵌入式技术和编程技术、智能化处理和实时信息传输、兼容更多的文件格式和具有更多的输出方式等方向发展。 文本处理的一般流程
1. 声音的基本概念 1.4.2 声音及声音处理软件 在外力的作用下,引起空气中的分子振动,人耳对这种振动的感觉就是声音。声音可以用声波来表示,它是一条随时间变化的连续曲线。 声波有两个基本属性:频率和振幅。频率(f)是指声波波形在单位时间内变化的次数,以赫兹(Hz)为单位。 频率低于20Hz的声音叫做次声,频率在20~20000Hz的声音叫做可听声,又称音频,频率在20000Hz以上的称为超声。平时人们说话的声音频率范围在300Hz~3000Hz之间。 振幅是指声波波形的最高(低)点与时间轴之间的距离。它反映了声音信号的强弱程度。一般用分贝(dB)来表示声波的振幅。
声音一般由多种振动频率的声波组成。只含一种频率的声音叫做纯音;由多种纯音组成的声音叫做复音。在复音中具有最低频率的声音叫做基音;基音以外的纯音叫做泛音。 音调、音强、音色是声音的三要素。音调与频率有关;音强与振幅有关;音色与混入基音的泛音有关。 计算机中的音频信号主要有三种,即语音、音乐和效果声。
2.音频的数字化 信息论的奠基者香农(Shannon)在20世纪40年代证明了采样定理,其基本内容是在一定条件下,用离散的序列可以完全代表一个连续函数。采样定理为信息的数字化奠定了一个基础。 我们把音频的模拟信号变为数字信号的过程叫做音频的数字化,它是通过对音频信号进行采样、量化和编码来实现的。音频数字化的过程是:选择采样频率进行采样;选择分辨率进行量化;形成音频文件。
把模拟音频信号转成数字音频信号的过程称为采样(Sampling),所用到的主要设备便是模拟/数字转换器(Analog to Digital Converter,A/D),它以每秒上万次的速率对声波进行采样,每一次采样都记录下了原始模拟声波在某一时刻的状态,称之为样本,将一系列的样本连接起来,就可以描述一段声波了。 (1)采样 采样的过程实际上是将通常的模拟音频信号的电信号转换成二进制码0和1,这些0和1便构成了数字音频文件。 采样频率是指每秒钟的音频采样次数,单位是Hz(赫兹)。采样频率越高,数字化后的音频越接近原始声,但需要的存储空间也就越大。
根据奈魁斯特(Nyquist)采样定理,用两倍于一个正弦波的频率进行采样就能完全真实地还原该波形,也就是说采样频率一定要高于录制的最高频率的两倍才不会产生失真,而人的听力范围是20Hz-20kHz,所以采样频率至少得是20k×2=40kHz,以保证不产生低频失真,这也是CD音质采用44.1kHz(稍高于40kHz是为了留有余地)的原因。 一个数码录音波的采样频率直接关系到它的最高还原频率指标。常见的采样频率有:11.025kHz,适用于语音信号;22.05kHz,适用于要求不太严格的背景音乐;44.1kHz,适用于高保真音乐。
(2)量化 把模拟音频信号的采样样本的数字化表示称为量化。对于每个采样,系统均会分配一定的存储位(bit数)来表达声波的声波振幅状态,通常把采样数值所使用的二进制位数称为采样分辨率或采样精度,也叫做量化位数。量化位数越多,表示的数值范围越大,数字化后波形振幅的精度越高,音频的效果也越好。 每增加一个bit数,表达声波振幅的状态数就翻一番,并且增加6db的动态范围(即音频从最弱到最强的变化范围),一个2bit的数码音频系统能表达千种状态,即12db的动态范围。以此类推,如果继续增加bit数则采样精度就将以非常快的速度提高,如24bit可以表达多达16777216种状态,对应144db的动态范围。采样精度越高,声波的还原就越细腻。
对于未压缩的单声道音频文件,文件数据量的计算公式为:对于未压缩的单声道音频文件,文件数据量的计算公式为: 数字化音频还有一个技术指标是声道数,即采样时同时生成的波形个数。如果一次生成一个声波数据,则称为单声道;一次生成两个声波数据,则称为双声道或立体声。立体声数字化后的数据量是单声道数据量的两倍。 其中: S为音频文件数据量(字节); f为采样频率,单位为Hz; D为录音时间,单位为秒; r为量化位数;C为声道数。
MIDI文件:Musical Instrument Digital Interface(乐器数字化接口的缩写)是由世界上主要电子乐器制造厂商建立起来的一个通信标准,以规定计算机音乐程序电子合成器和其它电子设备之间交换信息与控制信号的方法。对同一段音频的记录,MIDI文件要比WAVE文件小很多,如1分钟的立体声音乐,其MIDI文件的长度仅7kB左右。MIDI文件的扩展名是MID。 3.音频文件的存储格式 WAVE波形文件:Windows使用的标准数字音频文件,来源于对音频模拟波形的采样。用不同的采样频率对音频的模拟波形进行采样可以得到一系列离散的采样点,以不同的量化位数(8位或16位)把这些采样点的值转换成二进制数,然后存入磁盘。波形文件的扩展名是WAV。
VOC文件:Creative公司波形音频文件格式,也是声霸卡(sound blaster)使用的音频文件格式。常用于游戏软件中,需要用专门的播放软件播放或转换成WAV格式后再使用。 MPEG Layer 3文件:现在最流行的音频文件格式,它是经过压缩的音频文件,既可以是离散文件,也可以是流式文件。MP3格式压缩音乐的典型比例有10:1、17:1,甚至70:1。文件的扩展名为MP3。 CD Audio文件:唱片采用的格式,又叫“红皮书”格式,是以16位数字化、44.1kHz采样频率、立体声存储的音频文件,可完全再现原始声音。一般地,每张CD唱片保存歌曲14首左右,可播放70分钟左右。缺点是无法编辑,文件长度太大。文件的扩展名为CDA 。
4.声音处理软件 ⑴ 声音数字化转换软件 这类软件为了使计算机能够处理声音,首先通过此类软件把声音转换成数字化音频文件。代表软件有:Easy CD-DA Extractor、Exact Audio Copy、RealNJukebox等。 ⑵ 声音编辑处理软件 此类软件可对数字化声音进行剪辑、编辑、合成和处理,还可对声音进行声道模式变换、频率范围调整、生成各种特殊效果、采样频率变换、文件格式转换等。代表软件有:Coldwave、Cool Edit Pro、Acid WAV等。 ⑶ 声音压缩软件 此类软件通过某种压缩算法,把普通的数字化声音进行压缩,在音质变化不大的情况下,大幅减少数据量,以利于网络传输和保存。代表软件有:L3Enc、Xingmp#Encoder、WinDAC32等。
1.数字图像的分类 1.4.3 图形/图像及其处理软件 数字图像分为两类: 位图(Bitmap)和矢量图(Vector Graphics) 位图也称为栅格图像。位图图像是用物理方法,将“像素”按点阵的方式排列而成的图像; 矢量图像是用数学方法,将点、线、多边形等“图元”组合而成的图像。 通常把位图称为图像(Images Graphics),把矢量图称为图形(Graphics)。
位图的颜色取决于每个像素所具有的颜色;位图的分辨率取决于图像所含像素的多少,放大或缩小图像的尺寸都可能使原图发生变形。位图可以从传统的相片、幻灯片上制作出来或使用数字相机得到,也可以利用Windows的画笔(Painbrush)用颜色点填充网格单元来创建位图。位图的颜色取决于每个像素所具有的颜色;位图的分辨率取决于图像所含像素的多少,放大或缩小图像的尺寸都可能使原图发生变形。位图可以从传统的相片、幻灯片上制作出来或使用数字相机得到,也可以利用Windows的画笔(Painbrush)用颜色点填充网格单元来创建位图。 矢量图的颜色单独保存在每一个矢量对象之中,可以单独着色;矢量图与系统的分辨率无关,因此放大或缩小图像的尺寸不会使原图变形。但是,矢量图有一个明显的缺点,就是不易制作色调丰富或色彩变化太多的图像,而且绘出来的图像不是很逼真,同时也不易在不同的软件间交换文件。
(1)黑白模式:图像只包含黑白两种颜色信息,一个像素只需用一个二进制位来记录,所以占用存储空间较少。(1)黑白模式:图像只包含黑白两种颜色信息,一个像素只需用一个二进制位来记录,所以占用存储空间较少。 2.常见颜色模式 (2)灰度模式:图像除包含黑白两种颜色外,还包含黑与白之间不同深度的灰色,这样一个像素就要用多个二进制位来记录,如用8个二进制位记录一个像素的颜色信息,则可产生256种不同的灰度。 (3)RGB模式:图像每一个像素的颜色是由计算机三基色红(R)、绿(G)、蓝(B)混合调制出来的,在此模式下,每一基色(通道)采用8个二进制位编码存储,取值范围为0到255。