数字图象处理 ( Digital Image Processing)

数字图象处理 (Digital Image Processing) 教师：任明武单位：南京理工大学计算机系模式识别与智能控制教研室电话：025-4315751-816 013952033136 Email：renmingwu@sina.com ren_ming_wu@hotmail.com 任明武，南京理工大学计算机系

参考书籍： • 《图象工程》上下册，章毓晋，清华大学出版社。 • 《图象分割》，章毓晋，清华大学出版社。 • 《计算机视觉》，吴立德，复旦大学出版社。 • 《图象处理与分析》，徐建华，科学出版社。 • 《计算机视觉与模式识别》郑南宁，国防工业出版社。 • 基本参考刊物 • 《计算机研究与发展》 • 《中国图像图形学报〉 • 《计算机工程》 • 《模式识别与人工智能》 • 《电子学报》任明武，南京理工大学计算机系

国外刊物(学校或603教研室存) 《IEEE Transactions on Pattern Analysis and Machine Intelligence》, T-PAMI 《IEEE Transactions on Image Processing 》,T-IP 《Pattern Recognition》,PR 《Artificial Intelligence》,AI 《Computer Vision and Image Understanding》,CVIU 《Graphical Models and Image Processing》,GMIP 《Machine Vision and Applications》,MVA 《Pattern Recognition Letters》,PRL 《Image and Vision Computing》,IVC 任明武，南京理工大学计算机系

第一章绪论 1.1 概述 1.1.1 图像(Image) 图像就是用各种观测系统以不同的形式和手段观测世界而获得的，可以直接或间接作用于人眼而产生视觉的实体。科学研究和统计表明，人类从外界获得的信息约有75%来自视觉系统。 1.1.2 数字图像与模拟图像(Analog Image, Digital Image) 图像能够以各种各样的形式出现。例如，可视的和不可视的，抽象的和实际的，适于计算机处理的和不适于计算机处理的。就其本质来说，可以将图像分为两大类：数字图像与模拟图像。模拟图像是以时间连续和幅度连续的模拟信号，或时间连续和幅度可连续可不连续的连续时间信号，以及时间离散的连续时间信号形式表示的图像。包括光学、电视图像、照片等。例如，在监控领域，视频信号(Video) 最常用的标准有Pal(常称作P制)和NTSC (常称作N制)，它们都是模拟信号，分别规定了不同的帧频和场频、水平线数以及行、场同步信号等。任明武，南京理工大学计算机系

A/D 模拟信号采样保持量化数字图像是以时间离散和幅度离散的数字信号形式表示的图像。严格的数字图像是一个经过等距离(矩形或六边形等)网格采样，对信号的幅度进行量化的二维函数。其过程如下：对二维图像进行等间隔取样和量化(量化器不一定必须是均匀量化)，就可以得到一幅有m ×n 个样本的数字图像，该数字图像是一个整数阵列，因而描述该数字图像最直观和最简便的形式就是矩阵，图像F可以表示为：任明武，南京理工大学计算机系

其中，f(i,j)表示位置(i,j)处的亮度值。 数字图像F也可用向量表示为：矩阵中的每个元素对应着图象的一个点或区域，称为象素（pixel）数字图像具有适合计算机处理和长期存储的特点。 1.1.3 数字图像的存储和习惯说法按图像显时的颜色可分为彩色图像，灰度图像和黑白图像。它们所表述的信息量逐渐减小。我们习惯上说的黑白电视或黑白照片，实质上是灰度图像。从彩色图像转化为灰度图像的过程称为灰度化，从灰度图像转化为黑白图像的过程称为二值化，从灰度图像转化为彩色图像的过程称为伪彩化。按图像中每个象素存储时所用的比特数可称为 x比特图像。比如习惯上称的真彩色图像的每个象素包含(red,green,blue)3个分量，每个分量均用8个比特，因此又可称作24比特图像。二值图像常称作1比特图像。(这是跟存储相关的，比如压缩，1bpp，24bpp等) 任明武，南京理工大学计算机系

按图像在计算机中的存储格式(文件格式)又称作BMP、GIF、TGA、 PCX、 JPG、TIFF等图象。它们都是图像文件在计算机中存储时的常用文件格式。具体内容可参看《图像格式大全》等相关书籍。现有的通用图像处理软件(如PhotoShop和AcdSee)都可以处理多种格式，和实现格式之间的转换。注1： ※ BMP(Bitmap) 是Microsoft Windows所定义的图像文件格式，一个文件存放一幅图像。只能存储单色、16色、256色和真彩色4种格式的数据。只有真彩色图像没有调色板。有RLE4和RLE8两种简单的无失真压缩方法(RLE- Run Length Encode，即游程长度编码)，分别仅用于16色图像和256色图像的压缩。必须注意BMP文件的图像宽度必须是4的倍数。在读取BMP文件时，常用如下C语言语句得到真正的宽度： width=(BmpHeader.biWidth+3)/4*4; ※ GIF(Graphics Interchange Format) 是由CompuServe公司为了方便网络用户传送图像所定义的。图像最多只能存储256色图像。一个文件存放多幅图像。调色板数据有通用调色板和局部调色板之分。图像数据采用LZW(一种基于字典的编码，性能比RLE好)压缩方法。因此，它经常用于网页的动画、透明等特技制作。任明武，南京理工大学计算机系

※ TIFF(Tag Image File Format)：即TIF，是由Aldus公司与微软公司共同发设计的，可以存储多幅图像和多个调色板，可存储个人标示信息，能提供多种不同的压缩数据方法，图像可以分割成几个部分分别存档。其主要特点是：善于应用指针的功能。 ※ PCX：是由Zsoft公司在20世纪80年代初期设计的，专用于存储该公司开发的PC Paintbrush绘图软件所生成的图像数据，目前已成为PC上较为流行的图像文件。一个文件存放一幅图像；使用RLE进行数据压缩。 ※ JPEG：即JPG，是由1986年国际电报电话咨询委员会(CCITT)和国际标准化协会(ISO)联合组成的图像专家小组(Joint Photographic Experts Group)，在1991年3月联合制定的“连续色调静态图像的数字压缩和编码”标准。它以信息损失为前提，是一种有损压缩，经典压缩比在10到35之间。 ※ PSD：是Adobe公司开发的图像处理软件Photoshop中自建的图像文件格式。注2：目前市面上有大量的都号称是图像处理的书籍，必须明白它们并非是我们要学的图像处理。将图像处理与Photoshop画上等号是非常错误的。Photoshop的处理对象和结果都是Photo，即强调视觉感受；而任明武，南京理工大学计算机系

实际的图像处理工作主要是针对不同的应用领域提取不同的信息，这是Photoshop不擅长的。实际上，图像处理技术的最大特点就是缺乏通用性。实际的图像处理工作主要是针对不同的应用领域提取不同的信息，这是Photoshop不擅长的。实际上，图像处理技术的最大特点就是缺乏通用性。任明武，南京理工大学计算机系

1.2 图像处理和分析系统 1.2.1 基本结构通信处理分析采集显示存储 1.2.2 硬件组成 (图象获取设备) 基于计算机的图像处理系统的硬件一般包括图像输入设备、图像输出设备(打印机)、计算机和显示器。我们主要讲图像数设备。任明武，南京理工大学计算机系

图象获取也就是图象的数字化过程，即将图象采集到计算机中的过程，主要涉及成像及模数转换（A/D Converter）技术，曾经是很昂贵的，一直是挡在普通用户面前的难以逾越的主要障碍之一，随着计算机与微电子特别是固体成像设备（电荷耦合设备CCD(ChargeCoupled Devices) ）的快速发展，使得图象获取设备的成本显著降低，因而越来越普及，不久的将来将成为高档微机的内置设备。 1.2.2.1 摄像机和图像卡(Camera & Image Board) 以CCD技术为核心，目前图象获取设备有黑白摄象机、彩色摄象机、扫描仪、数字相机等，性能与价格主要取决于CCD的规格，如尺寸等。除了这些常见的类型外，目前有许多厂商提供各种其它的专用设备，如显微摄象设备、红外摄象机、高速摄象机、胶片扫描器等等。此外，遥感卫星、激光雷达等设备提供其它类型的数字图象。常用的摄像机的称法多种多样。比如可基本分为彩色(Colorful)、黑白(B/W)两种；按信号形式又可分为模拟和数字两种；按传感器靶面又可分为线扫描和面扫描摄像机；按波长感应范围又可分为红外、微光、可见光等摄像机。有的摄像机还同时带有云台和3可变镜头，称为一体化摄像机。随着新技术的发展，近年来出现了直接与计算机相连的摄像机(常称为电脑眼)，直接上网的、内置Mini Web的摄像机等。任明武，南京理工大学计算机系

波长响应取线 线扫描摄像机常规模拟摄像机一种针孔摄像机线扫描CCD器件，2048×1 任明武，南京理工大学计算机系

红外热象仪 所拍摄的红外图像探测器类型整体热敏电阻焦平面探测器材料多晶硅分辨率 320x240 响应波段 8~14um 温度稳定器热电温度分辨率在30度时<0.1度空间分辨率 1.0rmad 启动时间 <=7s 工作环境温度 -20度~60度存储温度 -40--70度图象显示白热/黑热帧频 50帧/s 电源 5--10VDC 重量 1.2kg 使用铁红坐标系显示温度的伪彩色图象一种数码相机任明武，南京理工大学计算机系

技术指标 一种一体化摄像机传统摄像机+内置服务器+内置网卡，通过以太网或互联网进行访问，支持远程控制(云台+解码器+镜头)，支持客户端多路同时录像，远端的浏览者不需任何专业软件，只要标准的网络浏览器(Microsoft IE 或Netscape) 一种IP摄像机任明武，南京理工大学计算机系

IR(Infra-red, 红外线):800~1200nm Red: 630 ~ 750nm Orange: 590 ~630nm Yellow: 570 ~590nm Green: 490 ~570nm Blue:450 ~490nm Indigo: 420 ~450nm Violet: 380 ~420nm 一种电脑眼可见光色谱图任明武，南京理工大学计算机系

常用的摄像机与计算机的接口方式 (1)模拟摄像机+专业图像卡 (2)模拟摄像机+多媒体卡 (3)数字摄像机+USB接口 (4)数字摄像机+1394接口(或接口卡) (5)高分辨率数字摄像机+专业的数字接口卡(RS644、LVDS卡) 任明武，南京理工大学计算机系

ICOLOR (PCI) B_ORION (AGP) 带CPU 的Odyssey Xpro 任明武，南京理工大学计算机系

一种1394卡 一种多媒体卡一种电视台专用编辑卡任明武，南京理工大学计算机系

美国Coreco公司 BanditII图像卡加拿大 Matrox公司 B_Orion图像卡任明武，南京理工大学计算机系

图象卡仍是目前专业中常用的图象数字化设备，目前低端的图象采集卡一般不具有图象帧存体而是直接将图象采集到计算机的内存中以供处理，如加拿大Matrox公司的Metero-II采集卡，高端的图象卡是集采集和处理于一身的昂贵的非标准配件，如Matrox公司的Genesis图象卡，具有帧存体和数字信号处理器DSP及邻域处理加速器NOA，用于开发高速或实时处理应用。此外，还有一类普及型的多媒体视频采集卡，如宝狮Boser602，主要用于视频会议、视频邮件等应用。图象卡仍是目前专业中常用的图象数字化设备，目前低端的图象采集卡一般不具有图象帧存体而是直接将图象采集到计算机的内存中以供处理，如加拿大Matrox公司的Metero-II采集卡，高端的图象卡是集采集和处理于一身的昂贵的非标准配件，如Matrox公司的Genesis图象卡，具有帧存体和数字信号处理器DSP及邻域处理加速器NOA，用于开发高速或实时处理应用。此外，还有一类普及型的多媒体视频采集卡，如宝狮Boser602，主要用于视频会议、视频邮件等应用。任明武，南京理工大学计算机系

最后，还应提到的是一类多媒体应用中使用的压缩卡，如AV8 MPEG压缩卡，可以将视频压缩成MPEG-I格式，主要用于VCD制作和视觉保安系统中，当然也具有图象采集功能。后两种都支持微软的VFW（Video For Windows）标准。此外，高档的压缩卡，如RT2000压缩卡可以将视频压缩成MPEG-II格式等，影视制作行业还有各种高性能的图象及视频编辑设备等。近年来，数字相机及数字摄象机技术迅猛发展，由于不需要其它数字化设备的支持，且具有更高的分辨率及编辑、使用方便等特点，有望逐步取代目前模拟摄象机的地位。但目前价格对普通用户而言还相对过高。应该指出的是传统的胶片相机和摄象机仍有其优势，特别是在分辨率上目前的数码影象采集设备还有相当的差距，例如传统的35mm胶卷数字化需要至少40004000分辨率以保持原有的信息，目前这种层次的专业级数码相机还十分昂贵，难以普及，更不用说如此巨大的数据量在存储和处理上的所面临的挑战是艰巨的。注1：3CCD与单CCD的区别 3CCD的摄像机内设有三棱镜，此三棱镜把光源分为三原色光(红色,绿色与蓝色),三原色光分别经过三块独立CCD影象感应器处理,颜色的准确程度及影像质量比使用一块CCD影像感应器大为改善。使CCD影像感应器的每一个都有一个很大的光线采集区域，因此使摄像机具有很高的信杂比，极好的敏感度以及很宽的动态范围。任明武，南京理工大学计算机系

此外，倍密度的像素分布和无缝的双色棱镜可以获得极为锐利的图像和非常逼真的色彩，即使是在细微的颜色差别处-例如在鲜红色及更深一点的红色之间-能够清楚地分辨出来。专业摄像机都是3片CCD的。3片CCD与单片CCD的图像色彩有区别，3CCD拍摄的影像层次感好，立体感强，但清晰度与单CCD是一样的。注2：摄像机选择的几个重要指标 (1)CCD or CMOS. (2)Resolution(分辨率)：多少 TV Lines or多少Effective Pixels. (3)需要的View Angle(视角)：水平和垂直视角. (4)根据视角选择合适的Focus(焦距)的镜头(lens). (5)信噪比(SN)：一般>48db. (6)需要外加光源时，还需要考虑成象器的感光曲线与光源的一致。注3：图像卡选择的几个重要指标 (1)Resolution(分辨率):768×576以上。 (2)取样精度：8bit/pixels or 12bit/pixels　和象素抖动(jitter,好的图像卡<2ns) (3)数据传输速度：通过AGP or PCI，DMA方式。 (4)显示器的同步显示问题:内置显卡,或PCI->显卡(容易死屏) 任明武，南京理工大学计算机系

注4：成象过程的三个重要变化(严重影响算法的通用性)注4：成象过程的三个重要变化(严重影响算法的通用性) (1)三维的场景被投影为二维的图象，深度和不可见部分的信息丢失。 (2)场景中的诸多因素，比如光照变化，目标特性等都变化为象素的值（灰度值、颜色值）。 (3)成象过程的畸变和噪声。注5：采样定律若是限带信号，限制在范围内，是可能的最高频率，若以取样，即取样频率至少是2倍的上限频率，即从取样后的信号可以不失真地复原出原信号。比如：取样频率量化精度波特率语音 200-3200Hz 8K 8bit 64Kb/s 图象 5- 7MHz 14 MHz 8bit or 8*3bit 任明武，南京理工大学计算机系

1.2.2.2 扫描仪(Scanner) 扫描仪按其扫描幅面的大小或机械机构的不同，常可分为手持式(handle)、平板式(flat)和滚筒(roll)式扫描仪。它们扫描的幅面有小到大。比如手持式扫描仪常用于宾馆和名片制作中的扫描1寸照片，平板式扫描仪常用于文档(A4或A3幅面)的扫描，滚筒式扫描仪常用于大型图纸的扫描。如果把平板式扫描仪比作激光打印机，滚筒式扫描仪就是绘图仪。扫描仪的几个重要指标有：分辨率、量化精度。容易忽略的指标有光罩、CCD/CIS。扫描仪中最常见的，就是关于分辨率的标示。一般都会标示出光学分辨率，如600  1200DPI。DPI是扫描仪的分辨率单位，指的是dot per inch，即每英寸采样的点数。600是水平分辨率，1200是垂直分辨率。水平分辨率是感光器(CCD或CIS)的分辨率，而垂直分辨率则指的是步进马达的最小步距，即每次扫描灯管在步进马达的带动下在垂直方向上可移动的最小距离，也就是1/1200英寸。(类似于针式打印机)。垂直分辨率又常称作LPI，即line per inch. 另一个则是最大分辨率，如9600  9600DPI，指的是内插分辨率即使用图像内插的方法能达到的分辨率，实际上并没有增加任何被扫描物件的信息，因此所增加的分辨率对原来的图像而言，是没有意义的。任明武，南京理工大学计算机系

扫描仪的量化精度指的是每个像素的最大量化能力，比如30bits/pixel 指的RGB各有10bits的量化能力。理论上讲，可取样的位数越大，代表扫描仪能表现出更多样的颜色。不过扫描仪的真正的取样能力，不在于色彩取样的多寡，而是在于所拥有的扫描浓度(Density)范围。所谓的浓度是指扫描仪所能分辨出的明暗范围，一般由0至4表示。其中，0代表纯白，4代表纯黑。量度的方法为对数形式，因此3.0与2.0的差异足足10倍之多。如果一个扫描仪可分辨0.2(Dmin)到3.1(Dmax)的浓度，就表明在此范围内，它才拥有宣称的色彩取样能力。(可惜，只有一些高级扫描仪才标明此指标) 光罩：一般扫描物件大多是反射稿的形式。如果扫描底片、投影片或幻灯片，就需要投射光，发出透射光的光源称作光罩(Transparen -cy Adapter)。光罩必须发出稳定且均匀的光，有时它的价格可能超过扫描仪的价格。 CCD与CIS(Contact Image Sensor)：传统的CCD扫描仪，来自扫描件的光线在通过复杂的镜片、透镜组成的路径后，最后成像于CCD上。因此CCD扫描仪一般体积较大，但高级的扫描仪一般都是CCD的。CIS扫描仪则去除了复杂的光学系统，使用一列感应光线的传感器。 RGB三色发光二级管(Led)所组成的白色光源，经扫描件反射后，经极短的路径，便能到达传感器成像。因此CIS扫描仪在体积和耗电量上都小。任明武，南京理工大学计算机系

扫描仪与计算机的接口方式 (1)扫描仪+并口 (2)扫描仪+SCSI卡 (3)扫描仪+USB接口 (4)扫描仪+1394接口(或接口卡) 克里奥iQSmart扫描仪传感器：CCD平台式最大分辨率(光学): 5,500×10,000dpi 最大分辨率(插值): 10,000dpi 颜色深度: 16bit 最大密度：4.1 密度范围：3.9 接口方式：IEEE1394 Panasonic 2045c高速扫描仪传输速度：20MB/s 接口方式：Ultra SCSI 耐久度：大约500万张最大扫描幅面：A4 扫描速度：200dpi时，　　　　　A4双面／2秒钟任明武，南京理工大学计算机系

1.3 图像处理的研究内容 1.3.1图象工程由于图像技术近年来得到极大的重视和发展，图像界一致认为需要对各种新技术、新手段进行综合研究和集成应用。章毓晋认为这个工作需要在一个整体框架下进行，该框架即图像工程。 1.3.2图象工程的研究领域的划分　　图像工程的内容根据抽象程度、研究方法、操作对象和数据量等的不同可分为３个层次：图像处理、图像分析和图像理解。 A：图象处理 Image Processing A1 图象采集与获取(成象方法、摄象机校正等) Acquirement and Sampling A2 图象重建（从摄影机重建图象）(Restoration) A3 图象变换、滤波、增强、恢复或复原等。Transform, Filtering, Enhancement, Recovery. A4 图象压缩编码（色算法研究、国际标准实现等）Compression, Coding B：图象分析 Image Analysis B1 边缘检测、图象分割 Edge Detection、Segmentation B2 目标表达、描述、测量 Expression、Description 、Measurement B3 目标形状、纹理、空间、运动等的分析 B4 （2-D）目标识别、分类和提取任明武，南京理工大学计算机系

高小符号图象理解高层抽象程度数据量语义图象分析分割中层象素图象处理低层低大 C：图象理解 Image Understanding C1 (序列、立体)图象(特征点)匹配 C2 3-D建模、客观场景恢复 C3 图象理解 D：技术应用 Application D1 硬件、（硬件）系统 D2 视频、通信 D3 文档（文字、数字、符号等） D4 生物医学(X射线，CT，内窥镜，显微图像，超声，核磁共振） D5 遥感(天气预报、地质测绘、资源调查、灾害检测评估) D6 其他(军事、导弹制导、　　　雷达声纳、指纹鉴别、手迹分析、考古、壁画恢复等) 图象工程的三个层次任明武，南京理工大学计算机系

图象处理、图像分析、图形学的区别 1.3.3图象处理方法分类目前图像处理主要在频域(Frequency) 和空域(Spatial) 两种不同的表示域进行处理。在频率域处理是通过图像变换，比如傅立叶变换(Fourier Transform)将图像变换到频率域。变换后的高频分量指示图像中目标的边缘信息，使用高频分量可以完成边缘提取，去掉高频分量可以实现图像平滑，消除噪音。或者说，在变换域中，图像的能量往往集中在少数项上，即图像能量主要集中在低频分量上，因此图像压缩中可以对低频分量分配较多的比特，而对高频分量分配较少的比特；在具任明武，南京理工大学计算机系

体实现上，就是对低频分量除以较小的整数进行量化，而对高频分量除以较大的整数进行量化。在图像压缩中，频域分析具有极大的优越性。体实现上，就是对低频分量除以较小的整数进行量化，而对高频分量除以较大的整数进行量化。在图像压缩中，频域分析具有极大的优越性。空间域的图像处理是将图像看作一个二维矩阵，主要使用矩阵分析、统计学的原理，一般使用数字运算(点运算、邻域运算、代数运算、几何运算)对数据进行处理。比如相邻两个象素的灰度值相减，可以得到目标的边界(轮廓)，同一个场景的多幅图像相加取平均可以有效地抑制噪音。空间域处理往往具有直观和速度快的优点。正是由于这些特点，本课程主要讲授图像在空域的处理方法。任明武，南京理工大学计算机系

数字图象处理 ( Digital Image Processing)