OCR 识别

OCR识别 第六组

目录 • OCR简介 • OCR的发展 • OCR的基本原理 • OCR的衡量标准 • OCR的工作流程 • OCR识别的两种方式 • OCR识别率取决于 • OCR文字识别技巧 • OCR识别效果不佳的原因及解决办法

OCR 简介 • OCR（Optical Character Recognition，光学字符识别）,是属于图型识别（Pattern Recognition，PR）的一门学问。 • 其目的就是要让计算机知道它到底看到了什么，尤其是文字资料。 • 由于OCR是一门与识别率拔河的技术，因此如何除错或利用辅助信息提高识别正确率，是OCR最重要的课题。

OCR的发展 • 自20世纪60年代初期出现第一代OCR产品开始. 由于人们对OCR产品的功能要求也从原来的单纯注重识别率.发展到对整个OCR系统的识别速度.用户界面的友好性.操作的简便性.产品的稳定性.适应性.可靠性和易升级性.售前售后服务质量等各方面提出更高的要求.所以ocr不断发展。 • IBM公司最早开发了OCR产品.1965年在纽约世界博览会上展出了IBM公司的OCR产品--IBMl287.

OCR的发展 • 中国在OCR技术方面的研究工作相对起步较晚.在20世纪70年代才开始对数字.英文字母及符号的识别技术进行研究.20世纪70年代末开始进行汉字识别的研究. • 清华大学率先推出了国内第一套中文OCR软件--清华文通TH-OCR1.0版. • 几年来.除清华文通TH-OCR外.其它如尚书SH-OCR等各具风格的OCR软件也相继问世.中文OCR市场稳步扩大.用户遍布世界各地.

OCR的基本原理 • OCR的基本原理就是通过扫描仪将一份文稿的图像输入给计算机.然后由计算机取出每个文字的图像.并将其转换成汉字的编码. • 工作过程是.扫描仪将汉字文稿通过电荷耦合器件CCD将文稿的光信号转换为电信号.经过模拟/数字转换器转化为数字信号传输给计算机.计算机接受的是文稿的数字图像.其图像上的汉字可能是印刷汉字.也可能是手写汉字.然后对这些图像中的汉字进行识别

衡量OCR标准 • 衡量一个OCR系统性能好坏的主要指标有：拒识率、误识率、识别速度、用户界面的友好性，产品的稳定性，易用性及可行性等方面。

OCR的工作流程 • 一个OCR识别系统，其目的很简单，只是要把影像作一个转换，使影像内的图形继续保存、有表格则表格内资料及影像内的文字，一律变成计算机文字，使能达到影像资料的储存量减少、识别出的文字可再使用及分析，当然也可节省因键盘输入的人力与时间。

OCR的工作流程 • 从影像到结果输出，须经： a.影像输入 b.对比识别 c.人工校正 d.结果输出

影像输入 • 欲经过OCR处理的标的物须透过光学仪器，如影像扫描仪、传真机或任何摄影器材，将影像转入计算机。　 • 影像前处理：影像前处理是OCR系统中，须解决问题最多的一个模块，从得到一个不是黑就是白的二值化影像，或灰阶、彩色的影像，到独立出一个个的文字影像的过程，都属于影像前处理。包含了影像正规化、去除噪声、影像矫正等的影像处理，及图文分析、文字行与字分离的文件前处理。

影像输入 • 文字特征抽取：单以识别率而言，特征抽取可说是 OCR的核心，用什么特征、怎么抽取，直接影响识别的好坏.而特征可说是识别的筹码.

影像输入 • 对比数据库：当输入文字算完特征后，不管是用统计或结构的特征，都须有一比对数据库或特征数据库来进行比对，数据库的内容应包含所有欲识别的字集文字，根据与输文字一样的特征抽取方法所得的特征群组。

对比识别 • 根据不同的特征特性，选用不同的数学距离函数，较有名的比对方法有，欧式空间的比对方法、松弛比对法（Relaxation）、动态程序比对法（Dynamic Programming，DP），以及类神经网络的数据库建立及比对、HMM（Hidden Markov Model）等著名的方法，为了使识别的结果更稳定，也有所谓的专家系统（Experts System）被提出，利用各种特征比对方法的相异互补性，使识别出的结果，其信心度特别的高。　

对比识别 • 字词后处理：由于OCR的识别率并无法达到百分之百，或想加强比对的正确性及信心值，一些除错或甚至帮忙更正的功能，也成为OCR系统中必要的一个模块。字词后处理就是一例，利用比对后的识别文字与其可能的相似候选字群中，根据前后的识别文字找出最合乎逻辑的词，做更正的功能。　 • 字词数据库：为字词后处理所建立的词库。

人工校正 • OCR最后的关卡，一个好的OCR软件，除了有一个稳定的影像处理及识别核心，以降低错误率外，人工校正的操作流程及其功能，亦影响OCR的处理效率，因此，文字影像与识别文字的对照，及其屏幕信息摆放的位置、还有每一识别文字的候选字功能、拒认字的功能、及字词后处理后特意标示出可能有问题的字词，都是为使用者设计尽量少使用键盘的一种功能.

结果输出 • 有人只要文本文件作部份文字的再使用之用，所以只要一般的文字文件、有人要漂漂亮亮的和输入文件一模一样，所以有原文重现的功能、有人注重表格内的文字，所以要和Excel等软件结合。无论怎么变化，都只是输出档案格式的变化而已。如果需要还原成原文一样格式，则在识别后，需要人工排版，耗时耗力。

OCR识别的两种方式 • 与其它信息数据一样.在计算机中所有扫描仪捕捉到的图文信息都是用0.1这两个数字来记录和进行识别的.所有信息都只是以0.1保存的一串串点或样本点.OCR识别程序识别页面上的字符信息.主要通过单元模式匹配法和特征提取法两种方式进行字符识别.

单元模式匹配识别法(Pattern Matching)是将每一个字符与保存有标准字体和字号位图的文件进行不严格的比较.如果应用程序中有一个已保存字符的大数据库.则应用程序会选取合适的字符进行正确的匹配.

OCR识别的两种方式 • 特征提取识别法(Feature Extraction)是将每个字符分解为很多个不同的字符特征.包括斜线.水平线和曲线等.然后.又将这些特征与理解(识别)的字符进行匹配.举个简单的例子.应用程序识别到两条水平横线.它就会[认为"该字符可能是[二".特征提取法的优点是可以识别多种字体.例如中文书法体就是采用特征提取法实现字符识别的.

OCR识别率取决于 • 1.图片的质量，一般建议150dpi以上 • 2.颜色，一般对彩色识别很差，黑白的图片较高，因此建议ocr的为黑白tif格式 • 3.最重要的就是字体，如果是手写识别率很低。

OCR文字识别技巧 • 1.分辨率的设置是文字识别的重要前提.一般来讲.扫描仪提供较多的图像信息.识别软件比较容易得出识别结果.但也不是扫描分辨率设得越高识别正确率就越高.选择300dpi或400dpi分辨率.适合大部分文档扫描.注意文字原稿的扫描识别.设置扫描分辨率时千万不要超过扫描仪的光学分辨率.不然会得不偿失.下面是部分典型设置

仅供参考. (1)1、2、3号字的文章段.推荐使用200dpi. (2)小4、5号字的文章段.推荐使300dpi (3)小5、6号字的文章段.推荐使用400dpi (4)7、8号字的文章段.推荐使用600dpi.

OCR文字识别技巧 • 2. 扫描时适当地调整好亮度和对比度值.使扫描文件黑白分明.这对识别率的影响最为关键.扫描亮度和对比度值的设定以观察扫描后的图像中汉字的笔画较细但又不断开为原则.进行识别前.先看看扫描得到的图像中文字质量如何.如果图像存在黑点或黑斑时或文字线条很粗很黑.分不清笔画时.说明亮度值太小了.应该增加亮度值在试试,如果文字线条凹凸不平.有断线甚至图像中汉字轮廓严重残缺时.说明亮度值太大了.应减小亮度后再试试.

OCR文字识别技巧 • 3.选好扫描软件.选一款好的适合自己的OCR软件是作好文字识别工作的基础.一般不要使用扫描仪自带的OEM软件. 第一.OCR软件不能识别所有的扫描仪。 • 第二. 利用图像软件的扫描接口扫描出来的图像便于处理,一般选用PHOTOSHOP.

OCR文字识别技巧 • 4.如果要进行的文本是带有格式的.如粗体.斜体.首行缩进等.部分OCR软件识别不出来.会丢失格式或出现乱码.如果必须扫描带有格式的文本.事先要确保使用的识别软件是否支持文字格式的扫描.也可以关闭样式识别系统.使软件集中注意力查找正确的字符.不再顾及字体和字体格式.

OCR文字识别技巧 • 5．在扫描识别报纸或其他半透明文稿时，背面的文字透过纸张混淆文字字形，对识别会造成很大的障碍。遇到该类扫描，只要在扫描原稿的背面附。盖一张黑纸，扫描时，增加扫描对比度，即可减少背面模糊字体的影响，提高识别正确率，

OCR识别效果不佳的主要原因 • (1) 扫描设置不当，扫描图像时的扫描分辨率(Resolution)一般应设为300dpi，如果文档字体较小则需要将扫描分辨率设定为更高值如400dpi或600dpi。缩放比例(Scaling)设为100％，亮度阀值(Threshold,Brightness)需根据纸张和印刷的质量调节，避免扫描图像过黑或过淡。 • (2) 如自动版面分析有错误，这时请用户用鼠标自己划分出正确的版面块；版面块的版式设置错误，如将横版的设置为竖版，竖版的设置为横版等，这时请用户自行将块的版式修改正确。

(3) 原稿印刷质量太差，笔画断裂严重、油墨太浓、字与字之间粘连严重等也可能使识别率显著降低。 • (4) 识别语言选项选择不当，应根据原稿正确选择“简体”、“简繁”或“英文”。

OCR 识别

OCR 识别

Presentation Transcript