280 likes | 503 Views
基于笔端 形状 相似性的汉字字体识别. 王晓 1,2 ,吕肖庆 1,2 ,汤帜 1,2 1 北京大学计算机科学技术研究所 2 数字出版技术国家重点实验室 ( 北大方正集团有限公司 ) E-mail : Lvxiaoqing@pku.edu.cn. 提纲. 背景及研究现状 笔端提取 笔端形状描述 字体相似性度量 实验与分析 总结. 背景及研究现状. 字体识别 文档电子化 光学字符识别( OCR ) 版面分析、理解、恢复 新需求 厂商希望保护版权 设计师和用户“按形找字” 大规模集合上的字体识别. 背景及研究现状. 相关概念 输入 文本块图像
E N D
基于笔端形状相似性的汉字字体识别 王晓1,2,吕肖庆1,2,汤帜1,2 1 北京大学计算机科学技术研究所 2 数字出版技术国家重点实验室(北大方正集团有限公司) E-mail:Lvxiaoqing@pku.edu.cn
提纲 • 背景及研究现状 • 笔端提取 • 笔端形状描述 • 字体相似性度量 • 实验与分析 • 总结
背景及研究现状 字体识别 • 文档电子化 • 光学字符识别(OCR) • 版面分析、理解、恢复 • 新需求 • 厂商希望保护版权 • 设计师和用户“按形找字” • 大规模集合上的字体识别
背景及研究现状 相关概念 • 输入 • 文本块图像 • 单字图像 • 输出 • 字体属性 • 字体名称:如方正剪纸、方正水黑 • 样式:正规、粗体、倾斜、粗斜等
背景及研究现状 字体识别方法的分类 • 文本相关 / 文本无关 • 基于文本块 / 基于单字 • 基于文本块 • Gabor变换 • 笔画分布 • 基于单字符 • 小波变换 • 笔画模板 • 特征点
字体与笔端相似性 背景及研究现状
背景及研究现状 待识别的单字图像 字体识别结果 笔端与特征笔端间的相似度 笔端提取 笔端描述 多个汉字图像 字体特征笔端集合 字体识别流程 计算聚类中心
提纲 • 背景及研究现状 • 笔端提取 • 笔端形状描述 • 字体相似性度量 • 实验与分析 • 总结
笔端提取 • 笔端 • 笔画的起始与收尾 • 占笔画一定比例 • 点笔画和某些转折 • 如何精确计算 • 笔画起始与收尾 • 截断位置 • 截断方式
笔端提取 • 笔画模板 (前人工作) • 希望笔端 与形状相关的阈值
笔端提取 笔端与骨架的关系 • 笔端起始点 • 骨架端点 • 笔端截断点 • 骨架分叉点
笔端提取 • 借助骨架会有什么问题?
笔端提取 • 分叉与毛刺问题
笔端提取 • 笔画长宽比问题
笔端提取 • 动态计算长宽比(Stroke Aspect Ratio,SAR) (a) (b)
笔端提取 • 取SAR=1时的截取效果
提纲 • 背景及研究现状 • 笔端提取 • 笔端形状描述 • 字体相似性度量 • 实验与分析 • 总结
笔端形状描述 • 笔端描述子的构造 • 基于基于多尺度曲率直方图的傅里叶描述子 … …
提纲 • 背景及研究现状 • 笔端提取 • 笔端形状描述 • 字体相似性度量 • 实验与分析 • 总结
字体相似性度量 采用欧式距离计算特征相似度 采用支持向量机(SVM)进行训练与识别
提纲 • 背景及研究现状 • 笔端提取 • 笔端形状描述 • 字体相似性度量 • 实验与分析 • 总结
实验与分析 • 常用字体数据集 • 宋体、仿宋、黑体、楷体、隶书 • 正规、粗体、倾斜、粗斜 • 字号:18 • 扫描分辨率:1200dpi • 参数设置 • sar: 1 • SDST • 5个尺度,每个尺度100维
实验与分析 • 常用字体集合测试结果 • 五种方式划分测试集
实验与分析 • 扩展字体数据集 • 23种字体 • 字号:初号 • 保存清晰度:600dpi • 参数设置 • sar: 1 • SDST • 5个尺度,每个尺度100维 • 特征笔端数量:50
实验与分析 整体 识别率 88.49%
总结与展望 • 字体特征 • 较少的特征笔端表示字体 • 与人们视觉感知接近的笔端结构 • 较大规模字体集合 • 有较好的识别效果 • 未来研究方向 • 小字号的轮廓获取 • 加入笔画宽度的分布
谢谢! Email:Lvxiaoqing@pku.edu.cn