1 / 24

文字認識

•. Off-line 文字認識 system 의 構成. 文字認識. • Computer 에의 文字入力手段. CTS(computerized type setting 電子組版 ) DTP(desk-top publishing ). • 人類文化遺産의 保存 / 活用 !!!. digital library. ②. ①. ③. 光電變換 裝置. 認識處理 裝置. 出力裝置. ④. 記憶裝置. ① photoelectric converter. 5. raster scan( 走査 ) 에 依한 電壓波形의

Download Presentation

文字認識

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Off-line 文字認識 system의 構成 文字認識 • Computer에의 文字入力手段 CTS(computerized type setting 電子組版) DTP(desk-top publishing ) •人類文化遺産의 保存/活用!!! digital library ② ① ③ 光電變換 裝置 認識處理 裝置 出力裝置 ④ 記憶裝置 ① photoelectric converter 5 raster scan(走査)에 依한 電壓波形의 時系列(time series) 變換 2D 1D vector(random)scan cf. 飛越走査 interlaced scan(TV)

  2. (charge coupled device ) •光學系(lenz, CCD, image sensor) ITV camera ※ sampling (標本化) quantization(量子化) <scan周期 와 同期> <電壓値> Spatial sampling pitch 適切한 threshold 0.1~0.2mm 電壓에 依해 (128~256dpi) 2値(0.1)로 變換 눈의 分解能(resolution) : 0.09mm sampling rate(guideline) 英文字 : 20*20 / 30*30 漢字 : 40*40 ~ 50*50 ; gothic ~up ; 明朝 筆記文字 : 눈의 分解能水準 ② recognizer OCR 實用化初期 : 專用 H/W로 構成 論理, data의 變更에 어려움 ※ optical character reader

  3. 1960年代後半~ computer simulation flexibility, speed 向上, 設計의 容易한 on-line 筆記文字認識 ③ memory reference patten의 重要性 input pattern과의 similarity 計算 ④ output device - - hard copier impact/ nonimpact printing - LP, dot-matrix, typewriter, fax - ink-jet, LBP, xerography, photo -display (soft copier) CRT •認識文字의 單純한 coding 過程 他 機器/사람에 傳達하기 쉬운 形態로 出力

  4. 文字 光電變換 segmentation normalization preprocessing reference pattern : 特徵抽出 一致度 計算 認識結果出力 文字認識의 흐름

  5. ※ segmentation •規制 frame (box)!! OCR : drop-out color를 利用한 frame使用 image sensor : red 系列 Xerography : blue 系列 印刷文`字 : 水平, 垂直軸으로 投影 筆記文字 : 認識과 同時에 이루어짐 ※ preprocessing & normalization • 位置 • • superposition method의 境遇 特히 重要 • •外廓frame의 中心 또는 重心(L,T ••• ) • -크기 • • 3:1 程度時 正規化必要 • •㓰의 幅을 一定크기로 (橫, 縱方向 크기) • - 廻轉 / 傾斜 • •文字의 主軸을 座標軸 方向과 맞춤 • •縱方向中心軸을 垂直이 되도록 廻轉 • -濃度 • •領域의 平均濃度나, 最大/最小 濃度比 基準으로 • •2値化도 一種의 正規化

  6. 線幅 • •量子化時 threshold 값 調整 • • 2値化後 細線化(thinning), 太線化(thickening)處理 前處理 : 雜影, 歪曲 量子化 雜影의 smoothing(平滑化) 汚點, 脫點除去 level 補正(素子의 感度起伏, shading) ※ 特徵抽出및 一致度計算 •濃度特徵 • histogram 必要充分한 sample 点의 數 : 英文字 7*10, 漢字 15*15 •輪廓線特徵 Freeman chain code sampling 直線 •圓弧로 近似 •㓰(stroke)特徵 細線化後 stroke, 端点, 屈曲点, 分岐点, 交叉点 抽出

  7. loop, (convex/concave : 位相情報) M N l i=1 j=1 •背景特徵 •函數展開에 依한 特徵 KL(Karhunen-Loeve)展開, Fourier/Hadamard展開 一致度計算 評價尺度 - 相關値(correlation value) - 類似度(similarity) - 距離 - 論理函數의 眞僞 - 狀態遷移圖 通過與否 相關値 Sl= 類似度 S (p) = = wij Pij M N l Qij Pij Inner product l (Q , P) l i=1 j=1 P P l l Q Q M N 1/2 2 : norm l (Qij) Q = i=1 j=1

  8. ※ 認識 recognition error(認識誤謬) false alarm(誤認識率) : 惡性 false reject(棄却/不讀率) 3~10倍 後處理段階에서 一部救濟可能

  9. 認識對象 單一字體 多種字體 制限筆記 自由筆記 印刷文字 筆記文字 OCR 常用筆記 on-line筆記文字 特殊文字 : OMR, bar-code, MICR 實用 system의 基準正確度 漢字 數字 英字 •記號 制限筆記 常用筆記 自由筆記 99.99% 99.5% 99% - 約93% 90% - 約98% 95% 筆 記 單一字體 複數字體 多種字體 99.99% 99.9% 99% 99% 97% 95% 99.999% 99.99% 99.9% 活 字

  10. 代表的 인 文字認識方法 ① pattern matching method (pattern 整合法) - 類似度法 - 特徵整合法(feature matching method) ② 構造解釋法(structural analysis) - 線構造解析 : 線圖形化法, A-b-S(analysis-by-synlhesis)法 - 輪廓構造解析 : IBM1287 - 背景構造解析 : ③ 統計的方法(statistical approach)等 其他方法 - HMM(hidden Markov model) - ANN(artificial neural network)

  11. • IBM1287 (1967) circle scan方式 : 輪廓과 傾斜抽出 FSS (flying spot scanner)가 圓弧狀 廻轉 : 文字部에서 半徑을 작게 論理回路로 認識 •郵便區分機(address reader/sorter) 線素方向抽出 : 3*3 水平特徵抽出 : 水平方向으로 14~16개로 分割抽出 認識 : 㓰方向 成分으로 組合 state transition diagram 으로 表現 •線圖形化法(line drawing method) thinning chain coding recognition (skeletonization) 文字의 本質的情報는 中心線/骨格線(skeleton) 細線化/骨格化 thinning mark 設計 條件滿足時 ; false stroke 等의 問題 1 1 1 a •b = 0 or 任意 X 0 a Xb 0 0 0

  12. • field effect method 2 8方向 bond(觸手) 閉鎖率의 分布 stroke 性質 : convex( < 4) concave( > 5), 角度, 方向 全體的性質 : 패턴의 크기, 重心, stroke 數 • A-b-S (合成에 依한 分析)에 依한 㓰抽出 input comparison error evaluation pattern generation parameter control output ※ pattern generation modeling이 問題!! <stroke>::= <dot>1<bar>I<complex> <complex>::= <bar><curve>I<curve><bar><curve> <dot>::= isolated point <bar>::= straight stroke <curve> ::= curve stroke •

  13. P M 2101 • • Q 1102 PX2 02 bond의 交點 •elastic matching(彈性整合法) chain code sequence : 脫落, 揷入,置換된 code를 dynamic programming(DP)으로 最適解 reference pattern Input pattern 音聲 : DTW (dynamic time warping) •位相構造化法 背景에서 global feature 背景各 點에서의 線分存在與否(交点) 文字線部에서 local feature loop, 輪廓點(水平, 垂直, 傾斜) code化後 feature matching 背景 左上下右

  14. •最外點 list 法 部分輪廓의 오목/볼록, 重心座標, 길이, 方向 histogram 抽出 標準 feature seguence와의 差 分割點 고무band法(convex hull) • HMM on-line 文字認識

  15. Stylus pen signal cable 1 2 3 特徵 抽出 前處理 正規化 識別 tablet On-line 筆記文字認識 (가) 技術上의 利點 ① 入力文字의 劃數檢出 容易 stylus pen의 上下움직임 ② 各㓰의 形狀을 쉽게 調査可 pen 끝의 軌跡 ③ 各㓰이 쓰여진 順序(書順)를 알 수 있음 短点 㓰의 追加, 脫落, 끊어짐, 가는 글씨, 흘림, 이어쓰기(run-on)에 敏感 (나) user interface로서의 特徵 ① 누구나 訓練없이 使用可能 ② 認識結果가 記入者에 卽時 feedback ③ ② 를 道해 利用者가 system에 쉽게 適應可能

  16. 前處理 ◎` • 筆点의 멈춤, 느린 運筆에 依한 餘分 data發生 • (相對 移動量에 依한 sampling) • 손떨림, random noise의 smoothing • (tablet의 resolution原因) - 孤立 data 除去 (不注意 等 原因) • H/W stylus : cableless tablet : 透明化 筆記感(異質感) LCD 倂用으로 入力 •表示一體型 視点秘動이 없음 electronic paper 代表的인 認識手法 ① pattern matching • stroke(㓰)의 位置座標를 特徵으로 •한 stroke를 3~6개의 代表的으로 近似 (始点, 終点, 中間点(1~4))

  17. Q1 •各点의 座標값 •運筆方向角(始•終点) 接線 vector의 方向 Q2 劃數로 category 大分類 +2㓰의 自由度 許容 6 5 4 3 2 1 ② HMM (hidden Markov model) ••••• •劃數 狀態(state)數 • vector code 變數(variables) (8/16 方向)

  18. 學習 data 利用 •各變數 의 發生頻度(確率) •狀態遷移 確率 入 = ( A, B, ) 初期狀態確率 ; 높은 認識率 音聲과 類似한 time series! 課題 1. 制約을 없애며 認識率向上 2. human support 機能의 强化 - 誤讀, 判讀拒否時의 原因/理由提示 - 辭典에의 追加登錄機能 - 適應 •學習에 依한 system의 個人化 3. 異質感이 적은 stylus/tablet의 開發 4. gesture에 依한 編輯/校正機能 必要

  19. 長時間使用時 認識率低下 . 低速 20~30字/分 用度限定 ① 傳票處理 on-line data entry, on-line billing 情報發生時点入力하여 結果를 얻음 (keyboard 代行) ② 文字/圖形의 混合入力 設計圖面, 地圖等을 interactive 하게 入力 (PLI : paper-like interface) ③ 한글入力 •家庭等에서 少量 data를 가끔 入力 •出力結果 編輯/校正 하는 境遇 (gesture認識)

  20. 文字認識應用 system 1. 郵便番號/住所自動判讀機 - 任意의 筆記具 - 住所領域檢出 - format 未知의 入力對象 mechatronics技術의 集合體 sorter(多種多樣한 크기, jam & skew 防止, 종이 搬送裝置) pipeline processing 等 (書信全面高速畵像處理) 2. 産業用 文字認識裝置 - 大部分 印刷文字(製品番號, model No.) - 印刷媒體多樣(종이(box), plastic(IC), 고무(tire), 나무(包裝材), 金屬(鑄物)) - 印刷面(平面, 圓筒形, 球形) 誤讀不許 印刷品質向上, 照明改善, 類似文字廻避 <普通 畵像計測 system의 subsystem>

  21. 3. facsimile OCR facere + similus (make+similar) fax + OCR + computer 1) 受信한 scanning signal로 文字認識 2) 畵像情報의 編輯 複數個의 畵像으로부터 部分切斷 合成, 移動, 論理演算 等으로 새로운 畵像을 生成 3) 文字/畵像混在 data의 送受信, 蓄積 •文字•畵像 領域分割 各領域別로 1,2 處理 하여 記憶 •混在形態로 傳送 remote data entry, 情報檢索(IR), telex 等에 利用 G4 fax 4. 文書處理機(document processor) text : 文字列 表 : 線, 칸(column), 文字 圖形 : 幾何學的 圖形, 文字(title 等) image : 寫眞, 畵像 混在한 一般文書對象

  22. text 領域分割後 OCR로 ※ text 領域의 巨視的 特徵 ① 黑畵素 뭉치가 一定 周期로 縱橫方向으로 分布 ② 領域內 線分幅이 一定 ③ 各圖形은 작고 가로세로 比가 1:1에 가깝다. ④ 線圖形으로 보는 경우 複雜한 便이다. ⑤ 大部分 黑白2値다. run length法(①②) 線密度法(④) 濃度分布法(⑤) 連續領域法(①③) 周邊分布法(①) 外點四角frame法(③) 5. OCR handscanner(bar code reader) • PDS(point of sales) system 에서 商品價格, tag判讀 •照明 lamp, lenz, sensor를 一體化(70g程度) 1) 判讀與否는 各줄마다 check digit 檢査 : 삐(beep)!!

  23. 2) 手動走査에 依한 幾何學的歪曲에 强한 方式 •紙面과 scanner 間 距離變化 •走査速度의 起伏(7~40 cm/sec) •走査方向의 傾斜 roll(옆질), pitch(앞질), yaw(進路의 不規則性)의 正規化 6. image OCR 混合畵像 文字 認識 畵像 壓縮, 檢索 [JPEG, MPEG] • 實用 system 開發 • 最小 10万~100万 sample必要 • guideline上의 認識率

More Related