540 likes | 677 Views
電子技術総合研究所における研究. 文字認識に関連する研究 正規化 観測 印字品質評価. 文字認識装置のモデル. 1. 前処理(正規化)方式の検討 《 意図/背景 》. 文字パターンの 濃淡 , 伸縮 , 回転 は認識に無関係である. 一定の濃さ,大きさ,方向に揃え,認識性能の向上を図る.. 1. 前処理(正規化)方式の検討 《 方法 》. 観測された文字パターンの モーメント を用いて自動的に正規化する.. モーメント -1. 0 次, 1 次, … モーメントが定義される. 文字パターンは紙の上に描かれている.
E N D
電子技術総合研究所における研究 文字認識に関連する研究 正規化 観測 印字品質評価
1. 前処理(正規化)方式の検討《意図/背景》1. 前処理(正規化)方式の検討《意図/背景》 • 文字パターンの濃淡,伸縮,回転は認識に無関係である. • 一定の濃さ,大きさ,方向に揃え,認識性能の向上を図る.
1. 前処理(正規化)方式の検討《方法》 • 観測された文字パターンのモーメントを用いて自動的に正規化する.
モーメント-1 • 0次,1次,…モーメントが定義される. • 文字パターンは紙の上に描かれている. • 文字の背景の白い部分は質量ゼロ,文字ストロークの黒部分は濃淡に応じた質量があると考える.
モーメント-2 • 0次モーメント:重さ →濃淡の正規化に利用 • 1次モーメント:重心 →位置の正規化に利用 • 2次モーメント(3種類): 水平/垂直方向の拡がり量 →大きさの正規化に利用 主軸の方向 →回転の正規化に利用
自動正規化の例−位置の正規化− 観測パターン 正規化後
自動正規化回路の基礎方程式 f(x, y, t): 時刻tにおける文字パターン とするとき, ここで C:制御量 Op:微分演算子
自動正規化回路の基本構成 太い線は2次元パターン(ベクトル量)
1. 前処理(正規化)方式の検討《明らかになったこと》1. 前処理(正規化)方式の検討《明らかになったこと》 • 積分微分方程式の形の式を誘導 • アナログ計算機が使えそう
1. 前処理(正規化)方式の検討《社会への貢献》《その他》1. 前処理(正規化)方式の検討《社会への貢献》《その他》 • 正規化/前処理の重要性の喚起 • 自分自身の勉強
2. 位置自動正規化装置(1次元5点モデル)の試作《意図/背景》2. 位置自動正規化装置(1次元5点モデル)の試作《意図/背景》 自動正規化方式のアナログ回路による実現可能性の検証
2. 位置自動正規化装置(1次元5点モデル)の試作《明らかになったこと》2. 位置自動正規化装置(1次元5点モデル)の試作《明らかになったこと》 乗算器の精度向上が鍵
2. 位置自動正規化装置(1次元5点モデル)の試作《社会への貢献》2. 位置自動正規化装置(1次元5点モデル)の試作《社会への貢献》 アナログ回路の不安定さの再認識
3. 観測機構の解析《意図/背景》 • 認識に必要な情報は漏れなく観測したい →できるだけ細かく観測 • 文字認識装置を廉価に実現したい →できるだけ粗く観測 • 最小の標本点数で情報損失少なく観測する方法を検討.
3. 観測機構の解析《方法》 • 観測の際には必然的にボケが伴う. • ボケは帯域制限フィルタとして働く. • 帯域制限された信号波形は情報損失なく標本化できる(染谷-Shannonの標本化定理/Nyquist定理)
ボケの関数とその周波数成分 左半分: ボケの関数 右半分: そのFourier成分
3. 観測機構の解析《明らかになったこと》 • ボケを利用して過不足なく情報を観測する装置の設計基準 • 文字ストロークの幅とボケの関数(Gauss分布の確率密度関数)との関係を確定.
正方パルスとボケの関数との対応 標準偏差=1 -3.5 -1.4 0 1.4 3.5
3. 観測機構の解析《社会への貢献》 • この仕事に関する論文が最も引用回数が多い. • 文字認識装置の設計の際には参考にしているのではないかと推察.
4. タイプフェイス(フォント)の設計法−感覚量の定量化《意図/背景》4. タイプフェイス(フォント)の設計法−感覚量の定量化《意図/背景》 • 文字の心理的感覚的な特性として美しさ,大きさ,統一性,調和性,安定感,読みやすさ,弁別性などがある. • これらの特性−感覚量−を定量化したい.
4. タイプフェイス(フォント)の設計法−感覚量の定量化《方法》4. タイプフェイス(フォント)の設計法−感覚量の定量化《方法》 • 読みやすさ,安定感:文字の重心(1次モーメント) • 大きさ:文字の拡がり量(重心まわりの2次モーメント)
同じ2次モーメントをもつ○△□(同じ大きさに見える○△□)同じ2次モーメントをもつ○△□(同じ大きさに見える○△□)
4. タイプフェイス(フォント)の設計法−感覚量の定量化《明らかになったこと》4. タイプフェイス(フォント)の設計法−感覚量の定量化《明らかになったこと》 • 横書き用の文字の場合,垂直方向重心の上下動がないと読み易い. • 重心まわりの2次モーメントを一定にすると,フォント全体として文字大きさが揃って見える.
4. タイプフェイス(フォント)の設計法−感覚量の定量化《社会への貢献》4. タイプフェイス(フォント)の設計法−感覚量の定量化《社会への貢献》 • 機械的な文字認識用のタイプ活字設計指針を明らかにした. • 光学文字認識用カタカナフォントOCR-Kの設計に利用.
5. 文字パターンの重心と拡がり量との高精度/高速計算方法《意図/背景》5. 文字パターンの重心と拡がり量との高精度/高速計算方法《意図/背景》 文字パターンを 碁盤目状の領域に表現してから 重心や拡がり量を計算すると 標本化による誤差が存在する.
5. 文字パターンの重心と拡がり量との高精度/高速計算方法《方法》5. 文字パターンの重心と拡がり量との高精度/高速計算方法《方法》 直線/円弧で定義される芯線の両側に 等しく肉付けする文字パターンの場合, 芯線の情報と文字線の幅から, 重心と拡がり量とを直接計算できる.
作図の例 碁盤目状の2次元パターンに展開しなくても モーメントの計算可能.
5. 文字パターンの重心と拡がり量との高精度/高速計算方法《検討事項》5. 文字パターンの重心と拡がり量との高精度/高速計算方法《検討事項》 線素の重なりによる計算誤差の見積
5. 文字パターンの重心と拡がり量との高精度/高速計算方法《社会への貢献》5. 文字パターンの重心と拡がり量との高精度/高速計算方法《社会への貢献》 光学文字認識用カタカナフォントOCR-Kの設計に利用.
4. タイプフェイス(フォント)の設計法−感覚量の定量化5. 文字パターンの重心と拡がり量との高精度/高速計算方法《その他》4. タイプフェイス(フォント)の設計法−感覚量の定量化5. 文字パターンの重心と拡がり量との高精度/高速計算方法《その他》 ラインプリンタは レーザプリンタで置き換えられ, OCR-Kも 現在は用済みになってしまった.
6. 標準文字パターンの計算機による生成《意図/背景》6. 標準文字パターンの計算機による生成《意図/背景》 文字認識方式の研究, 印字文字の品質評価法の研究において 標準文字パターンが不可欠.
6. 標準文字パターンの計算機による生成《方法》6. 標準文字パターンの計算機による生成《方法》 芯線の両側に肉付けする形で生成.
LP用活字の設計図 定規コンパス型 芯線座標型
6. 標準文字パターンの計算機による生成《明らかになったこと》6. 標準文字パターンの計算機による生成《明らかになったこと》 • 芯線が直線/円弧で定義されるフォントOCR-A, OCR-Kの生成方法. • 芯線の座標がある適当な間隔で定義されるフォントのOCR-Bの生成方法.
6. 標準文字パターンの計算機による生成《社会への貢献》6. 標準文字パターンの計算機による生成《社会への貢献》 参考にしたメーカは多いと信ずる.
7. 文字パターンの白黒2値化法《意図/背景》7. 文字パターンの白黒2値化法《意図/背景》 • 文字は本来白黒2値図形であるから濃淡図形として観測された文字パターンを適切に白黒2値パターンに変換したい. • 如何に閾値を設定すればよいか.
7. 文字パターンの白黒2値化法《方法》 • タイプライタやラインプリンタから出力される文字パターンの線幅は基準値を中心にしてばらついている. • このばらつきは基準値を平均値とする正規分布であると仮定し, 本来白黒2値図形である文字パターンが, 濃淡図形として観測される過程をモデル化し, その逆過程として閾値設定法を検討.
文字線(断面)のモデル 基準値:1
7. 文字パターンの白黒2値化法《明らかになったこと》7. 文字パターンの白黒2値化法《明らかになったこと》 経験的に言われてきた, 紙面の最も明るいところと 最も暗いところとの平均値を 閾値とすることの妥当性.
7. 文字パターンの白黒2値化法《社会への貢献》7. 文字パターンの白黒2値化法《社会への貢献》 多分,安心感を与えた.
8. 印字品質の定量的評価方法《意図/背景》8. 印字品質の定量的評価方法《意図/背景》 • 文字認識装置の読み取り精度は入力される文字の「品質」によって決まる. • 「品質」の定量化が不可欠. • 個々の文字の品質ばかりではなく書類全体の文字の品質も定量化が必要.
8. 印字品質の定量的評価方法《方法》 • 印刷鮮明度,平均線幅,重心偏位,類似度を用いて文字の品質を定量化する. • 印刷鮮明度:紙面の白さに対する印字の濃さを表す量. • 類似度:パターンを多次元空間内のベクトルと考えたとき,2つのベクトルがなす角の余弦を表す量. • 走査装置を小型計算機に接続した「印字品質評価装置」を試作