文字・文書画像の認識
文字・文書画像はパターン認識の中でも古くから研究されてきた分野です。文字認識は大きくオンライン文字認識とオフライン文字認識に分けられます。オンライン文字認識ではパソコンや携帯端末などに専用の筆記具で入力されたものを対象とし、オフライン文字認識は印刷文字や手書き文字を光学式スキャナで読み取った文字画像を対象とします。
阿曽研では主にオフライン文字認識について研究を行っています。綺麗に印刷された通常のフォントの文字や丁寧に書かれた手書き文字についてはこれまでの研究により高精度な認識が可能となりましたが、変形の大きい自由手書き文字や飾り文字、低品質文字など、これまでの認識アルゴリズムでは扱うことのできなかった文字パターンを対象として高精度な認識手法の探求を行っています。
飾り文字の構造抽出と認識
実用的な文書認識システムには、多種多様な文字に対応できることが求められています。我々が普段目にする書体は一様なものではなく、特に新聞・雑誌等の見出しに用いられる飾り文字は、読者の目を引き付ける、レイアウトのデザイン性を高める等の特殊な目的を持つため、既成のフォントにとらわれないさまざまな形状を形作っています。一般にこれらの飾り文字は元の書体を変形させ、飾りを加え、あるいは字体の一部を削る処理を与えたものが大半を占めます。
従来の文字認識の手法では、多くの場合文字画像の黒画素の連結性に着目することにより特徴抽出を行っていますが、これら飾り文字の場合、黒画素の連結性に着目しただけではその文字の形状を表すとは限りません。このような様々な飾り文字から文字の構造を抽出する手法を開発しました。原画像に対して複数のスケール(分散)でぼかしを加えることで得られるマルチスケールの画像を用い、尾根や谷等の幾何的な特徴を抽出することで構造を抽出します。右図は、飾り文字「N」に対して、様々なスケールtでぼかしを加えた画像と、濃淡を3次元的に表した画像です。また、構造を抽出した例を下図に示します。

さらに、構造抽出後の画像から骨格を抽出し、線分の対応付けにより認識を行う手法を開発しました。右図は、標準的な「N」の文字の線分と、構造抽出後の画像から抽出された線分を表しています。それぞれの線分から、対応する線分の組を見つけ出すことで認識を行います。
関連文献
- Structure Extraction from Decorated Characters Using Multiscale Images
IEEE Transactions on Pattern Analysis and Machine Intelligence, vol.23,
no.3, pp.315-322, March 2001
Shin'ichiro Omachi, Masaki Inoue, and Hirotomo Aso
- マッチンググラフを用いた飾り文字の認識
電子情報通信学会技術研究報告, PRMU2000-137, December 2000
女川 俊一, 大町真一郎, 阿曽弘具
- Structure Extraction from Various Kinds of Decorated Characters Using Multi-Scale
Images
Proceedings 15th International Conference on Pattern Recognition (ICPR2000),
vol.4, pp.455-458, September 2000
Shin'ichiro Omachi, Masaki Inoue, and
Hirotomo Aso
- 非決定性形状分析モデルによる飾り文字認識
画像の認識・理解シンポジウム(MIRU2000)講演論文集I, pp.241-246, July
2000
女川俊一, 大町真一郎, 阿曽弘具
- マルチスケール画像を用いた飾り文字の構造抽出
電子情報通信学会技術研究報告, PRMU98-30, June 1998
大町真一郎, 井上政樹, 阿曽弘具
低品質文字の認識
高品質の文字画像と比較して、ノイズ、つぶれ、かすれなどの画質劣化のある文字画像の認識精度は極端に落ちることが知られています。これに対応するため、つぶれた領域を検出して識別関数を補正する手法を検討しています。文字の線幅は本来それほど変動しないことから、文字画像の骨格化の処理を応用することによりつぶれた領域を検出できます。骨格化は、文字画像を輪郭から順に一画素ずつ削っていく細め処理を繰り返すことで行われます。右図に低品質文字と綺麗な文字を骨格化した例を示します。図から分かるように、削る回数に上限をもうけておくことで、綺麗な文字は全領域が完全に骨格化されますが、低品質文字はつぶれた部分の線幅が1にならずに残ります。したがって、黒画素として残った領域を検出することでつぶれた領域を検出できます。
つぶれによって特徴の分布がどのように変化するかをあらかじめ調べておき、検出されたつぶれによって識別関数を変換することで高精度な認識を実現します。下の5つの文字画像は、従来法では認識できませんが本手法を用いることで認識が可能となりました。このような人間にも判断の難しい低品質文字も、つぶれを解析し、補正することで認識が可能となりました。

関連文献
- A Noise-Adaptive Discriminant Function and Its Application to Blurred Machine-Printed
Kanji Recognition
IEEE Transactions on Pattern Analysis and Machine Intelligence, vol.22,
no.3, pp.314-319, March 2000
Shin'ichiro Omachi, Fang Sun, and Hirotomo Aso
- 低品質文字認識におけるつぶれを動的に補正する部分空間法
電子情報通信学会論文誌D-II, vol.J82-D-II, no.11,
pp.1930-1939, November 1999
大町真一郎, 阿曽弘具
- A Discriminant Function for Noisy Pattern Recognition
Proceedings of The 11th Scandinavian Conference on Image Analysis (SCIA'99),
pp.793-800, June 1999
Shin'ichiro Omachi, Fang Sun, and Hirotomo Aso
- 低品質文字認識におけるつぶれを補正する複合類似度法
電子情報通信学会技術研究報告, PRMU98-15, May 1998
大町真一郎, 阿曽弘具
- Precise Recognition of Blurred Chinese Characters by Considering Change in
Distribution
Proceedings of The 10th Scandinavian Conference on Image Analysis (SCIA'97),
pp.501-506, June 1997
Shin'ichiro Omachi, Fang Sun, and Hirotomo Aso
伸縮変形モデルによる手書き文字認識
手書き文字を高精度に認識するには、書く人の癖や変形に対応する必要があります。様々な文字の変形に対応するために、文字の形状を柔軟に表すことのできるモデルを利用する方法があります。例えばスプライン関数を利用することができます。スプライン関数は、制御点と呼ばれる少数の点を与えることで曲線を定義でき、制御点を移動することでその曲線を変形することができます。この性質を利用して文字を表します。右図はひらがな「す」の文字の骨格をスプライン関数で表した例です。
この文字骨格を、認識対象とする文字画像と合うように段階的に変形して認識を行う方法により、ひらがなを高精度に認識する手法を開発しました。

関連文献
- 伸縮変形モデルを用いた手書き文字認識
電子情報通信学会論文誌D-II, vol.J83-D-II, no.12,
pp.2578-2586, December 2000
加藤 毅, 大町真一郎, 阿曽弘具
- Precise Hand-Printed Character Recognition Using Elastic Models via Nonlinear
Transformation
Proceedings 15th International Conference on Pattern Recognition (ICPR2000),
vol.2, pp.364-367, September 2000
Tsuyoshi Kato, Shin'ichiro Omachi, and
Hirotomo Aso
- 多重解像度法を用いた文字認識用伸縮変形モデルの高精度化
電子情報通信学会技術研究報告, PRMU99-130, November 1999
加藤 毅, 大町真一郎, 阿曽弘具
- 複数ストローク対応型伸縮変形モデルによる平仮名認識
電子情報通信学会技術研究報告, PRMU98-162, December 1998
加藤 毅, 大町真一郎, 阿曽弘具
- 平仮名認識のための複数ストローク対応型伸縮変形モデル
平成10年度電気関係学会東北支部連合大会, 2G-18, August 1998
加藤 毅, 大町真一郎, 阿曽弘具
グラフの認識
文書画像から知識を抽出するにはテキスト以外のグラフ等の情報も重要です。折れ線を追跡することにより、様々な種類の折れ線グラフを認識する手法を開発しました。左下図は論文中のグラフ画像の例、この画像から折れ線を追跡し、再構成したのが右下図です。様々な折れ線が正しく追跡できていることがわかります。


関連文献
- 連結成分追跡による文書画像中の折れ線グラフの認識
電子情報通信学会論文誌D-II, vol.J86-D-II, no.6,
pp.825-835, June 2003
布田寿康, 大町真一郎, 阿曽弘具
- 連結成分追跡による文書画像中のグラフの認識
電子情報通信学会技術研究報告, PRMU2001-279, March 2002
布田寿康, 大町真一郎, 阿曽弘具