文字・文書画像の認識

文字・文書画像はパターン認識の中でも古くから研究されてきた分野です。文字認識は大きくオンライン文字認識とオフライン文字認識に分けられます。オンライン文字認識ではパソコンや携帯端末などに専用の筆記具で入力されたものを対象とし、オフライン文字認識は印刷文字や手書き文字を光学式スキャナで読み取った文字画像を対象とします。

大町研では主にオフライン文字認識について研究を行っています。綺麗に印刷された通常のフォントの文字や丁寧に書かれた手書き文字についてはこれまでの研究により高精度な認識が可能となりましたが、変形の大きい自由手書き文字や飾り文字、低品質文字など、これまでの認識アルゴリズムでは扱うことのできなかった文字パターンを対象として高精度な認識手法の探求を行っています。

飾り文字の構造抽出と認識

実用的な文書認識システムには、多種多様な文字に対応できることが求められています。我々が普段目にする書体は一様なものではなく、特に新聞・雑誌等の見出しに用いられる飾り文字は、読者の目を引き付ける、レイアウトのデザイン性を高める等の特殊な目的を持つため、既成のフォントにとらわれないさまざまな形状を形作っています。一般にこれらの飾り文字は元の書体を変形させ、飾りを加え、あるいは字体の一部を削る処理を与えたものが大半を占めます。

従来の文字認識の手法では、多くの場合文字画像の黒画素の連結性に着目することにより特徴抽出を行っていますが、これら飾り文字の場合、黒画素の連結性に着目しただけではその文字の形状を表すとは限りません。このような様々な飾り文字から文字の構造を抽出する手法を開発しました。原画像に対して複数のスケール(分散)でぼかしを加えることで得られるマルチスケールの画像を用い、尾根や谷等の幾何的な特徴を抽出することで構造を抽出します。右図は、飾り文字「N」に対して、様々なスケールtでぼかしを加えた画像と、濃淡を3次元的に表した画像です。また、構造を抽出した例を下図に示します。

さらに、構造抽出後の画像から骨格を抽出し、線分の対応付けにより認識を行う手法を開発しました。右図は、標準的な「N」の文字の線分と、構造抽出後の画像から抽出された線分を表しています。それぞれの線分から、対応する線分の組を見つけ出すことで認識を行います。

低品質文字の認識

高品質の文字画像と比較して、ノイズ、つぶれ、かすれなどの画質劣化のある文字画像の認識精度は極端に落ちることが知られています。これに対応するため、つぶれた領域を検出して識別関数を補正する手法を検討しています。文字の線幅は本来それほど変動しないことから、文字画像の骨格化の処理を応用することによりつぶれた領域を検出できます。骨格化は、文字画像を輪郭から順に一画素ずつ削っていく細め処理を繰り返すことで行われます。右図に低品質文字と綺麗な文字を骨格化した例を示します。図から分かるように、削る回数に上限をもうけておくことで、綺麗な文字は全領域が完全に骨格化されますが、低品質文字はつぶれた部分の線幅が1にならずに残ります。したがって、黒画素として残った領域を検出することでつぶれた領域を検出できます。

つぶれによって特徴の分布がどのように変化するかをあらかじめ調べておき、検出されたつぶれによって識別関数を変換することで高精度な認識を実現します。下の5つの文字画像は、従来法では認識できませんが本手法を用いることで認識が可能となりました。このような人間にも判断の難しい低品質文字も、つぶれを解析し、補正することで認識が可能となりました。

伸縮変形モデルによる手書き文字認識

手書き文字を高精度に認識するには、書く人の癖や変形に対応する必要があります。様々な文字の変形に対応するために、文字の形状を柔軟に表すことのできるモデルを利用する方法があります。例えばスプライン関数を利用することができます。スプライン関数は、制御点と呼ばれる少数の点を与えることで曲線を定義でき、制御点を移動することでその曲線を変形することができます。この性質を利用して文字を表します。右図はひらがな「す」の文字の骨格をスプライン関数で表した例です。

この文字骨格を、認識対象とする文字画像と合うように段階的に変形して認識を行う方法により、ひらがなを高精度に認識する手法を開発しました。

グラフの認識

文書画像から知識を抽出するにはテキスト以外のグラフ等の情報も重要です。折れ線を追跡することにより、様々な種類の折れ線グラフを認識する手法を開発しました。左下図は論文中のグラフ画像の例、この画像から折れ線を追跡し、再構成したのが右下図です。様々な折れ線が正しく追跡できていることがわかります。

文字・文書画像の認識

飾り文字の構造抽出と認識

関連文献

低品質文字の認識

関連文献

伸縮変形モデルによる手書き文字認識

関連文献

グラフの認識

関連文献