文字・文書画像の認識

文字・文書画像はパターン認識の中でも古くから研究されてきた分野です。文字認識は大きくオンライン文字認識とオフライン文字認識に分けられます。オンライン文字認識ではパソコンや携帯端末などに専用の筆記具で入力されたものを対象とし、オフライン文字認識は印刷文字や手書き文字を光学式スキャナで読み取った文字画像を対象とします。

本研究室では主にオフライン文字認識について研究を行っています。綺麗に印刷された通常のフォントの文字や丁寧に書かれた手書き文字についてはこれまでの研究により高精度な認識が可能となりましたが、変形の大きい自由手書き文字や飾り文字、低品質文字など、これまでの認識アルゴリズムでは扱うことのできなかった文字パターンを対象として高精度な認識手法の探求を行っています。

低品質文字の認識

高品質の文字画像と比較して、ノイズ、つぶれ、かすれなどの画質劣化のある文字画像の認識精度は極端に落ちることが知られています。これに対応するため、つぶれた領域を検出して識別関数を補正する手法を検討しています。文字の線幅は本来それほど変動しないことから、文字画像の骨格化の処理を応用することによりつぶれた領域を検出できます。骨格化は、文字画像を輪郭から順に一画素ずつ削っていく細め処理を繰り返すことで行われます。右図に低品質文字と綺麗な文字を骨格化した例を示します。図から分かるように、削る回数に上限をもうけておくことで、綺麗な文字は全領域が完全に骨格化されますが、低品質文字はつぶれた部分の線幅が1にならずに残ります。したがって、黒画素として残った領域を検出することでつぶれた領域を検出できます。

つぶれによって特徴の分布がどのように変化するかをあらかじめ調べておき、検出されたつぶれによって識別関数を変換することで高精度な認識を実現します。下の5つの文字画像は、従来法では認識できませんが本手法を用いることで認識が可能となりました。このような人間にも判断の難しい低品質文字も、つぶれを解析し、補正することで認識が可能となりました。

伸縮変形モデルによる手書き文字認識

手書き文字を高精度に認識するには、書く人の癖や変形に対応する必要があります。様々な文字の変形に対応するために、文字の形状を柔軟に表すことのできるモデルを利用する方法があります。例えばスプライン関数を利用することができます。スプライン関数は、制御点と呼ばれる少数の点を与えることで曲線を定義でき、制御点を移動することでその曲線を変形することができます。この性質を利用して文字を表します。右図はひらがな「す」の文字の骨格をスプライン関数で表した例です。

この文字骨格を、認識対象とする文字画像と合うように段階的に変形して認識を行う方法により、ひらがなを高精度に認識する手法を開発しました。

グラフの認識

文書画像から知識を抽出するにはテキスト以外のグラフ等の情報も重要です。折れ線を追跡することにより、様々な種類の折れ線グラフを認識する手法を開発しました。左下図は論文中のグラフ画像の例、この画像から折れ線を追跡し、再構成したのが右下図です。様々な折れ線が正しく追跡できていることがわかります。

文字・文書画像の認識

低品質文字の認識

関連文献

伸縮変形モデルによる手書き文字認識

関連文献

グラフの認識

関連文献