画像の認識・理解

様々な画像を対象として認識・理解するためのアルゴリズムを検討しています。

多項式表現による高速テンプレートマッチング
低品質文字の認識
伸縮変形モデルによる手書き文字認識
グラフ画像の認識
人の顔の認識
情景画像中の文字情報の抽出

多項式表現による高速テンプレートマッチング

対象を限定しない一般的な画像を認識・理解する手法として、テンプレートマッチングに基づく方法を検討しています。テンプレートマッチングは画像処理・画像認識の分野における基本技術として広く用いられていますが、処理時間が膨大となることが問題となっていました。高速化のために、画像を直交多項式展開により符号化し、この符号を用いて画像どうしの類似度を高速に計算する「代数的テンプレートマッチング法（Algebraic Template Matching）」を提案しました。

低品質文字の認識

高品質の文字画像と比較して、ノイズ、つぶれ、かすれなどの画質劣化のある文字画像の認識精度は極端に落ちることが知られています。これに対応するため、つぶれた領域を検出して識別関数を補正する手法を検討しています。文字の線幅は本来それほど変動しないことから、文字画像の骨格化の処理を応用することによりつぶれた領域を検出できます。骨格化は、文字画像を輪郭から順に一画素ずつ削っていく細め処理を繰り返すことで行われます。右図に低品質文字と綺麗な文字を骨格化した例を示します。図から分かるように、削る回数に上限をもうけておくことで、綺麗な文字は全領域が完全に骨格化されますが、低品質文字はつぶれた部分の線幅が1にならずに残ります。したがって、黒画素として残った領域を検出することでつぶれた領域を検出できます。

つぶれによって特徴の分布がどのように変化するかをあらかじめ調べておき、検出されたつぶれによって識別関数を変換することで高精度な認識を実現します。下の5つの文字画像は、従来法では認識できませんが本手法を用いることで認識が可能となりました。このような人間にも判断の難しい低品質文字も、つぶれを解析し、補正することで認識が可能となりました。

伸縮変形モデルによる手書き文字認識

手書き文字を高精度に認識するには、書く人の癖や変形に対応する必要があります。様々な文字の変形に対応するために、文字の形状を柔軟に表すことのできるモデルを利用する方法があります。例えばスプライン関数を利用することができます。スプライン関数は、制御点と呼ばれる少数の点を与えることで曲線を定義でき、制御点を移動することでその曲線を変形することができます。この性質を利用して文字を表します。右図はひらがな「す」の文字の骨格をスプライン関数で表した例です。

この文字骨格を、認識対象とする文字画像と合うように段階的に変形して認識を行う方法により、ひらがなを高精度に認識する手法を開発しました。

グラフの認識

文書画像から知識を抽出するにはテキスト以外のグラフ等の情報も重要です。折れ線を追跡することにより、様々な種類の折れ線グラフを認識する手法を開発しました。左下図は論文中のグラフ画像の例、この画像から折れ線を追跡し、再構成したのが右下図です。様々な折れ線が正しく追跡できていることがわかります。

人の顔の認識

コンピュータにより人物の顔を認識し、誰の顔であるかを判断する処理のことです。監視カメラによるセキュリティーシステム、画像検索、ロボットビジョンなどの分野で応用されており、近年盛んに研究されています。人間の顔は、向き、表情、照明などが変化するとまったく異なった見え方をするため、コンピュータによる高精度な認識は非常に難しい問題です。本研究室では、人間の顔の向きによらず高精度に認識を行うための方法について検討しています。

顔の認識では、観測された顔画像（誰であるか未知）が、登録されているどの人物のものであるかを判定します。そのために、顔の特徴をよく表す点（顔特徴点）を抽出し、これらの特徴点を結ぶグラフ（顔グラフ）を作成します。未知の顔画像と、登録されている顔画像との間で、顔グラフの類似性および顔特徴点付近の画像としての類似性を評価することで顔の認識を行います。

しかし、観測された顔画像と登録されている顔画像の向きが異なると、グラフとしての類似性、画像としての類似性ともに失われてしまうだけでなく、顔特徴点の検出もうまく行えなくなります。そこで本研究では、最初に顔の向きを推定し、その向きに応じて顔グラフを変換することでこの問題を解決することを試みています。
顔の向きの推定には、顔の向きが変化しても比較的容易に抽出できる右目・左目・口の3点を用います。これらの点を画像から抽出し、3点を頂点とする三角形の形状から顔の向きを推定します。そして、向きに応じた顔特徴点の検出および類似性の評価を行うことで高精度な顔画像認識を実現します。

また、顔の検出に適した色特徴の選定法や、顔を識別するための統計的手法についても検討を行なっています。

画像の認識・理解

多項式表現による高速テンプレートマッチング

関連文献

低品質文字の認識

関連文献

伸縮変形モデルによる手書き文字認識

関連文献

グラフの認識

関連文献

人の顔の認識

関連文献