画像処理

主に画像からの特徴抽出を目的とし、様々な画像処理手法を提案しています。


飾り文字の構造抽出

実用的な文書認識システムには、多種多様な文字に対応できることが求められています。我々が普段目にする書体は一様なものではなく、特に新聞・雑誌等の見出しに用いられる飾り文字は、読者の目を引き付ける、レイアウトのデザイン性を高める等の特殊な目的を持つため、既成のフォントにとらわれないさまざまな形状を形作っています。一般にこれらの飾り文字は元の書体を変形させ、飾りを加え、あるいは字体の一部を削る処理を与えたものが大半を占めます。このような飾り文字画像から、文字の本質的な構造を表わす画像を抽出する手法を検討しています。

従来の文字認識の手法では、多くの場合文字画像の黒画素の連結性に着目することにより特徴抽出を行っていますが、これら飾り文字の場合、黒画素の連結性に着目しただけではその文字の形状を表すとは限りません。このような様々な飾り文字から文字の構造を抽出する手法を開発しました。原画像に対して複数のスケール(分散)でぼかしを加えることで得られるマルチスケールの画像を用い、尾根や谷等の幾何的な特徴を抽出することで構造を抽出します。右図は、飾り文字「N」に対して、様々なスケールtでぼかしを加えた画像と、濃淡を3次元的に表した画像です。また、構造を抽出した例を下図に示します。

さらに、構造抽出後の画像から骨格を抽出し、線分の対応付けにより認識を行う手法を開発しました。右図は、標準的な「N」の文字の線分と、構造抽出後の画像から抽出された線分を表しています。それぞれの線分から、対応する線分の組を見つけ出すことで認識を行います。

関連文献

ページトップへ


情景画像の領域分割

情景画像中に何が映っているか、どのようなシーンなのか等を解析することです。環境を理解して行動するロボットの「目」には不可欠な技術ですが、まだまだコンピュータが人間のように画像を理解することはできません。本研究では、情景画像理解のための第一歩として、画像を領域ごとに分割する手法を検討しています。例えば、左下の写真は大きく空・木・草原の3つの領域から構成されています。これらの領域をコンピュータが自動的に判断し、分割することを試みます。

領域を分割するには、模様(テクスチャ)の情報が有用ですが、テクスチャをコンピュータで扱うのは簡単ではありません。特にテクスチャをどのような方法で表現するかは重要です。本研究では、ウェーブレット変換と呼ばれる変換を用いた画像処理手法により、テクスチャの情報をコンピュータで扱いやすい数値データに変換します。条件を様々に変えてウェーブレット変換を行い、それらの結果の中から領域の分割に適したものを選択することで領域分割を実現するのです。

右図は左の写真をもとに、3領域に分割したところです。空・木・草の領域に綺麗に分割できていることがわかります。

関連文献

ページトップへ