日立、数百万件の画像データから1秒以内で類似画像・映像を検索する技術
「類似画像検索技術」は、「見た目が似ている」画像を検索する技術で、色の分布や形状など画像自体が持つ情報を自動的に抽出し、高次元の数値情報として表現した「画像特徴量」に基づいて画像間の類似性の評価を行うもの。すでに実用化されているが、検索時の処理量が大きいために大規模なデータを扱うことは難しかった。
今回、日立が開発したのは、画像データを保存する際に類似したデータ同士をまとめる「クラスタリング処理」と、画像特徴量のデータをHDDに保存する際の記録場所の最適化を行うことで、高速でメモリ消費量を抑えた検索が行える技術。
これにより、PCを用いて数百万件規模の画像データの中から類似した画像を検索する場合、1秒以内での高速検索を実現した。また、新技術を使って、1万時間分の映像の中から、好きな芸能人が出ているシーンを瞬時に検索する、といったアプリケーションが実現できるという。
同技術では、画像データ登録を行う際に、「クラスタリング処理」によって類似した画像の特徴量データをクラスタという単位に分割しながら保存。各クラスタは、それに含まれる画像特徴量データの平均値で表され、この値がメモリ上に書き込まれる。検索では、まずクラスタに対する類似検索を行い、入力画像と類似した平均値を持つクラスタを複数個取得し、次に選定されたクラスタ中の画像について類似検索を実行する。このように効率的な検索を行うことで、大規模なデータも高速に検索できるとともに、クラスタの代表特徴量のみをメモリ上に書き込むため、省メモリ化も図れる。
また、HDD上に保存されている画像特徴量の読み出しを高速化する必要から、画像特徴量の記録をクラスタ単位で行うことで、同一クラスタ内のデータの画像特徴量がHDD上で連続的に配置されるようにした。クラスタの配置についても、類似したクラスタがHDD上で近接して配置されように最適化処理を行うなど、検索におけるHDD上での読み出し位置の移動がなるべく小さくなるように工夫した。
日立製作所=http://www.hitachi.co.jp/
■関連記事
日立、フルHDで記録が可能な8cmBD/DVDドライブと専用回路を開発