画像認識とは?特徴的な手法4つ紹介!セマンティックセグメンテーションの具体例3つ紹介

画像認識とは?特徴的な手法4つ紹介!セマンティックセグメンテーションの具体例3つ紹介 プログラミング
困ったさん
困ったさん
最近は画像認識で物体を検知できるようになってるけど、そもそも画像認識ってなんなの?想像ができないよ

こんな疑問を解決します。

この記事を書いてる人

FUMIPEN blogを運営
本記事の内容

  • 画像認識とは
  • 画像認識の手法の種類
  • インフラ分野でのセマンティックセグメンテーションの具体例

本記事では「画像認識の概要とその手法」について解説

この記事を読むことで、画像認識の定義やその手法の種類についてわかります。

結論から話すと、

結論

  • 画像認識とは画像に移る内容を理解すること
  • 画像認識は主に(物体認識・シーン認識・画像キャプション作成・動画像認識)の四つ
  • 護岸のひび割れ、コンクリートの変状検出、道路の舗装のひび割れ検出などインフラ分野で多岐にわたってソフトが開発されている
  • 今後教師画像の確保する仕組みを改善することによって、よりインフラ分野でAIは活躍する

画像認識とは

画像認識とは画像に写る内容を理解することです。

簡潔にいうと、この一言でまとめられます。

画像認識の難しさ

しかし単に画像認識と言っても、人間が理解する画像認識には前提条件が含まれており、それをコンピュータに与えることは至難の技です。

前提条件??何それ?
困ったさん
困ったさん

例えば、

画像認識
ふみペン
ふみペン
機械はマリーナベイサンズを知らないから、建物と認識するしかない

このように画像の見た目と意味の乖離のことをセマンティックギャップと言います。

この前提を知った上で、画像認識の分類をこれから説明していきます。

画像認識の主な分類

画像分類 

画像分類は主に4つに分けられます。今回は物体認識をメインで話すので、簡単に概要だけ紹介します。

物体認識

入力画像に移る物体が何かを認識し、ラベルをつけることを言います。

ふみペン
ふみペン
これは猫!とかこれは犬!みたいな感じ

シーン認識

入力画像には複数の物体が表示されており、その画像がなんらかの状況を表現したものと捉えること。

ふみペン
ふみペン
ここは海!ここは山!とかね!

画像キャプション作成

画像が写ってるものを判断するだけなら画像認識でも十分だと思います。

ただ、画像に「人」と「猫」がいて「噛んだ」という出力を得た場合に人が猫を噛んだのか、猫が人を噛んだのかはわかりません。

物体間の認識を得ようとすることを画像キャプション作成と言います。

動画像認識

「歩く」、「走る」の動作は静止画像のみではわかりません。それを時系列的な画像を元にしてクラス分類する方法を動画像認識と言います。

ふみペン
ふみペン
概念だけさらっと説明したよ!!

と簡単に4つの画像認識の種類を説明したところで現在私が行っているセマンティックセグメンテーションについて深掘りしていきます。

物体認識(インスタンス認識とクラス認識)

インスタンス認識 クラス認識

上図の通りですが、インスタンス認識とは写真を見て、その写真の詳細な情報を探し出して回答します。

またクラス認識では計算機に犬というクラスを認識させれば、それを学習して犬というクラスを出力します。

物体認識(物体検出)

先ほどの画像を見て、その画像に写っているものをクラス分類したり、インスタンスを予測しました。

物体検出は画像に写っている領域まで推定することを言います。

また物体検出も二つに分かれており、一つはセマンティックセグメンテーションでもう一つはインスタンスセグメンテーションと言われます。

セマンティックセグメンテーションとは物体と背景を境界まで分離する手法を言います。

インスタンスセグメンテーションは物体を隣接した境界でも一つづつ切り分けて認識することを言います。

え??おんなじじゃない?
困ったさん
困ったさん

例えばこんな写真だったとしましょう。

画像分類・物体検出・セグメンテーションの比較

(引用:画像分類・物体検出・セグメンテーションの比較

セマンティックセグメンテーションは犬の輪郭を捉えただけになっています。

例えば、以下の画像を見てみましょう。

お勧め商品

これを見たときに

ふみペン
ふみペン
コーヒー、電子機器というふうに分けることだね!

対してインスタントセグメンテーションは犬の形を切り取って表示することができています。

なので、先ほどの写真を見たときに

ふみペン
ふみペン
タリーズのコーヒー、ipad、macbookproのようにクラスをさらに細分化するんだね!

土木分野でのセマンティックセグメンテーションの具体例

インフラストラクチャー
クラス分けを行うことが具体的に何に役立つの??
困ったさん
困ったさん

という意見も言われると思います。

ふみペン
ふみペン
これまで概念だねだったから抽象的だったかもしれないね。それでは私の土木という分野でどのように役に立っているのかを説明するね!

その前にAIをインフラ業界で利用する目的を話しておこうと思います。

AIインフラ分野 活用
ふみペン
ふみペン
こうやってAIだ!AIだ!って騒ぎ出したのも、人手不足と高齢化社会における労働従事者の低下が原因なんだよね。

あとは、私の予想ですが、土木分野のを敬遠する理由として大きい「泥臭い仕事」というイメージを払拭するためだったとも予想しています。

それでは目的がわかったところで、どんな場所にAI、今回はセマンティックセグメンテーションが利用されているのか説明します。

河川護岸の劣化(ひび割れ)検出

GoganGo河川管理画面イメージ

深層学習によるコンクリート護岸劣化領域検出システムの開発

こちらは八千代エンジニアリングの河川護岸の劣化検出のソフトになります。

教師学習として、護岸のひび割れの写真を読むこませることによって、ひび割れとはどんなものかをAIに学習してもらい実際に写真からひび割れを判断することになります。

ふみペン
ふみペン
これまでは長大な河川の護岸を目視確認でひび割れを検出するようにしてたから驚きだよね笑

コンクリート構造物の変状検出

(引用:AIによる変状検出ソリューション「ディープシグマ CRACK」

こちらはSIGMAXYZ社が開発しているAIによる変状検出ソフトの一つである「ディープシグマCRACK」です。

ふみペン
ふみペン
コンクリートの変状を今までは目視確認で行っていたのをAIに判断させようとしているソフトだね!

道路舗装ひび割れ検出

道路舗装ひび割れ解析

(引用:道路舗装ひび割れ解析サービス

こちらは東芝が開発した道路をひび割れを解析して自動検出するサービスです。

これからまでは道路の舗装を目視確認で行っていた点検を、AIに代替えして労働力の低下を防ごうとした手法です。

今後のAIの展望

AI 展望
こうやって簡単にAIが色々画像で精度を確保できるなら労働力の低下なんて問題にならなくない??
困ったさん
困ったさん

そうともいかないのがAIなんです。

元々、正確なモデルを作成するためには必要となるのは、良きモデル(数式や構造)の他に大事なものがあります。

それが、「教師学習に使用する画像」です。

ふみペン
ふみペン
私もインフラ分野で働いていますが、とにかくデータ管理がバラバラで探すのにも一苦労です。。。

また私自身もAIによる画像解析を学習している最中です。

研究したくてもデータがないからできないことが多いにしてあります。

それには色々社会的にオープンにしてはいけないデータも含まれることもあるためだとは思います。

ただ、今後AIによる労働人口の低下に対応していくためには、早急にデータを一元的に管理するプラットフォームを開発する必要があると考えています。

私自身も今後研究を行うためにも、まずはしっかりAIがどのような問題を解決できて、どこから人間の手が必要になるのかを明確に判断します。

そして今後のインフラ分野にどのようにAIが役立っていけるのかを、しっかりと業界の動向を分析しながら進んでいきたいと思います。

業界におけるAIの活用を知りたい方はこちらの本をみてもいいかもしれませんね。

AIのインフラ分野への応用

 

最後までご覧いただきありがとございました。セマンティックセグメンテーションについての研究については手書き文字認識でCNNを用いて実装してみたをご覧ください。