1
/
5

人工知能・深層学習により急成長!画像認識について学ぶ現役大学院生インターンが技術発展の背景について解説します!!

インターン生のkomajunです。
2022年6月から機械学習エンジニアとしてジザイエにインターンで参加しています。

今回は、自分が大学院で専攻している画像認識について、人工知能を用いた技術の発展の背景と、人工知能の一種である深層学習について簡単に解説していきたいと思います。

<目次>
・画像認識とは?
・画像認識が人気になった理由
・ディープニューラルネットワーク(DNN)の構造
・まとめ


Article content
こちらのアイコンでは画像認識手法を用いて自身を「人間(person)」と認識しています。

画像認識とは?

画像認識を一言で言うと、「カメラなどで撮影した映像に映った物体がどの位置にあってそれが何であるか、をコンピュータが識別すること」です。

身の回りの事例として、新型コロナウイルスが流行してからホテルやレストランで導入し始めた、「人物を検出して検温をする装置」や自動運転で衝突を防ぐため、「自動車や歩行者を検出するシステム」が挙げられます。

また、近年、人工知能の活用により画像認識で「どこにどんな物体があるか」を見つける精度が大幅に改善されて、画像認識が幅広く活用されるようになりました。

そこで、ここからは画像認識分野が発展していった背景について解説していきます。

画像認識が人気になった理由

2012年のコンピュータによる画像認識技術を競うコンテスト「ILSVRC」において、初めて人工知能技術の1つである「ディープニューラルネットワーク(DNN)」に基づくモデルである「AlexNet」が登場しました。

このILSVRCコンテストでは、画像分類と呼ばれる画像1枚に対してコンピュータが学習したデータを基に種類別に分類するタスクを行い、画像に写っている物体を正しく分類できている割合を表す「認識率」を競います。

当時、テンプレートマッチングという手法が主に用いられていました。
テンプレートマッチングとは、入力画像中からテンプレート画像(部分画像)と最も類似する箇所を探索する処理です。
テンプレート画像は、認識したい対象物をあらかじめ抽出しておいた画像のことを言います。
この手法の課題点は、画像内に存在する物体がテンプレート画像と比べて傾いていたり画像全体の明るさが変化すると認識率が大幅に低下することです。


Article content
テンプレート画像と探索のイメージ
事前に検出したい物体を切り出した画像がテンプレート。
物体を認識したい画像とテンプレートを重ね合わせることで物体が存在するかを探索する。


それに対して、新規手法となるDNNを用いたモデルは、「物体の特徴」をコンピュータが大量のデータセットを読み込んで学習することによって、テンプレートマッチングの欠点を克服することができました。

その結果、DNNを用いた画像分類のモデルであるAlexNetの認識率は「83.5%」となり、同コンテストで優勝しました。

さらに、同コンテストで2位だったテンプレートマッチングを用いた手法の認識率は「73.8%」であり、約10ポイントと大きな差をつけました。
例年では、前年の手法の認識率より1〜2ポイント改善するのがやっとだったので、大幅に認識率を改善できたDNNを用いた画像分類モデルに大きな注目が集まることになります。

DNNは、用意された「データとそれに対する正解」を組み合わせた「データセット」を読み込み、コンピュータが出した予測と正解データを答え合わせしてフィードバックを行います。

この手順を繰り返して正しい予測を導き出すことで画像に写っている物体の特徴を学習します。

このDNNを用いてコンピュータがデータセットを元に学習を行うことを「深層学習(ディープラーニング)」と呼びます。

ディープニューラルネットワーク(DNN)の構造

DNNは、人間の脳に存在する「ニューロン」と呼ばれる神経細胞のネットワークを模したモデルであるニューラルネットワークを改良したモデルとなっています。

ニューラルネットワークに構成されている中間に位置する層(隠れ層)を「深くする」ことで複雑な分類が可能になりました。
この「深くする」は複数の層を用意することを意味します。


Article content
画像の画素情報から予測を行うディープニューラルネットワークのイメージ
入力層に各画素の色情報(RGB値)を入力し、出力層から各分類の予測を確率として出力する。
最も高い値を持つ分類が予測結果となる。

入力層はデータから数値情報を読み込みます。

入力層に入力された数値は、次の層(隠れ層)で値を受け取る「ノード(点)」一つ一つに「数値」と「重み」を掛けた値を送信します。

このとき、重みは「エッジ(線)」と呼ばれる場所に格納されており、ある層のノードとその次の層のノードの繋がりの強さを表す係数になります。

このように、ニューラルネットワークは数値が保存された前の層にあるノードが次の層のノードに重み付きのエッジを通じて伝達する構造が基本形になります。

次から次へと層を進めていき、最終的に出力層にて算出された値が予測結果(確率値)となります。この予測値と正解データを比較し、その誤差を算出します。
出力層の数値と正解データの数値を比較し、その誤差がより小さくなるようにニューラルネットワークに出力層から入力層の方向にフィードバックします。

具体的に言うと、上図においてエッジに格納された重みを出力層に近い隠れ層から順番に更新していきます。

この処理を「誤差逆伝播法」と呼びます。

この処理によって、ニューラルネットワークが物体を認識するための適切なパラメータ(重み)を調節することができます。


Article content
予測誤差を基に重みを逆順に調節する誤差逆伝播法
DNNが予測した確率と正解データから誤差を算出し、出力層から入力層に向けてエッジの一つ一つの重みを更新していく。

このように、DNNは「用意されたデータセットからデータを予測して、そのデータに対応する正解と予測値を比較し、生じた誤差を小さくするために重みを更新する」という手順を繰り返すことによって学習を行います。

2015年の画像認識技術を競うコンテストのILSVRCでは、コンピュータが画像分類を行うときの認識率が初めて人間のスコアを超えました。

これは「コンピュータは画像に写っている物体が何であるかを認識する能力が人間よりも優れている」ということを表しています。

参考: https://logmi.jp/business/articles/155365

このように、2012年からDNNに基づくモデルの登場をきっかけに、画像認識における技術が著しく成長しています。

また、最近ではIoT機器によるデータ収集やビッグデータの利活用により、様々な業界で実用化が進められています。

まとめ

今回は画像認識技術が発展した背景と深層学習の仕組みについて解説しました。

この技術はすでに普段生活している身の回りに活用されており、その理由として「人間の眼を超えた」とも言える高い認識精度による新たな市場価値の創出が挙げられます。

また、ジザイエでは画像認識技術を用いたシステム開発を進めています。
「画像認識でこんなことを解決したい!」というアイデアをお持ちの方は是非ご相談ください。


お知らせ

株式会社ジザイエでは、現在一緒に働くメンバー、インターン生を募集しています!
最新のインターンの募集は株式会社ジザイエのWantedly募集ページをご覧ください。
メンバーのことや会社のことはWantedlyストーリーで公開しております。
気になった方はWantedlyの「話を聞きにいきたい」からお気軽にお問い合わせください。


画像引用:photoAC人工知能であそぶいらすとや

株式会社ジザイエ's job postings
2 Likes
2 Likes

Weekly ranking

Show other rankings
Invitation from 株式会社ジザイエ
If this story triggered your interest, have a chat with the team?