画像認識とは？実例を交えて解説します！

こんにちは！
フォルシアのDXプラットフォーム部でエンジニアをしております太田と申します。

近年、「AI」という言葉を目にしない日はないといっても過言ではないほど、日常生活の中にもAIやAI技術を利用したサービスが浸透してきています。AIにおける分野区分として自然言語処理、音声認識、画像認識など様々な分野があり、中でも自然言語処理は既に弊社でも取り組んでいる分野です。

一方、画像認識の分野でも、コロナ禍でよく見かけた顔をかざして検温する検温器、自動運転技術、さらには画像生成AIなどこちらもよく見かける技術・製品が多いと感じるのではないでしょうか？？本ブログではこの画像認識という技術について掘り下げたいと思います。

参考
- FORCIA CUBE「EC サイトを取り巻く自然言語処理事情」
- FORCIA CUBE「サマーインターン2023、エントリー締め切り迫る！」

画像認識とは？？

画像認識とは、入力された画像に対し何が写っているか等を人間に近いレベル感で認識することを指します。かつてはバーコードの読み取りを主目的として利用されていた技術ですが、精度が低い、処理に時間がかかる等の理由から広く応用されることはありませんでした。しかし、ディープラーニングの登場以降、研究や実用化が急速に進み今日に至ります。現在では複雑な特徴を認識可能となり、人間に近い判断精度をもってビジネスシーンでの利用も増加しています。次節では代表的な利用例を示します。

画像認識の利用例

画像認識技術で実現可能な利用例を示します。

1-1.物体認識

画像中に写っている物体を認識します。

1-2.数量計測

画像に写っている指定の物体の個数をカウントします。工事現場での資材数カウントや水槽の魚のカウントなどに用いられます。例では弊社休憩スペースに置かれているバナナの本数をカウントした例です。バナナの向きに関わらず正しくカウント出来ていることがわかります。また、例ではバナナだけですがバナナとリンゴをそれぞれ数えるといった芸当も可能です。

1-3.文字認識

画像中の文字の部分を認識し、文章化します。
2023/8/23公開の『企業の技術ブログを「みんなで」継続するための戦略』のサムネイルを日本語のみ指定して読み込ませると・・・

<出力結果>

出力結果も画像で貼ってしまっているので少々わかりづらいですが、想定通りにテキスト化出来ていますね。

画像出典
- FORCIA CUBE「企業の技術ブログを「みんなで」継続するための戦略」

また、これらの発展、応用として下記のような例があります。

2-1.特定物体検出

画像中に写る指定の物体のみを認識し、明示的に抽出します。画像内の顔や人物、道路上の車両など指定した物体の存在有無や数量の情報などを得ることが可能です。

例1）『人物』を指定

例2）『携帯電話』を指定

画像出典
- FORCIA CUBE「2013年度新卒エンジニアが振り返るフォルシアの10年～そこにはいつもフェアネスがあった～」

2-2.属性認識

画像中に写る指定の物体を認識し、加えてその物体が持つ属性情報を取得します。下記例のように人物に対して性別や年代を情報として持つといった使われ方が多い印象です。例でも同様に性別、人種を推定し、属性情報として出力しています。

画像出典
- FORCIA CUBE「2023年度新卒社員の入社３か月後の姿をのぞいてみた」

2-3.動体トラッキング

最後は動画に画像認識技術を適用した例です。動画中の動く物体をIDを維持したままトラッキングすることが可能です。例では歩行する人物がすれ違う前と後でも認識枠の左上のIDの値が入れ替わることなくトラッキング出来ていることがわかります。

最後に

これまで画像認識で出来ることの一例を解説してきました。中には出来ることの幅広さに驚かれた方もいらっしゃるのではないでしょうか？

フォルシアでは現在、画像認識技術で抽出された情報に対し、さらに判断や推論をAIで実行可能なAI画像認識システムの導入支援サービスを展開しております。弊社では例のような機能に加え、独自のアルゴリズム開発やインフラシステム構築のサポートが可能です。上記の例を自社サービスや業務改善に利用できないかと思った、既に課題があるが画像認識を用いて解決できるかがわからないなど、少しでも気になったところがある皆様はこの機会に是非お気軽にフォームよりお問い合わせください。