画像認識技術について(2)AI 、機械学習、ディープラーニング

こんにちは、河本です。前回の続きで画像認識技術の続編のAI 、機械学習、ディープラーニングについて書いて行こうと思います。

  1. 画像認識技術とは
  2. AI 、機械学習、ディープラーニング
  3. 画像認識・ディープラーニングのフレームワーク
  4. 弊社の応用実績
  5. OCRとの違い

 

2. AI 、機械学習、ディープラーニング

私も以前混同していましたし、一般的にもよく誤解があるようですがディープラーニング(Deep Learning、深層学習)とAI(人工知能)は等しくないです。

ディープラーニングはAIにおける要素技術の一つとして説明されているそうです。大まかにいうと「人工知能>機械学習>Deep Learning」という構造になっています。

 

AI(人工知能)

 まずはAI(人工知能)ですが、私がはじめに耳にしたのが、『ドラゴンクエストIV 導かれし者たち』というファミコン用のゲームでした。当時は、モンスターとの戦いをひたすらこなしEXPを上げていくルーティン作業がオート(AI(人工知能))で戦えるようになり、とても楽になった反面、従来の戦いの面白さが削がれてしまった虚しさもありました。記憶では当時私はその程度のこととしかAI(人工知能)を捉えていませんでした。

AI(人工知能)には1958年から、1980年からという2度ブームがありました。先のドラゴンクエストは2次ブームだったということですね。今まさに3次ブームだそうです。ちなみにその牽引役がディープラーニング(Deep Learning、深層学習)です。

さてでは、AI(人工知能)とは、一般社団法人 人工知能学会設立趣意書からの抜粋すると、「大量の知識データに対して、高度な推論を的確に行うことを目指したもの 」だそうです。

AI(人工知能)は、大まかに2つに分類することができます。

一つはアルファ碁に代表されるような、囲碁という特定な分野に特化したAI(人工知能)で、もう一つは、その逆で特定な範囲に特化せずに人間と同様な汎用性のあるAI(人工知能)だそうです。

しかし、現在普及していて巷で実用化されているものはほとんど前者の特化がたAIだそうです。後者の汎用型AI(人工知能)は、まさに鉄腕アトムの世界ですね。

実は、以前ホーチミンでONETECH ASIAタオ社長の友人は、アメリカボストンであるベトナム人エンジニア社長はサービス向けの特化型AIロボットを開発しているようで、私たちにある分野に特化したAIなら実用できると力説していました。その際にベトナムオフショア開発でも十分に世界と戦えるソリューションが開発できると感じました。

 

機械学習

次に機械学習とは、コンピューターに学習の指示を与えることです。

機械学習には学習の仕方で大きく二つに分類できます。教師あり学習と教師なし学習です。

教師あり学習は、正しいデータを機械に学習させる方法で、データを入力すると、出力として数値を返す方法(回帰)と、データを入力すると、出力としてデータの属性や種類を返す方法(分類、ラベリング)があります。

教師なし学習は、正解を必要とせず、膨大なデータから自動的に算出した特徴量から構造や傾向、法則などを導くことで機械に学習させる方法です。データを入力するとそのデータのグルーピング結果を返す方法(クラスタリング)と自ら試行錯誤して最適な行動を見つける学習(強化学習)で、直近の目標を達成し、報酬を与えることで強化しながら上達させていく方法があります。

ここまで整理すると先の「人工知能>機械学習>Deep Learning」の意味がわかってきました。

 

 

ディープラーニング(Deep Learning、深層学習)

最後にディープラーニング(Deep Learning、深層学習)ですが、人間や動物の脳神経回路をモデルとしたアルゴリズムを多層構造化した多層のニューラルネットワーク(ディープニューラルネットワーク、deep neural network)による機械学習手法です。
簡単にいうと十分なデータ量(俗にいうビッグデータ、Big data)があれば機械が勝手に学習してくれるというような意味です。データの量が多ければ多いほど学習の精度は上がるのが特徴であります。

また近年の音声、画像、自然言語の分野でのディープラーニングの普及の要因として、以下のような背景があるようです。

多層ニューラルネットワークの学習の研究
学習に必要な計算機の能力向上
Webの発達による訓練データ調達の容易化

上記によって第3次AI(人工知能)ブームが起きました。それはディープラニングの普及です。

さらにディープラーニング(Deep Learning、深層学習)には3つのアルゴリズムがあるそうです。
一つ目が、人間の脳神経回路をモデルとしたアルゴリズムを多層構造化したディープニュートラルネットワーク(Deep Neural Network)。二つ目が、画像認識に利用される局所的な情報の抽象化及び位置普遍性をもたせた順伝播型ニューラルネットワークを利用したアルゴリズムである畳み込みニューラルネットワーク(Convolutional Neural Network)。3つ目が、音声、動画データのような可変長のデータを扱えるようにするために中間層に再帰的な構造をもたせた双方向に信号が伝播するニューラルネットワークを利用したアルゴリズムである再帰型ニューラルネットワーク(Recurrent Neural Network)。目的に応じてこれらのアルゴリズムを選択していくことが重要です。ONETECH ASIAではベトナムオフショア開発で、まず上記の中で畳み込みニューラルネットワーク(Convolutional Neural Network)を利用した画像認識技術を研究しています。画像認識技術は、上記のような技術がコモディティ化され、もう一方で弊社が力を入れているAR・MR分野でも必ず画像認識技術と組み合わせで実用、応用技術が普及すると考えています。その次には音声認識技術、自然言語処理なども組み合わせで提案していきたいと思います。

次回は、画像認識・ディープラーニングのフレームワークについて書こうと思います。

VR/AR/MR

画像認識技術に関するお問い合わせはこちら

https://onetech.jp/service/vr