DeepMindはどこへ向かうのか？そして強化学習の時代は来るのか？

はじめに

Team AI研究会では、強化学習こそがAI技術のフロンティアである、という方々が増えています。先日もゲームAIの専門家大渡さんや脳科学のポスドク小川さんなどを交えた議論が大いに盛り上がりました。

DeepLearningの実務でよくある、教師データが足りずに研究開発が進まない問題を解決し、現状擬似的にせよ自律的に学習する強化学習エージェントに期待が集まっています。

しかし、分野が新しいためビジネスでの応用事例はロボティックスやゲーム(囲碁や将棋)など極端に少ないです。

言葉を変えれば強化学習には無限のホワイトスペースが残されている、と言えるでしょう。

DeepMindの今まで

世界的に強化学習で有名なのはGoogle傘下のDeepMindでしょう。

自らが少年時代からチェスとポーカーの天才であった、

創業者Demis Hassabisの情熱が発端だったとは思いますが、

ゲームAIの長所、つまりPC上のシュミレーションが高速に無限にできる点を最大限に活かして強化学習アルゴリズムを発展させて来ました。

世界の囲碁チャンピョンを破ったAlphaGoのAIは何千万回もAlphaGo同士で戦い、

Googleのスーパーコンピュータのバックアップもあって最強となりました。

AlphaGo Movie;

https://www.alphagomovie.com/

例えばこれをロボティクス分野でやろうと思えば、実機を何千万回も動かすのに途方もない時間とお金がかかってしまいます。(つまりロボティクスで強化学習を使用するときも、適宜PC上のシュミレーションを入れていった方が実験コストは下がると思います)

将棋の天才藤井四段も、最強将棋AIポナンザを相手に対局の練習をするそうです。

ポナンザも同様にAI同士の対戦で強くなっているので、人間には考えつかない手を打ち、そこを藤井四段は研究し、実践に取り入れようとしています。

DeepMindの今

囲碁に力を入れていたDeepMindですが、先日ついにAlphaGoの卒業を発表しました。代わりに新しいゲームAIの対象として取り上げているのが、StarCraft2です。

e-Sportと呼ばれるハイスペックPCと通信環境が必要なリッチで双方向対戦型のリアルタイムゲームであり、1 vs 1 が基本であった囲碁に比べると複雑性が大幅に増しています。ゲーム理論の基本で出て来ると思いますが、1 vs 1 と n vs n は根本的に異なる世界です。(例：1vs1ポーカーとn vs nポーカー)

技術的解説はこちら；

https://www.youtube.com/watch?v=URWXG5jRB-A

この環境は囲碁よりもずっと人間社会に近いシュミレーションになります。

一見軍事に似ていますが、金融にも、エネルギーの消費にもアナロジーとして使える可能性はあると思います。同時に、n vs n のリッチなe-Sportは囲碁よりもさらに途方もないGPU計算機パワーが必要になるので、ますますGoogleの得意分野であることは間違いありません。

Team AIとして

我々の研究会としては、このブレイクスルーの可能性がある強化学習の分野の、

応用事例を率先して議論し、考えていきたいと思います。

もしもスポンサーがつけば、ビジネスユースケースに基づいたシュミレーションゲームをいくつか作り、強化学習エージェントを育てていきたいと考えています。

例えば、金融の売り買い最適化であれば、売り手n社・買い手m社の取引シミュレションゲームを作り、その内部で強化学習を育てます。これは前述のロボットの実験のように、リアル環境で強化学習を走らせることが非常にコストがかかるからです。(そもそも金融分野で初期はランダムに動く強化学習エージェントを実際に使うと事故が起きます) 我々はこういったアプローチが主流になるのではと考えています。

2000人のTeam AIコミュニティメンバーの力で研究を重ね、

強化学習のイノベーションを渋谷で起こすことを目的として当面動きたいと思います。

おわりに

強化学習を本格的に研究しているのは、

DeepMind、Open AI、Prefered Networks、Herozなどの限られたプレーヤーです。