ケンブリッジ大学Wayve、強化学習でAI自動運転車が20分で走行技能習得

人間の努力無意味に?



AI(人工知能)の研究開発を進める英ケンブリッジ大学の研究チームが創設したスタートアップ企業「Wayve(ウェイブ)」が、AIの深層強化学習を活用し、20分足らずで自動運転車に車線を守って走行するよう学習させる取り組みに成功した。


深層強化学習は、大量のデータをもとにAIが判断基準や注意点などを自ら学んでいく深層学習と、与えられた環境の中でAIが判断しなければならない数々の選択において、各選択結果に付与されたリワード(報酬)を最大化する行動を試行錯誤しながら学習する強化学習を組み合わせたものだ。

自動運転を例にすると、車線の白線を検知した際、はみださないような行動を選択した場合はプラス1点、はみ出した場合はマイナス1点といった具合に報酬を積み重ねていき、最終的に報酬を最大化する行動をとるように学ぶ。ウェイブはこの深層強化学習を活用し、単眼カメラを搭載した自動運転車で車線を検知しながら探査、最適化、評価の3つのプロセスを繰り返す走行実験を行った。

自動運転車が道路を走行中、ドライバーがハンドルで走路を補正したりブレーキを踏んだりしたときはマイナスの報酬を与え、上手に道に沿って走ったらプラスの報酬を与える仕組みで実験を続けた結果、わずか20分足らずの走行でAIは車線を守って走行することを学んだという。


強化学習は、走行しながら刻々と変化する状況を検知し判断しなければならない自動運転の分野において有効とする専門家も多く、今後飛躍的に研究開発が進む可能性がある。

なお、ウェイブは高性能なセンサーや大量のデータなどを用いることなく効率的にAIを進化せる研究開発に取り組んでおり、今回の研究成果は同社のブログや研究論文共有プラットフォーム「arXiv」で公開されている。

【参考】詳しくはウェイブ社の公式ブログ「The first example of reinforcement learning on-board an autonomous car.」(英文)や研究論文共有プラットフォーム「arXiv」内の「Learning to Drive in a Day」も参照。



関連記事