米半導体大手のNVIDIA(エヌビディア)は2019年8月、同社の自動運転システム「NVIDIA DRIVE AV」ソフトウェアで公道を自律的に走行する方法を解説した動画をYouTubeにアップした。米カリフォルニア州サンタクララにある本社周辺で撮影された約7分半の動画では、同社の自動運転技術が凝縮されて披露されている。
今回はこの動画に関する同社の日本語ブログを参考にしながら、エヌビディアの各要素技術について解説していく。
記事の目次
- ■NVIDIAの自動運転技術の全体像
- ■WaitNet、LightNet、SignNet:交差点や信号、標識などの待機条件を検出して分類するDNN
- ■ClearSightNet DNN:カメラの視界喪失を要因を特定するDNN
- ■サラウンドカメラオブジェクト追跡ソフトウェア:すべてのカメラ画像のオブジェクトを追跡
- ■DRIVE Localization:高精細な位置情報を測定できるプラットフォーム
- ■NVIDIA DRIVE Xavier SoC
- ■距離予測システム:LiDARやレーダーのデータを活用し、1台のカメラによる予測精度を向上
- ■【まとめ】高性能GPUとAI開発力が相乗効果 半導体分野のフロントランナーに
■NVIDIAの自動運転技術の全体像
NVIDIAは、自動運転の基本的な要素となる認識、自己位置推定、プランニング・制御用ソフトウェアを構築し、高性能なコンピューティングプラットフォームに適用することで自動運転システムの実現を図っている。
認識の分野においては、WaitNet、LightNet、SignNetといったDNN(ディープニューラルネットワーク)技術が活かされている。また、物体の追跡など特定の機能には従来のコンピュータービジョン技術も使用されており、この両方を同時に使いながら、複数のカメラで周囲を認識し車両周辺の全方位をカバーしている。
自己位置特定では、DRIVE Localizationプラットフォームにより、高精細な地図情報や希望する走行経路の情報、リアルタイムな位置特定結果を取り込むことで、自動運転車は対象となる経路に応じて出発地から目的地までのレーン計画を作成することを可能にしている。
プランニング・制御用ソフトウェアでは、認識と自己位置推定の両機能から提供された入力情報を利用し、自動運転車が自らを物理的に運転できるようにしており、高性能でエネルギー効率に優れたNVIDIA DRIVE AGX プラットフォームをエンジンに採用することで、全方位の状況認識や自己位置推定、プランニング・制御ソフトウェアの同時実行を可能にしている。
■WaitNet、LightNet、SignNet:交差点や信号、標識などの待機条件を検出して分類するDNN
WaitNet DNNは、自動運転車が停止し、待機(Wait)しなければならない諸条件を検出するAI技術。カメラ画像のデータでトレーニングを実施した畳み込みDNNにより、交差点や工事現場、料金所といった待機が必要となるさまざまな状況を推測し、分類する。
このようなWaitNetによる交差点の検出や分類プロセスは、人間が視覚的に交差点を検出する仕組みと似ているという。シーン全体は、独立した個別の目印ではなく、通常とは異なる場所や位置にある一時停止標識や信号機、車線境界線など数多くの特徴によって構成されているが、人間の視覚系はこのシーン全体を認識し、交差点の有無や種類を検出しているためだ。
シーンベースの認識でAIを用いるメリットとして、拡張性が挙げられているほか、個別の特徴に過度に依存しない仕組みのため、「一時停止標識を検出できなかったため交差点全体の検出に失敗する」といった個別の特徴に関連した検出エラーのリスクを抑えることができる。
また、交差点の場所や種類を示す地図のみに依存する必要がなくなるため、地図の誤りなどに起因する脆弱性も低減させることができるという。
一方、LightNet DNNは、交通信号の形状(実線や矢印など)や状態(赤、黄、緑といった色)を分類し、SignNet DNNは交通標識の種類を識別する。これら3つのDNNが集合的に待機状態認識ソフトウェアの中核を形成し、自動運転車の停止の必要性や走行ルートの検出を行うように設計されている。
交通標識のタイプ分類を実行するため、SignNetは世界中の多種多様な交通標識の交通標識タイプを階層的に分類する畳み込みDNNとして設計されている。分類用にトレーニングされたフラットな畳み込みDNNモデルでは、すべての異なる潜在的な出力クラスを事前に定義する必要があり、フレームごとに単一の分類出力を選択する必要がある。交通標識の種類の複雑さを考慮した場合、そのようなモデルを拡張し、可能なすべてのクラスを強力な精度・リコールパフォーマンスでカバーすることは困難という。
この複雑さを管理し、パフォーマンスを最適化するため、正確な出力クラスが事前に定義されていない階層畳み込みDNNモデルを活用しており、出力結果の分析に基づいて出力クラスに結合される主要な機能を個別に検出するようトレーニングされている。反復分析により出力クラスを設計することにより、強力な分類パフォーマンスを維持しながら、多数のクラスに拡張することを可能にしている。
■ClearSightNet DNN:カメラの視界喪失を要因を特定するDNN
センサーとして使用するカメラは、雨や雪、遮蔽物などがその視界に影響を及ぼすことがある。このカメラの視界がどれほど明瞭かを評価するための学習を行い、視界の遮蔽や視界の低下の根本原因の特定を支援するDNNがClearSightNetだ。
ClearSightNetは、カメラの視界喪失に対する多種多様な潜在的原因を特定するほか、対応可能な行動につながる有益な情報の出力を行う。挙動は極めて軽く、最小限のオーバーヘッドで複数のカメラに対して実行可能という。
具体的には、ClearSightNetから入力画像に重ねることができるマスクが出力され、完全に視界の遮蔽が生じている領域は赤で、視界が低下していたり部分的に遮蔽されている領域は緑で示されるほか、入力画像内で視界の遮蔽や低下の影響を受けている割合を示す比率も出力される。
■サラウンドカメラオブジェクト追跡ソフトウェア:すべてのカメラ画像のオブジェクトを追跡
車の周囲に取り付けた6台のカメラが周囲360度を検知しており、ソフトウェアがすべてのカメラ画像オブジェクトを追跡し、画像空間内の位置を一意のID番号と衝突までの時間(TTC)の推定値に関連付けている。
制御機能の遅延を減らすには、オブジェクトの早期認識技術などが必要だが、高速運転においても突然の停止状態に適切に対応することができ、自動運転するルート上の物体や左右の車線の近くにある物体に対し、物体検出器よりも高い精度と再現値を同時に実現できる。
サラウンドオブジェクト追跡システムは、自動運転モードで2万マイル以上にわたってテストされている。さまざまな季節やルート、時刻、照明条件、高速道路、都市道路で実施しているが、オブジェクト追跡の失敗例はいまだ観測されておらず、高精度かつ堅牢なシステムとなっているようだ。
■DRIVE Localization:高精細な位置情報を測定できるプラットフォーム
自動車用のオープンでスケーラブルなプラットフォームで、マスマーケット向けのセンサーを使って高解像度マップ上で自らの位置を正確に認識することができる。
自動運転においては、自車位置をセンチメートル単位で正確に認識するとともに、周辺を把握し、道路や車線の構造を確実に認知できるようにすることが重要となる。このような地図情報により、自動運転車は車線が分離または合流していることなどを検知できるほか、走行する車線変更の計画を立てることができ、さらにマーキングが明瞭でない場合においても車線上の経路を決定することができるようになる。
DRIVE Localizationは、車両の環境内にある特徴的な目印と、リアルタイムで正確な位置を特定するHDマップの機能を照合することによって、自らの位置を正確に知ることができる。また、マスマーケット向けセンサーを活用することで、プラットフォームの費用効果が高まり、個人向け自動車での使用も可能になる。
高価なLiDARセンサーに代わり、フロントカメラや GNSS(全球測位衛星システム)レシーバー、IMU(慣性計測装置)、車両のスピードメーターといった、車両に装備されている低コストなセンサーからデータを収集する。
DRIVE Localizationのモジュールは、サードパーティー製のマップに、これらのセンサーのデータを重ね合わせ、数千の地点を並行に評価する。リアルタイムな速度でこの処理を行い、マップにある膨大な数の特徴的なポイントを1つのフレームのビジュアルデータに集約し、もっとも正確な位置と方向を見つけることができるという。
中国のBaidu(百度)やNavInfo、オランダのHEREやTomTom 、そしてゼンリンなどのHDマップ開発企業がDRIVE Localizationをサポートしている。
【参考】ダイナミックマップの開発企業については「自動運転向けの地図、世界と日本の開発企業まとめ ダイナミックマップの業界動向」も参照。
■NVIDIA DRIVE Xavier SoC
DRIVE Localizationなどの核となっているプロセッサで、ディープラーニングアクセラレータ(DLA)とCUDAを実装するなど、自動運転を想定し、演算性能に対する厳しい要件を満たすように設計されている。
NVIDIAソフトウェアプラットフォームとの組み合わせによりDNNの推論やコンピュータービジョンアルゴリズムの高性能並列処理を迅速に行うことが可能になる。
■距離予測システム:LiDARやレーダーのデータを活用し、1台のカメラによる予測精度を向上
同社は1台のカメラから得たデータで物体までの距離の検知を行っている。人間の目のように 2台のカメラを用いた立体視システムを自動運転車に搭載する場合は、カメラの連動に少しでもずれが生じると距離を正確に推定できなくなるためだ。
そこで同社は、1台のカメラで距離を正確に予測するため、レーダーとLiDARのセンサーデータをグラウンド トゥルース情報として用いたDNN技術により、物体までの距離を予測するトレーニングを行っている。レーダーとライダーから送信された信号を直接反映することで、道路のトポロジーに関わらず物体までの厳密な距離情報が得られるという。
自動運転における加減速などの縦方向と操舵による横方向の制御には、このようなDNNによる物体までの距離予測と、物体検知やカメラによる追跡技術が組み合わされて利用されている。
■【まとめ】高性能GPUとAI開発力が相乗効果 半導体分野のフロントランナーに
NVIDIAの自動運転システムにおいては、多くの部分でAIとDNN技術が活用されていることが分かった。また、多くの企業とパートナーシップ契約を結ぶうえで、高機能性はもちろんのこと、汎用性を高めた仕様を作り上げている。
もともとコンピューターのグラフィックス処理や演算処理の高速化を主目的とするGPU(グラフィックス・プロセッシング・ユニット)開発が主力であり、高いシステム処理技術を持つ同社だからこそAIやディープラーニングを多用したシステムを構築できるとも言えるだろう。
自動運転における半導体メーカーの中では頭一つ抜け出している感もあるが、まだまだ伸びしろのある分野。他社の動向含め、今後の展開に引き続き注目したい。
【参考】NVIDIAの戦略については「エヌビディア(NVIDIA)の自動運転戦略まとめ 半導体開発や提携の状況は?」も参照。