社会実装を目指し世界中で加速する自動運転開発。課題を抽出しながらAIやセンサーの性能向上を図るべく、各地で公道実証が繰り返されている。
近年、こうした実証で取得したデータを無料開放する動きが顕著に増加している。何万何十万にも及ぶ画像データなどを収集・加工する労力は膨大で、この作業が自動運転開発における1つの壁となっているが、こうしたデータセットを広く公開することで、業界全体の開発スピードを加速する狙いがある。
今回は、データセットの公開に乗り出している主な企業と実際に公開されている各企業のデータセットについて紹介していく。
記事の目次
■Waymo:Waymo Open Dataset
自動運転分野で先頭を走る米グーグル系ウェイモは2019年8月、自動運転技術の進歩を目的に「Waymo Open Dataset」を研究者向けに無料開放した。
▼Open Dataset – Waymo
https://waymo.com/open/
データセットは。LiDAR5基、カメラ5台を備えた同社の自動運転車がさまざまな条件で収集した高解像度センサーデータで構成されており、1200セグメントのLiDARデータ用ラベルや1000セグメントのカメラデータ用ラベル、車両、歩行者、自転車、標識の4つのオブジェクトクラスのラベルなどが収められている。
2020年3月から5月に渡り、データセットを用いて課題を解決するチャレンジコンテストも開催した。
LiDAR範囲画像と関連するカメラ画像を指定してシーン内のオブジェクトの3D直立ボックスのセットを生成する「3D検出チャレンジ」と、一連のカメラ画像を指定してシーン内のオブジェクトの一連の2Dボックスを生成する「2Dチャレンジ」など5部門で、世界中から100を超える応募があったという。
【参考】については「グーグル系ウェイモ、自動運転走行のデータセットを開放」も参照。
■Lyft:PERCEPTION DATASETやPREDICTION DATASET
米配車サービス大手のLyftは2017年に自動運転開発部門「Level5」を立ち上げ、LiDAR3基、カメラ7台を備えた自動運転車両で公道実証やパイロットプログラムなどを進めてきた。
自動運転技術の早期確立に向け、収集したセンサーデータをセットにした「PERCEPTION DATASET(知覚データセット)」を2019年7月に無料公開した。ラベル付けされた5万5000を超える3D注釈付きフレームをはじめ、車線や横断歩道を含むHDセマンティック空間マップなどが含まれている。
▼Data – Lyft
https://self-driving.lyft.com/level5/data/
より多くの研究者に活用してもらい、3Dオブジェクト検出の最先端技術を進歩させるため、同年9月から11月にかけてこのデータセットを使用した技術コンペも開催した。
2020年6月には、新たなデータセット「PREDICTION DATASET(予測データセット)」を公開した。計23台の車両による2万5000キロ超、1000時間を超える走行によって取得した17万フレームのデータが収められているという。
■Scale AI:PandaSet
米スタートアップのScale AIは、AI開発促進に向け機械学習の進化・効率化に力点を置いた事業を展開しており、ラベリングされた各種データセットを提供しているようだ。
2020年5月には、LiDARなどのセンサー製造を手掛けるHesai Technologyと手を組み、オープンデータセット「PandaSet」を公開した。
▼PandaSet Open Datasets – Scale
https://scale.com/open-datasets/pandaset
アカデミック・商用の両方で利用できるオープンソースデータセットで、メカニカルLiDAR1基、ソリッドステートLiDAR1基、カメラ6台を使用して収集した4万8000枚の画像を備え、直方体とセグメンテーションアノテーション(スケール3Dセンサーフュージョンセグメンテーション)の組み合わせでアノテーションが行われている。
サンフランシスコ、パロアルトからサンマテオの2つのルートにおいて、密集した交通や歩行者、朝、夕暮れ・夜など、さまざまな運転シナリオを収めているという。また、28のオブジェクトクラス用の3Dバウンディングボックスとアクティビティ、可視性、場所、ポーズに関連するクラス属性の豊富なセットや、車の排気ガスや植生、運転可能な面など、37のセマンティックラベルを持つポイントクラウドセグメンテーションも含んでいる。
■米トヨタ×MIT:DriveSeg
トヨタの米国法人Toyota Motor Sales USAとマサチューセッツ工科大学(MIT)は2020年6月、自動運転の研究を加速する革新的なビジュアルオープンデータ「DriveSeg」をリリースした。
▼MIT DriveSeg Dataset for Dynamic Driving Scene Segmentation – MIT AgeLab
https://agelab.mit.edu/driveseg
MITのエイジラボとトヨタの先進安全技術研究センター(CSRC)の研究者らによる取り組みの一環で、データセットを共有することで、研究者や業界が次世代の運転支援や安全技術を可能にするAIモデリングに向けた新しい洞察と方向性を開発することを奨励し、研究加速を図るとしている。
従来のデータは画像ベースで構成されているが、DriveSegでは、一般的な道路オブジェクトの多くを連続したビデオ走行シーンのレンズを通してより正確なピクセルレベルで表現しているという。言わばビデオベースだ。
データは2パターンあり、DriveSeg(手動)はマサチューセッツ州ケンブリッジのにぎやかな通りを昼間に走行・撮影した2分47秒(5000フレーム)の高解像度ビデオで、車両や歩行者、道路、歩道、自転車など12クラスのオブジェクトがラベリングされている。
DriveSeg(セミオート)は2万100ビデオフレーム(67~10秒のビデオクリップ)で、MITによって開発された新しい半自動アノテーションアプローチが活用されている。手動に比べ効率的かつ低コストで大まかにアノテーションされており、AIベースのラベリングシステムを通じて作成されたピクセルラベルで車両の知覚システムをトレーニングする可能性を評価するため作成したという。
■Audi:Audi Autonomous Driving Dataset(A2D2)
独自動車メーカーアウディも、データセット「Audi Autonomous Driving Dataset(A2D2)」を2020年4月に公開した。時間と労力を必要とするデータセット作製に関わる参入障壁を取り除き、研究開発を促進する狙いだ。
▼Driving Dataset – a2d2.audi
https://www.a2d2.audi/a2d2/en.html
A2D2は2Dセマンティックセグメンテーション、3Dポイントクラウド、3Dバウンディングボックス、車両バスデータで構成されている。各ピクセルに歩行者や車両などをラベリングした38カテゴリのセマンティックセグメンテーションを備えた4万1280フレームのセマンティックセグメンテーションをはじめ、セマンティックピクセル情報とLiDAR点群を融合して生成した点群のセグメンテーションを含み、このうち1万2000フレームには3Dバウンディングボックスの注釈が付けられているという。
さらに、3つの都市で記録した複数のループを持つシーケンスのラベルなしセンサーデータ(約39万フレーム)も提供している。
■【まとめ】自動運転の社会実装に向けマッピングデータビジネスが拡大
ウェイモやリフトといった自動運転サービスの展開に主軸を置いた企業をはじめ、トヨタやアウディなどの自動車メーカーにもデータ公開の波が押し寄せており、こうした動きはますます加速していく可能性が高い。今後、新進気鋭のエンジニアがデータセットを活用して技術開発力を高め、起業する動きも出てきそうだ。
また、一定規格のもと、ローカルエリアのデータセットを生成・販売するビジネスも本格化する可能性がある。自動運転技術の導入は高速道路などの主要幹線のほか、一定のエリアごとに導入が進んでいく運びとなっているが、導入が見込まれるエリアのマッピングを先行実施してデータ化することで、自動運転移動サービスの展開を進める企業の需要に応えることができるためだ。
ハードとなる自動運転車両の開発とともに、今後はこうしたマッピングデータビジネスが拡大していくのだ。
>>【特別対談】「大容量×信頼性」、車載業界屈指の半導体メーカーが見据える自動運転の未来
>>特集第1回:自動運転車のデータ生成「1日767TB」説 そのワケは?
>>特集第2回:桜前線も計測!"データ収集装置"としての自動運転車の有望性
>>特集第3回:自動運転車の最先端ストレージに求められる8つの性能
>>特集第4回:【対談】自動運転実現の鍵は「車載ストレージ」の進化にあり!
>>特集第6回:自動運転の安全安心の鍵は「乗員のリアルタイムデータ」にあり
>>特集第7回:【対談】車載ストレージ、タクシーのデータビジネス下支え!
>>特集第8回:自動運転、車載機器の最重要5パーツをピックアップ!
>>特集第9回:AI自動運転用地図データ、どこまで作製は進んでいる?
>>特集第11回:改ざん阻止!自動運転業界がブロックチェーン導入を歓迎すべき理由
>>特集第12回:自動運転時代はクラウドサービス企業の成長期
>>特集第15回:日本、自動運転レベル4はいつから?ODD拡大ではデータの網羅性も鍵
>>特集第16回:日本、自動運転タクシーはいつ実現?リアルタイムデータ解析で安全走行
>>特集第17回:【対談】自動運転、ODM企業向け「リファレンス」の確立が鍵
>>特集第18回:パートナーとしての自動運転車 様々な「データ」を教えてくれる?
>>特集第19回:自動運転車の各活用方法とデータ解析による進化の方向性
>>特集第20回:自律航行ドローン、安全飛行のために検知すべきデータや技術は?
>>特集第21回:自動運転車、AIの「性格」も選べるように?人の運転データを学習
>>特集第22回:【対談】2020年代は「タクシー×データ」で革新が起きる!
>>自動運転白書第1弾:自動運転領域に参入している日本企業など一覧
>>特集第23回:自動運転に必須の3Dマップ、どんなデータが集積されている?
>>特集第24回:解禁されたレベル3、自動運行装置の作動データの保存ルールは?
>>自動運転白書第2弾:自動運転関連の実証実験等に参加している日本企業一覧
>>特集第25回:自動運転、企業の垣根を越えて共有させるべきデータ群は?
>>自動運転白書第3弾:自動運転業界における国内の主要人物一覧
>>特集第26回:コロナで早期実現!?自動運転宅配サービスに必要なデータは?
>>特集第27回:自動運転業界、「データセット公開」に乗り出す企業たち
>>特集第28回:自動運転と「データ通信」の実証実験、過去の事例まとめ
>>特集第29回:自動車ビッグデータの活用に取り組む「AECC」とは?
>>特集第31回:自動運転におけるデータ処理は「クラウド側」「エッジ側」の2パターン
>>特集第32回:自動車×ビッグデータ、自動運転領域を含めた活用事例まとめ
>>特集第33回:自動運転の「脳」には、車両周辺はどうデータ化されて見えている?
>>特集第34回:自動バレーパーキングの仕組みや、やり取りされるデータは?
>>特集第35回:検証用に車載用フラッシュストレージを提供!Western Digitalがキャンペーンプログラム
>>特集第36回:自動運転、「心臓部」であるストレージに信頼性・堅牢性が必要な理由は?
>>特集第37回:自動運転レベル3の「罠」、解決の鍵はドラレコにあり?
>>特集第38回:自動運転時代、ドラレコが進化!求められる性能は?
>>特集第40回:AEC-Q100とは?車載ストレージ関連知識
>>特集第41回:自動運転で使う高精度3D地図データ、その作製方法は?
>>特集第42回:ADASで必要とされるデータは?車載ストレージ選びも鍵
>>特集第43回:V2X通信でやり取りされるデータの種類は?
>>特集第45回:自動運転の実証実験で活用されるデータ通信規格「ローカル5G」とは?