自動運転とVLAの関係性解説 E2E開発の基盤に

言語を交え認知から制御まで一体化



Turingは2026年3月、自動運転向けフィジカルAIのVLA(ビジョン・ランゲージ・アクション)モデルにおいて、国内で初めて公道におけるリアルタイム制御と走行を実現したことを発表した。


近年はエンドツーエンド(E2E)モデルが主流となりつつあるが、フィジカルAIの実現に向けVLAモデルの開発が熱を帯びているようだ。

日々進化を続けるAI開発。フィジカルAIやVLAモデルなど、新たな用語が次々と飛び出し、なかなか理解が及ばないところだ。

この記事では、VLAモデルとは何か、そして自動運転とどのように関係しているのかについて解説していく。

【参考】関連記事としては「自動運転モデル「ルールベース」「E2Eモデル」とは?」も参照。


編集部おすすめサービス<PR>
車業界への転職はパソナで!(転職エージェント)
転職後の平均年収837〜1,015万円!今すぐ無料登録を
タクシーアプリは「DiDi」(配車アプリ)
クーポン超充実!「無料」のチャンスも!
新車に定額で乗ろう!MOTA(車のカーリース)
お好きな車が月1万円台!頭金・初期費用なし!
自動車保険 スクエアbang!(一括見積もり)
「最も安い」自動車保険を選べる!見直すなら今!
編集部おすすめサービス<PR>
パソナキャリア
転職後の平均年収837〜1,015万円
タクシーアプリDiDi
クーポンが充実!「乗車無料」チャンス
MOTAカーリース
お好きな車が月々1万円台から!
スクエアbang!
「最も安い」自動車保険を提案!

■VLAモデルとは?

視覚情報と言語を統合して行動を出力

VLAは「Vision-Language-Action」の略で、視覚、言語、行動を統合的に処理するAIモデルを指す。センサーが検知した情報=Visionと、認識・判断基準などの言語化=Language、それらを物理的制御に結びつける行動=Actionを一体化したモデルだ。

自動運転で言えば、車載カメラなどのセンサーから取得した視覚情報と言語による状況理解を統合し、車両の操舵や加減速に相当する運転行動を予測・出力する。この一連のタスクを同一モデルで完結するのだ。

E2Eモデルは、センサーがリアルタイムで取得した情報をもとにAIが周囲の状況を把握し、どのように車両を制御すれば安全かを判断する。ルールベースと異なり、人間の手によって正しい制御方法を一つひとつ事前学習させることなくAI自らが試行錯誤を重ねて判断を下すため、人間が行う作業を大幅に減らしつつ、汎用性の高い自動運転システムを構築することができる。

利点は大きく、ルールベースでは事実上不可能な自動運転レベル5への道を切り拓く開発アプローチとして近年開発の主流となっている。一方、コンピュータに高い処理能力が求められる点や、AIが自動運転を実現するまでに相当の時間(学習)を要する点などが課題となる。


また、AI自らが判断基準を構築していくため、その根拠が不透明となりやすい点が指摘されている。センサー情報をもとになぜAIはその判断を下したのか?――といった理由はAIのみが知るところなのだ。言語化すらされていないため、人間が検証するのが困難となる。

言語化することでリーズニングが向上する

そこで登場するのがVLM(Vision-Language Model)だ。視覚による認識と自然言語理解を統合するモデルで、画像入力に対しテキストを出力するよう学習されている。生成AIにおいて、プロンプト(指示文)で画像生成するのと同様、言語と画像が結び付くイメージだ。

その前提として、大規模言語モデル(LLM)による文脈理解能力などが必須となる。ChatGPT やGeminiのように、LLMはすでに人間との会話が成立する水準に達しているが、このLLMを導入することで自動運転用のAIも言語を理解することが可能になる。

リアルタイムで取得する画像と言語が結び付けば、コンピュータ(AI)は人間に一歩近づくことができる。リーズニング(推論)能力が高まることで、状況認識や判断の応用力が高まるのだ。

例えば、車載センサーが道路脇でボール遊びを行う子ども二人を検知したとする。通常のE2Eにおいては「小さな人間×2」としての認識に留まりがちだが、言語化能力を持つことで状況を文脈理解することが可能になり、「ボールを手に持った子ども」「離れた場所にいる別の子どもにボールを投げるかもしれない」「ボールを追いかけて道路に飛び出してくるかもしれない」といった感じで、人間のように予測することが可能になる。

こうした能力は、例えば交通標識の補助標識に記載された文字の認識や、人間が誘導する工事現場などの複雑なシチュエーションの理解などにも貢献する。言語能力を持つことで、認識能力や説明能力が高まるのだ。

ただ単に車載センサーの画像から得られた情報をもとに本能的・野性的に認知・判断するのは限界がある。猿人や原人などをイメージするとわかりやすいかもしれない。言語能力が乏しくとも周囲の認識はできるが、細かな認識の相違点などを第三者に伝えることはできない。周囲と協調した形で判断したりコミュニケーションを図ったりするには限界が生じるのだ。

しかし、言語能力が加わることで、認知・判断に関わる推論能力が飛躍的に増す。「なぜそのような判断を下したのか?」といった問いにも応じることが可能になり、説明能力も付加される。

VLMに行動を結びつけるモデルがVLA

E2E開発のスタンダード的モデルとなったVLMだが、視覚認識と自然言語理解を統合するだけでは、実際に車両を動かすことはできない。そこで登場するのがVLAだ。

VLMでは、視覚×言語による認識と、車両をどのように動かすか……といった経路計画が分離されている。VLMはあくまで目と脳であり、手足を伴わないため、別のモデルが必要となる。

そこに手足の連動を図ったものがVLAだ。視覚・言語・行動に関する3つのモダリティを統合し、視覚入力を言語的に理解したうえで適切な行動を出力することを可能にする。認知から制御に至るまでの作業を一貫して行うことが可能になるのだ。

このAIの生成能力を物理的動作に結び付ける技術をフィジカルAIという。従来の生成AIは、言葉や画像、動画などデジタルコンテンツの生成に留まるが、フィジカルAIは実世界における物体の動作に結びつけることを可能にする。

車両を動かす自動運転をはじめ、ロボットを動かすヒューマノイドなどの実現に欠かせない技術となるが、その根幹をなすのがVLAと言える。

自動運転開発においてE2Eがスタンダード化し始めているが、猿人的技術を人間的技術に進化させるのがVLMでありVLAなのだろう。

■VLA開発の動向

Turingが自動運転VLAモデル「DriveHeron」発表

国内では、Turingがいち早くVLA開発に着手している。同社は2023年に完全自動運転実現に向け国産LLM開発に着手し、言語を通じた実世界の理解・認知の高度化を図っている。

経済産業省・NEDOが推進するプロジェクト「GENIAC」の支援のもとVLM「Heron」を開発し、これを土台に将来の走行軌跡を出力する 自動運転VLAモデル「DriveHeron」 を開発した。

Heronは画像と言語を同じ枠組みで扱えるVLMで、その結果はテキストで出力される。しかし、そのままでは自動運転制御に接続できない。ここで登場するのがHeronを自動運転基盤モデルへ拡張したVLA「DriveHeron」だ。DriveHeronは走行軌跡を出力することを可能にしており、ステアリング操作などの制御入力に変換できる。

同社が運用しているE2Eモデルと同様、リアルタイム制御を前提に設計しており、モデル単体の速さだけでなく、前処理・推論・後処理・周辺連携までを含むパイプライン全体を10Hz(100ms周期)の制御ループに収めることを重視しているという。0.1秒以内に推論を収めるということだ。

▼100ms以内で動作するVLAモデルの実車適用|Turing技術ブログ
https://zenn.dev/turing_motors/articles/f5e44178d78153

NVIDIAはリーズニングベースのVLAモデルをソリューション化

NVIDIAは2026年1月、リーズニングベースのVLAモデルを活用し、自動運転車の意思決定に人間に近い思考を導入した「Alpamayoファミリー」をCES2026で発表した。

オープンモデル、シミュレーションフレームワーク、データセットの3つの基本的要素を統合し、開発者や研究チームが利用できる一貫性のあるオープンエコシステムとしてソリューション化している。映像、走行履歴、ナビゲーションなどを入力として走行軌跡を生成するリーズニングベースのVLAモデルを中核に据えつつ、データセットやシミュレータまでを含めた開発基盤を提供している。

ティアフォーがAlpamayo導入

ティアフォーもNVIDIAの動向に連動するかのように動き出している。同社は2026年3月、NVIDIAとの協業を強化し、Alpamayoを自動運転ソフトウェア「Autoware」に統合したことを発表した。

加えて、世界基盤モデルや高速データ処理を備えた「NVIDIA Cosmos」を、AI開発用のデータを共有するティアフォーの「Co-MLOpsプラットフォーム」において活用し、機能強化を図っていくとしている。

▼ティアフォー、NVIDIAのVLAモデルと世界基盤モデルを用いてAIベース型自動運転レベル4を加速|ティアフォー
https://prtimes.jp/main/html/rd/p/000000122.000040119.html

■【まとめ】VLAは次世代標準?フィジカルAIのさらなる進化へ

VLAモデルは、センサーによる視覚情報と言語化技術を統合し、その上で制御に結びつけるAI技術――ということだ。E2E開発を手掛ける各社は、こうしたモデルの構築を水面下で進めているのだろう。

最先端技術が次々とスタンダード化していく時代。VLAの活用もまもなく標準的な仕様となり、フィジカルAIはさらなる進化を遂げていくことになりそうだ。

記事監修:下山 哲平
(株式会社ストロボ代表取締役社長/自動運転ラボ発行人)

大手デジタルマーケティングエージェンシーのアイレップにて取締役CSO(Chief Solutions Officer)として、SEO・コンテンツマーケティング等の事業開発に従事。JV設立やM&Aによる新規事業開発をリードし、在任時、年商100億から700億規模への急拡大を果たす。2016年、大手企業におけるデジタルトランスフォーメーション支援すべく、株式会社ストロボを設立し、設立5年でグループ6社へと拡大。2018年5月、自動車産業×デジタルトランスフォーメーションの一手として、自動運転領域メディア「自動運転ラボ」を立ち上げ、業界最大級のメディアに成長させる。講演実績も多く、早くもあらゆる自動運転系の技術や企業の最新情報が最も集まる存在に。(登壇情報
【著書】
自動運転&MaaSビジネス参入ガイド
“未来予測”による研究開発テーマ創出の仕方(共著)




関連記事