自動運転、音声データ解析の主力企業は?(深掘り!自動運転×データ 第14回)

米セレンスやBOSE、国内勢はNTTやオンキヨーも





「ハイ、メルセデス!」――対話型の音声操作に対応したAIアシスタント機能を持つスマートスピーカー機能の導入が自動車業界でも進んでいる。現在はカーナビなどとの連携が主体だが、車載インフォテインメントシステムの開発は日々進展しており、将来の自動運転時代には音声によって車両を制御することが可能になりそうだ。

便利な機能としての音声認識技術から重要技術に飛躍する可能性を秘める音声データ解析技術。今回は、アップルやグーグル、アマゾンなどスマートスピーカー製品が知れ渡っている企業を除き、同分野に取り組む企業を紹介していこう。

■「自動運転×音声データ」の重要性

ハンドルやアクセルといった手動制御装置を搭載していない自動運転車は、車載ディスプレイや同期したスマートフォンなどを用いてオーナーや乗客が車両に命令を下すことになるが、さらに技術が進めば、乗客の音声をもとに随時的確に車両を制御できるようになる。

その際、車内に反響するさまざまな音の中から、従うべき音声のみを正確に識別しなければならない。そのうえで音声データを正確にテキスト化し、名詞や動詞などを判別して処理する必要があるが、その際他のノイズの影響を省きながらさまざまな言語やなまりなどに柔軟に対応する必要も生じる。人間との会話という無制限の音声データを解析するAI技術がベースとなるのだ。

また、実際の動作を伴う自動運転においては、音声データをもとにコンピュータ内で処理する制御以外に各種センサーなどと連動した機能も求められることになる。

Siriなどは、ユーザーの要望に対しコンピュータ内で完結する制御のみを行うが、例えば自動運転ロボットに「こたつの上のミカンをとって」と要望した場合、ロボットはまず「こたつ」と「ミカン」という存在を認識しなくてはならない。

つまり、自動運転における「脳」の機能だけでなく「目」の機能なども連動し、情報を解析したうえで制御しなくてはならないのだ。「ラーメン店に行きたい」といった要望であれば、データベースの中から近隣の店を検索して提案してガイドすることができるが、「大通りを右折して」といったあいまいな要望の場合、大通りがどの道路を指すかを判断する必要がある。

極端な例だが、「5本目の電柱を過ぎたら左折して」といった場合、高精度地図などのデータベースに電柱に関わる情報がない場合、まず電柱が何なのかを認識する必要が生じるのだ。

■車外マイクで拾うべき音声は?

車外からの音としては、警察車両や救急車両などのサイレンや他車のクラクションなど、従来の自動車においても聞き分ける必要のある音を的確に判断することが第一に求められる。

また、周辺の歩行者らの声も一定程度認識できると、自動運転の安全性をいっそう高めることができる。子どもの急な飛び出しなどに遭遇した場合、周囲の「危ない!」などの声をもとに緊急停止したり、徐行したりする挙動をとれるからだ。

また、自動運転バスやタクシーなどにおいては、乗車を希望する車外の人の声も認識できた方が良いだろう。

■車内マイクで拾うべき音声は?

車内では、乗客の要望を正確にくみ取ることが第一となる。乗客が複数いる場合、要望を聞くべき対象者を限定したり、乗客同士の会話やオーディオで流れる音楽などと車両への要望・命令をしっかりと聞き分ける音声認識技術が求められる。

なお、外国では以前、スマートスピーカーがテレビから流れる音声をもとに商品を誤発注するという事件が起きたそうだ。自動運転車の場合、流れる音楽の中から「地平線まで駆け抜けろ」「海にダイブ」「ブレーキランプ5回点滅」「ドーナツカステラ柿の種」などのフレーズを要望として受けてしまうと大変なことになりかねない。

自動運転車に対する乗客の要望をしっかりと判別・抽出する技術は必要不可欠だ。

【参考】音声認識システムについては「もし自動運転のAI脳が「まって」を「まがって」と誤認識したら?」も参照。

■「自動車×音声データ」に取り組む企業
ニュアンス&セレンス(アメリカ):オートモーティブ部門分社で自動運転分野に注力

AI音声認識技術の開発などを手掛ける米ニュアンス・コミュニケーションズは、オートモーティブ部門において音声認識・合成や自然言語理解、音声信号処理などをはじめ、AIを応用したオートモーティブ・アシスタントや会話型・認知型AIソリューションなど幅広い事業を展開しており、多くの自動車メーカーに採用されている。「ハイ、メルセデス」でおなじみのダイムラーの「MBUX」も同社が共同開発したものだ。

2019年8月には自動車部門のスピンオフ(分社化)を発表し、新会社「Cerence(セレンス)」を立ち上げた。セレンスはCES2020で音声AIにより「車両」と「乗客」の対話を可能とする自動運転EVバス「e.GO Mover」を展示するなど、プロモーション活動に力を入れている。

e.GO Moverでは、セレンスの音声技術とサンゴバン・セキュリット社の透明スクリーン技術を組み合わせ、バスの外にいる乗客が音声認識やガラス面を介して車両と情報のやり取りできるシステムや、乗客の言語を自動で判別するシステムなどが搭載されているという。

BOSE(アメリカ):音響技術を武器に自動運転見据えた開発強化

音響機器開発大手の米BOSE(ボーズ)は、音楽などエンターテインメント分野以外の開発も進めており、独自の信号処理技術によって車内のさまざまな音を聞き分ける音声認識技術などを開発している。

カーオーディオの音乗員の話し声、カーナビのガイダンス、これらの反響音をキャンセルしながら会話の音声だけを際立たせる技術で、オーディオが鳴り響く車内におけるハンズフリー通話などに効果があるようだ。

また、車両の警告音を適切な方向から発信してドライバーの認識を向上させる「Bose Aware Signal Steering」技術も発表されている。音声認識技術ではないが、後方から車両が急接近した際に後方から音を鳴らすといった技術で、車両のセンサーと連動したADAS的な位置付けとなり、同社の自動運転を意識した開発姿勢がうかがえる。

NTTグループ(日本):トヨタYUIプロジェクトで音声認識技術を披露

通信事業を主体とするNTTグループも音声認識技術の開発に熱心だ。NTTは、複数のマイク素子と音響信号処理により指定した方向の音声をクリアに収音可能な「インテリジェントマイク」をはじめ、音声認識や音声合成技術を開発している。

これらの技術とNTTドコモが開発した「行動先読み」技術は、トヨタが2020年夏ごろに実施するコンセプトカー「LQ」の試乗会「トヨタYUIプロジェクトTOURS 2020」の車載AIエージェントに活用される。

会話を中心とした「YUI」とのコミュニケーションに音声認識や音声合成技術が使用される予定で、自動車内における背景音を抑えながら乗員の音声だけを抜き出し、深層学習を活用したDNN(Deep Neural Network)技術を駆使し、高い音声認識率や人の声に遜色ない合成音声を提供するという。

【参考】NTTグループの取り組みについては「NTTのAI技術、トヨタの自動運転車「LQ」の車載エージェントに」も参照。

オンキヨー(日本):中国EVにAI音声技術で提携

オーディオ機器大手のオンキヨーは2019年6月、中国の新興スマートEVブランド「奇点汽車」に車載AI向け音声の取得技術で技術提携すると発表した。

スマートスピーカーで培ったAI向け音声の取得技術を、車載AIの音声取得に活用することで車内での音声認識の実現に向けた技術提供と開発サポートを行うとしている。

2018年には、独自開発の AI「Onkyo AI」を搭載したクルマ向けのスマートスピーカー「AI スマートオートモーティブ」を開発し、音とAIの融合による付加価値を提案している。自動運転分野でも同社の音声認識技術に注目したい。

アイシン精機×名古屋大学×徳島大学(日本):音声やジェスチャーで操作可能な自動運転車開発

産学の取り組みも盛んなようで、アイシン精機、名古屋大学、徳島大学の3者は2018年10月、音声・視線・ジェスチャーを用いて操作する自動運転車の開発を発表した。

音声認識、顔画像認識、ジェスチャー認識を組み合わせ、一般ユーザーでも自動運転車を操作できるマルチモーダルインタフェースとして開発されており、例えば指をさしながら「あそこで曲がって」と指示すれば、車両はドライバーの意図する通りに制御されるという。

デンソーアイティーラボラトリ×慶応大学×お茶の水女子大学(日本):対話インターフェースを研究開発

デンソーのグループ企業・デンソーアイティーラボラトリも、慶応大学とお茶の水女子大学と共同で音声対話によって自動運転車に運転指示を与えて操作する研究を行っている。

車両やロボットと単にコミュニケーションを図るだけでなく、実空間の中でロボットなどが物を動かしたり操作したりする対話インターフェースの研究開発を進めているようだ。

■【まとめ】音声認識技術は自動運転の「耳」

自動運転とは縁遠く思われがちな音響機器メーカーなども次世代自動車業界を見据えた音声認識技術の開発を進めているほか、通信事業者なども力を入れているようだ。応用範囲が非常に幅広い技術のため、今後も新規参入や自動車メーカー、サプライヤーとの共同開発といった話題が次々と飛び出しそうだ。

自動運転技術により車両を直接制御する人間の運転動作が必要なくなるが、音声技術はさらに自動運転システムに要望や命令を下す動作も省くことができる。

またこの特集の第13回「自動運転、画像データ解析の主力企業は?」でも触れたが、画像や音声をリアルタイムに解析するためには、抽出したデータを一時保存する車載ストレージの重要性も忘れてはならない。こうしたストレージの故障は音声データの解析に重大な支障をもたらすため、高い堅牢性が求められる。

AIを「脳」、センサーを「目」に例えることが多いが、音声認識技術は自動運転システムの「耳」となる技術だ。人間の役割をシステムが担う自動運転において、五感の一つを担う技術はそれだけ重要なものとなる。

>>特集目次

>>【特別対談】「大容量×信頼性」、車載業界屈指の半導体メーカーが見据える自動運転の未来

>>特集第1回:自動運転車のデータ生成「1日767TB」説 そのワケは?

>>特集第2回:桜前線も計測!”データ収集装置”としての自動運転車の有望性

>>特集第3回:自動運転車の最先端ストレージに求められる8つの性能

>>特集第4回:【対談】自動運転実現の鍵は「車載ストレージ」の進化にあり!

>>特集第5回:自動運転車と「情報銀行」の意外な関係性

>>特集第6回:自動運転の安全安心の鍵は「乗員のリアルタイムデータ」にあり

>>特集第7回:【対談】車載ストレージ、タクシーのデータビジネス下支え!

>>特集第8回:自動運転、車載機器の最重要5パーツをピックアップ!

>>特集第9回:AI自動運転用地図データ、どこまで作製は進んでいる?

>>特集第10回:自動運転車、ハッカーからどう守る?

>>特集第11回:改ざん阻止!自動運転業界がブロックチェーン導入を歓迎すべき理由

>>特集第12回:自動運転時代はクラウドサービス企業の成長期

>>特集第13回:自動運転、画像データ解析の主力企業は?

>>特集第14回:自動運転、音声データ解析の主力企業は?

>>特集第15回:日本、自動運転レベル4はいつから?ODD拡大ではデータの網羅性も鍵

>>特集第16回:日本、自動運転タクシーはいつ実現?リアルタイムデータ解析で安全走行

関連記事