自動運転ラボ＞ Tech

自動運転、音声データ解析の主力企業は？（深掘り！自動運転×データ第14回）

米セレンスやBOSE、国内勢はNTTやオンキヨーも

Sponsored by ウエスタンデジタル

- 2020年02月10日 07:23

「ハイ、メルセデス！」――対話型の音声操作に対応したAIアシスタント機能を持つスマートスピーカー機能の導入が自動車業界でも進んでいる。現在はカーナビなどとの連携が主体だが、車載インフォテインメントシステムの開発は日々進展しており、将来の自動運転時代には音声によって車両を制御することが可能になりそうだ。

便利な機能としての音声認識技術から重要技術に飛躍する可能性を秘める音声データ解析技術。今回は、アップルやグーグル、アマゾンなどスマートスピーカー製品が知れ渡っている企業を除き、同分野に取り組む企業を紹介していこう。

記事の目次

■「自動運転×音声データ」の重要性
■車外マイクで拾うべき音声は？
■車内マイクで拾うべき音声は？
■「自動車×音声データ」に取り組む企業
■【まとめ】音声認識技術は自動運転の「耳」

■「自動運転×音声データ」の重要性

ハンドルやアクセルといった手動制御装置を搭載していない自動運転車は、車載ディスプレイや同期したスマートフォンなどを用いてオーナーや乗客が車両に命令を下すことになるが、さらに技術が進めば、乗客の音声をもとに随時的確に車両を制御できるようになる。

その際、車内に反響するさまざまな音の中から、従うべき音声のみを正確に識別しなければならない。そのうえで音声データを正確にテキスト化し、名詞や動詞などを判別して処理する必要があるが、その際他のノイズの影響を省きながらさまざまな言語やなまりなどに柔軟に対応する必要も生じる。人間との会話という無制限の音声データを解析するAI技術がベースとなるのだ。

また、実際の動作を伴う自動運転においては、音声データをもとにコンピュータ内で処理する制御以外に各種センサーなどと連動した機能も求められることになる。

Siriなどは、ユーザーの要望に対しコンピュータ内で完結する制御のみを行うが、例えば自動運転ロボットに「こたつの上のミカンをとって」と要望した場合、ロボットはまず「こたつ」と「ミカン」という存在を認識しなくてはならない。

つまり、自動運転における「脳」の機能だけでなく「目」の機能なども連動し、情報を解析したうえで制御しなくてはならないのだ。「ラーメン店に行きたい」といった要望であれば、データベースの中から近隣の店を検索して提案してガイドすることができるが、「大通りを右折して」といったあいまいな要望の場合、大通りがどの道路を指すかを判断する必要がある。

極端な例だが、「5本目の電柱を過ぎたら左折して」といった場合、高精度地図などのデータベースに電柱に関わる情報がない場合、まず電柱が何なのかを認識する必要が生じるのだ。

■車外マイクで拾うべき音声は？

車外からの音としては、警察車両や救急車両などのサイレンや他車のクラクションなど、従来の自動車においても聞き分ける必要のある音を的確に判断することが第一に求められる。

また、周辺の歩行者らの声も一定程度認識できると、自動運転の安全性をいっそう高めることができる。子どもの急な飛び出しなどに遭遇した場合、周囲の「危ない！」などの声をもとに緊急停止したり、徐行したりする挙動をとれるからだ。

また、自動運転バスやタクシーなどにおいては、乗車を希望する車外の人の声も認識できた方が良いだろう。

■車内マイクで拾うべき音声は？

車内では、乗客の要望を正確にくみ取ることが第一となる。乗客が複数いる場合、要望を聞くべき対象者を限定したり、乗客同士の会話やオーディオで流れる音楽などと車両への要望・命令をしっかりと聞き分ける音声認識技術が求められる。

なお、外国では以前、スマートスピーカーがテレビから流れる音声をもとに商品を誤発注するという事件が起きたそうだ。自動運転車の場合、流れる音楽の中から「地平線まで駆け抜けろ」「海にダイブ」「ブレーキランプ5回点滅」「ドーナツカステラ柿の種」などのフレーズを要望として受けてしまうと大変なことになりかねない。

自動運転車に対する乗客の要望をしっかりと判別・抽出する技術は必要不可欠だ。

【参考】音声認識システムについては「もし自動運転のAI脳が「まって」を「まがって」と誤認識したら？」も参照。

■「自動車×音声データ」に取り組む企業

ニュアンス＆セレンス（アメリカ）：オートモーティブ部門分社で自動運転分野に注力

AI音声認識技術の開発などを手掛ける米ニュアンス・コミュニケーションズは、オートモーティブ部門において音声認識・合成や自然言語理解、音声信号処理などをはじめ、AIを応用したオートモーティブ・アシスタントや会話型・認知型AIソリューションなど幅広い事業を展開しており、多くの自動車メーカーに採用されている。「ハイ、メルセデス」でおなじみのダイムラーの「MBUX」も同社が共同開発したものだ。

2019年8月には自動車部門のスピンオフ（分社化）を発表し、新会社「Cerence（セレンス）」を立ち上げた。セレンスはCES2020で音声AIにより「車両」と「乗客」の対話を可能とする自動運転EVバス「e.GO Mover」を展示するなど、プロモーション活動に力を入れている。

e.GO Moverでは、セレンスの音声技術とサンゴバン・セキュリット社の透明スクリーン技術を組み合わせ、バスの外にいる乗客が音声認識やガラス面を介して車両と情報のやり取りできるシステムや、乗客の言語を自動で判別するシステムなどが搭載されているという。

【参考】セレンスについては「乗客の母国語で会話できる音声AI！米セレンスの自動運転EV、CES 2020でお披露目」も参照。

BOSE（アメリカ）：音響技術を武器に自動運転見据えた開発強化

音響機器開発大手の米BOSE(ボーズ)は、音楽などエンターテインメント分野以外の開発も進めており、独自の信号処理技術によって車内のさまざまな音を聞き分ける音声認識技術などを開発している。

カーオーディオの音乗員の話し声、カーナビのガイダンス、これらの反響音をキャンセルしながら会話の音声だけを際立たせる技術で、オーディオが鳴り響く車内におけるハンズフリー通話などに効果があるようだ。

また、車両の警告音を適切な方向から発信してドライバーの認識を向上させる「Bose Aware Signal Steering」技術も発表されている。音声認識技術ではないが、後方から車両が急接近した際に後方から音を鳴らすといった技術で、車両のセンサーと連動したADAS的な位置付けとなり、同社の自動運転を意識した開発姿勢がうかがえる。