Skip to Main Content

オートノミー・アット・スケールマルチポリシー意思決定(MPDM)v. 自律走行における早期コミットメント

ホワイトペーパーでは、当社独自のMPDM(Multi-Policy Decision Making)ソフトウェアの仕組みや、他の自律走行アプローチとの比較についてご紹介しています。

  1. ホワイトペーパーPDFをダウンロード

自律走行に対する従来のアプローチ

自律走行へのアプローチの多くは、何らかの形で早期コミットメントを使用して意思決定を行っています。アーリーコミットメントとは、運転判断に使用するロジックが、実際にシナリオに遭遇する 前に 固定さ 決定されることを意味します。

アーリーコミットメントはリアクティブ(反応的)です。運転は頻繁に反応的に行われるため、特に一般的な状況では、このタイプの意思決定が機能することが多い。例えば、ドライバーは前方の赤信号に対応するためにアーリーコミットメントを使用します。私たちは、ドライバーの訓練や経験から、赤信号の前で停止し、青に変わるまで進んではいけないと知っています。考えるまでもなく、信号に対する反応は「ハードワイヤリング」されているのです。また、隣の席の人と話をするなど、別の作業をしていても、正しく反応することができます。

このようなシンプルで応用範囲の広いアプローチから、エンジニアはアーリーコミットメントを、自動車を自動運転させるための最初の、そしてしばしば唯一のアプローチとして採用しています。アーリーコミットメントは、通常2つの方法で実装されます:

  1. エンジニアが、「if/then」ルールに似た形で意思決定を直接エンコードする(例えば、「前方に赤信号があれば、あらかじめ定義された地点で停止する」)。
  2. エンジニアは、機械学習を使って、同じ状況に対応するようにシステムを訓練します。この場合、学習プロセスでは、プログラマーがさまざまなシナリオを「観察」する(訓練する)ことで作成するルールに相当するものを生成します。例えば、速度や距離の異なる赤信号へのアプローチを何十、何百と学習させることができます。

一見すると異なるアプローチですが、どちらも最初の1マイルを走行する前に、遭遇するすべての状況に対して車両がどのように反応するかをハードコーディングしています。これらのアプローチは、多くの状況に対して迅速かつ正確に対応できるという点で共通しています。しかし、実際には2つの重要な欠点があり、その威力は限定的です。

  1. エンジニアが想定していない状況や、エンジニアのトレーニングセットには存在しないような状況には、確実に対応できない。
  2. 構築と維持にリソースを要するため、異なる環境や状況への拡張が困難である。

これらの制限と、May Mobilityがどのようにそれを克服しているかをよりよく理解するために、私たちはもう少し深く掘り下げます。

早期コミットメント決定への深堀り

以下の図1のようなシナリオを考えてみましょう。自車両(緑色)は、2台の車両(青色)と歩行者(水色の円)がいる交差点に差し掛かっています。

MPDM Whitepaper Figure 1

アーリーコミットメントシステムでは、エンジニアは感知した状況に応じて対応方法を選択するアルゴリズムを作成します。実際のシステムにはもっとたくさんあるのでしょうが、次のような例があります:

  1. 最も近い前方の物体を選択して追従する(例:エゴの前にいる車)
  2. ルート付近で最もリスクが高いものを選択する(例えば、歩行者が道路に対してどの位置に立っているかによって、歩行者が選択されるかもしれない)。

エンジニアがこれらの判断を直接プログラミングするのではなく、システムに多くのシナリオを提示し(シミュレーションなど)、結果が安全(「良い」)か危険(「悪い」)かによって報酬やペナルティを与えるのです。

この方法の問題点は、このシナリオには様々な展開があり得るということです。図2(下)には、比較的穏やかなケースからトリッキーな停止シナリオまで、5つの可能性を示していますが、これらは決して網羅的なものではありません。

プログラマーが、ある状況に遭遇する前にシステムが何をすべきかを決定した場合、その決定が誤り、悪い結果につながる可能性があります。例えば、システムが先頭車両を追跡しているときにシナリオ5が発生したとしたらどうでしょう。あるいは、車両が歩行者に反応しているときにシナリオ2が発生したらどうでしょう?エンジニアが考えもしなかったようなシナリオが発生したら?現実の世界で起こりうることの組み合わせは多岐にわたるため、この最後の事態は実際に起こりうることです。

MPDM Whitepaper Figure 2

図2:図1のシナリオは、この5つを含め、さまざまな形で展開される可能性がある。すべてのシナリオを想定したロジックを書くことは困難です。また、どのような事態が起こるかを予測し、正しい行動を選択することも難しい。

そこで、エンジニアがよく使うのが、「予測」によって、選択されたアクションが状況に最も適合する確率を高める方法です。このシステムでは、各物体の位置や過去の動きから行動を選択するのではなく、将来的に物体がどこにあるのかを計算し、行動を選択する。

例えば、シナリオの展開を予測するニューラルネットワークを使用して、シーン内のすべてのオブジェクトの位置と速度を処理することができます。この例では、ネットワークのトレーニング中に観察された事例に基づいて、図2のシナリオ1が最も可能性が高いことをシステムが発見するかもしれません。

一般的に、このタイプのアプローチはより良い結果をもたらしますが、それでも基本的には早期コミットメントアプローチです。選択された行動は、現在観察されている状態ではなく、予測に基づいていますが、この行動はまだエンジニアや機械学習アルゴリズムによって事前に決定されたものです。

例えば、予測システムは、歩行者が横断歩道に入るのを待つのではなく、将来的に歩行者が横断歩道に入ると予測した場合、歩行者のために停止する。しかし、停止動作はまだハードコーディングされており、異なるエンティティ間の複雑な相互作用(例えば、図2のシナリオ4はこれらのシステムにとって特に難しい)に遭遇したり、過去のトレーニングやテストデータでシナリオが観察されていないために、システムは間違いを犯しやすい。

これらの問題を解決するために、自律走行チームはエンジニアリングチームを拡大し、データニーズを指数関数的に増大させる必要があります。十分なデータを収集すれば、最終的にはシステムがあらゆる状況を把握し、そのすべてに正しく対応できるようになると考えられています。実際には、可能な行動の組み合わせの空間は広大で、道幅、植生の位置、駐車場の位置、横断歩道の位置など、小さな環境の変化でさえ、正しく処理するためにはかなりのエンジニアリング努力とデータ処理が必要です。基本的に、早期コミットメントに基づくシステムはうまくスケールしません。また、構築と維持にリソースを要する。

MPDM Whitepaper Figure 3

図3:自律走行システムの中には、機械学習を使って何が起こるかを予測するものがあります。これはパフォーマンスを大幅に向上させますが、システムが間違っている場合、悪い行動や危険な行動を引き起こす可能性があります。

問題:不確実性の下での意思決定

アーリーコミットメントシステムの課題は、何が起こるかを確実に知ることに依存していることです。これらのシステムは、正しい行動を選択するために、この情報を知っていなければなりません。高価な知覚システムを完成させ、ペタバイトの訓練データを集め、何百万ものシナリオを処理するために、多くの時間と労力が費やされるのは、この確実性の要求のためです。不確実性をゼロに近づけなければならないのです。

もし、そこまで確信する必要がなかったらどうでしょう?不確実性があっても、安全で効果的な意思決定ができる方法があるとしたらどうでしょう。そのようなシステムは、はるかにシンプルで、スケールアップも容易でしょう。そして、これまでに経験したことのないようなシナリオでも、うまく切り抜けることができるはずです。しかし、そのような方法はあるのです。人間は常にそうしているのです。

図1のようなシナリオを、人間は意図的な推論でナビゲートしているのです。このような場面に遭遇すると、ドライバーは副次的な行動(乗客との会話など)を遅らせ、車の速度を落とし、何が起こるかを予測することに集中し始める。人間のドライバーは、頭の中で「もしも」を高速で走らせます。もし、歩行者が先行車の前に出てきたらどうしよう。対向車が先に曲がってしまったら?対向車が自分の車の前を曲がったらどうしよう?人間のドライバーは不安なまま、慎重に行動し、スピードも落とさない。しかし、「曲がる」「渡る」「進む」の3つの行動が決まった後、人間のドライバーは自信を取り戻し、より積極的に行動するようになります。

では、不確実な状況でも同じように行動できるように、コンピューターシステムを設計することはできるのでしょうか。そうすることで、より多くの状況に安全に対応しながら、より少ないリソースで構築できる行動の可能性が開けます。

MPDM(Multi-Policy Decision Making)は、不確実な状況下で安全な運転判断を下すという課題を解決するために特別に設計されています。

その解決策とはマルチポリシー・デシジョンメイキング(MPDM)

MPDMでは、特定の行動に対して早期のコミットメントを要求することなく、あらゆるシナリオを考慮した判断を行うことで、前述の問題を回避しています。この方法は、システムが可能な限り選択肢を残しておき、行動すべき時にどの行動をとるかを最終的に決定することから、最小公倍数的アプローチと呼ばれています。

MPDMシステムでは、特定のシナリオに合わせてあらかじめ行動をハードコードしておくことはありません。未来予測はしますが、どのような未来が訪れるかを知っているという前提ではありません。MPDMは多くの未来を想定し、どの未来が来ても安全な行動を選択する。

MPDMがどのように不確実な状況下での安全運転を実現しているかを示すために、図4を考えてみましょう。MPDMは、まず知覚システムが提供する、シーン内のすべてのエージェント(車、人、自転車など)の位置と速度(過去数秒の間)を使用します。これらのエージェントそれぞれについて、MPDMは、そのエージェントに対してもっともらしい行動のセットを生成する。ここで「もっともらしい」とは、環境制約を考慮すれば物理的に可能であり、過去数秒間に観察された運動パターンと一致することを意味する。これらの行動は必ずしも可能性が高いとは限らず、高リスクの行動は可能性が低いが、それでも考慮しなければならない場合があるため、これは重要である。

MPDMは次に、エゴ・ビークル(緑色の部分)に対して、潜在的に有用な行動(ポリシーと呼ばれる)のセットを選択する。これらの行動は、いずれもシナリオに合うように特別に選択されたものではなく、さまざまな状況で役立つ可能性がある一般的な行動です。例えば、「先頭車両を追いながら制限速度を守る」、「前の歩行者にブレーキをかける」、「交差点の手前でブレーキをかける」、「少しスピードを落とす」、「少し左にずらす」等の行動がある。

図4:MPDMが実行可能な各ポリシーの未来を多数想像する例。ポリシーとは、車両の挙動を特定の方法で制御するアルゴリズムである。(例:減速、加速、逸脱、停止)。ここでは簡単のため、2つのポリシーオプション(オプション1:制限速度で走行、オプション2:少しゆっくり走行)だけを示していますが、実際にはMPDMは毎回6~12個のポリシーを考慮して意思決定を行います。これらのオプションのそれぞれについて、多くの未来が想像されます(つまり、現実の時間よりもずっと速くシミュレーションされます)。ここでは5つのシナリオをシミュレーションしていますが、実際には数百のオプションがシミュレーションされています。

次の2つのステップは、意思決定の問題を解決するための重要なピースです。

ステップ1

MPDMは、世界の各オブジェクトに対して1つのアクションを選択し、エゴ・ビークルに対して1つのポリシーを選択します。そして、これらのオブジェクトがすべて選択されたアクションで行動した場合の未来をシミュレートするのです。しかし、MPDMはここで終わらない。シミュレーションした未来が本当に起こるかどうかは、システム側ではわからない。もし、エージェントが違う行動をとったらどうなるか?そこで、別の行動を選び、それをシミュレーションする。これを何度も、何百度も繰り返すのです。最終的に、MPDMは何度も何度も未来をシミュレーションして、さまざまな結果を作り出しました。事実上、車両はその特定のシーンを何百回も仮想的に走行し、時には失敗し、時には成功し、リアルタイムに最適な方法を学んでいるのです。

STEP 2

MPDMは、エゴ・ビークルが実行可能な各ポリシーについて、想像されるすべての未来を評価する。もし、何か悪いこと(衝突や危機一髪など)が起こるようなもっともらしい未来を生み出すポリシーがあれば、それは拒否される。拒否されなかった残りの方針については、目的地に向かって最も快適に進むことができる方針が実行される。

ステップ1と2は、1秒間に5回繰り返される。このように、世界が変化すると(例えば、新しい障害物が検出されたり、車両が方向や速度を変えたり)、その更新された状況に最適なポリシーで直ちに応答する。

MPDMは不確実性を克服し、スケーリングを可能にする。

MPDMは表面的にはシンプルに見えますし、ある意味ではそうなのです。MPDMを実現するためには、運転中の人間の行動モデルの作成と、実時間の数百倍の速度で動作するシミュレータの作成という2つの難題を解決しなければなりません。しかし、これらの問題を解決した後は、そのシンプルさとは裏腹に、新規性、不確実性、規模といった、初期のコミットメントシステムが抱える課題を克服する力を秘めています。

まず、MPDMは人間の行動をモデル化できる状況であれば、これまで経験したことのないような新しい状況でも扱うことができます。MPDMが新奇な状況をうまく扱える理由は、MPDMの判断が状況を特定することに依存しないためである。MPDMは常に、適用されうるあらゆる行動を考慮し、そのシナリオを仮想的にドライブしてから選択します。仮想ドライブから最適なアクションが浮かび上がるのです。

次に、MPDMは環境に不確実性がある場合でも、安全な行動を選択します。歩行者なのか自転車なのかがわからない場合、MPDMは両方の可能性をシミュレートします。トラッキングシステムが、車両が2つの車線のうちどちらを走っているのか完全に判断できない場合、両方のケースで可能な行動をシミュレートする。歩行者が道を渡るのか、それとも縁石でうろうろしているのか、システムが確実に判断できない場合、MPDMは選択した行動がどちらの場合でも安全であることを確認する。その結果、MPDMシステムの挙動は人間によく似ています。不確実な場合は速度を落として余裕を持たせ、確実な場合はより積極的に運転するのです。

最後に、MPDMはアーリーコミットメントアプローチに比べ、はるかに優れたスケールを持ち、より少ない開発者とリソースで構築することができます。このスケーリングの利点は、MPDMをプログラミングする際に、物事の組み合わせを認識したりモデル化したりする必要がないことに由来しています。物事の組み合わせ(例えば、前方を横断する可能性のある歩行者がいる車を追跡中に信号が黄色に変わった場合)は、可能性のある状況が爆発的に増加するため、直接モデル化すると、かなりのエンジニアリングとデータ処理のリソースを必要とします。MPDMでは、より単純な問題である運転中の人間の行動モデルを作成することだけが要求されます。このモデルの構築には多大な労力と時間がかかりますが、いったん機能的に検証されれば、あらゆる環境や状況に適用することが可能です。MPDMは、自律行動の開発において最もスケーラブルなアプローチである。

これら3つの利点を総合すると、スケールアップのためのビルディングブロックとなります。ある技術が、新規で複雑性の高い状況でうまく機能するように効率的に構築され、サイトのカスタマイズを制限することができれば、何千もの異なる環境に迅速に展開することができます。MPDMは、このような利点を提供し、スケールアップした自律走行のロックを解除するユニークな技術です。

それは、自律走行の未来です。

MPDM Header

このホワイトペーパーをダウンロードする

Autonomy at Scale "のPDF版にアクセスする:
自律走行におけるマルチポリシー意思決定(MPDM)v.アーリーコミットメント".

  1. ホワイトペーパーPDFをダウンロード