<概要>
豊橋技術科学大学 情報・知能工学系 行動知能システム学研究室は、移動ロボットが速くて安全な動きを学習するための新たな方法を開発しました。この方法は、深層強化学習とカリキュラム学習と呼ばれる手法を統合したもので、ロボットが障害物を避けながら早く目的地に到達するための行動方策を自ら学習します。
<詳細>
自律移動ロボットに必要な機能の一つはナビゲーション機能と呼ばれるもので、地図上の目標位置が与えられたときに、現在位置から障害物を避けながら移動して目標位置に到達する行動を生成するためのものです。その際、できるだけ早く目標位置に到達することが望ましいですが、速く動くと衝突の危険性が高まり、ロボット自身だけでなく周りの環境にも危険を及ぼすことになります。
この問題に対して、研究グループでは、速さと安全性の双方を考慮してロボットの動きを生成するための学習方法を考案しました。この方法は速くて安全な動きを学習するために、行動方策学習の基盤となる深層強化学習を改良し、さらにカリキュラム学習の考え方を取り入れたものです。
筆頭著者で博士後期課程3年のChandra(チャンド) Kusuma(ラ クスマ ) Dewa(デワ)は、深層強化学習による行動学習について次のように説明します。「深層強化学習では、現在の状態(ロボットの位置や周囲の障害物の位置関係など)から、いまとるべき行動を選択する方策を、さまざまな行動を繰り返し試してみることにより学習します。学習アルゴリズムは、選択した行動が確実に実行されることを前提として設計されているので、目標位置に到達したときや障害物に衝突したときには、現在の行動を直ちに停止し、それらの状態を確実に行動方策の改善に反映させなければなりません。そのための改善を施すことにより、よりよい行動方策が学習できるようになりました。」
行動知能システム学研究室 三浦教授は、さらにカリキュラム学習の導入について説明をします。「カリキュラム学習とは簡単な問題から難しい問題へと段階的に与えることにより、学習が順調に進むようにする考え方です。移動ロボットの行動学習では、最初は制限速度を低く設定し、学習が進むにつれ制限速度を上げていくことになります。速度が上がるにつれ安全な行動の生成は難しくなりますが、段階的に難しくすることにより、最終的には速くて安全な動きを学習することができました。」
<実験結果と今後の展望>
学習過程で、実際のロボットを何回も衝突させるわけにはいかないので、行動学習アルゴリズムの研究はシミュレーションで行うのが通例です。図に示すような室内環境をコンピュータ内に作り、行動学習の実験を行いました。目標位置に到達する割合と到達までの時間という2つの指標で、従来の手法に比べて向上することを示しました。研究チームは、これらの結果から、提案手法が速くて安全な移動を必要とする他の環境においても有効であると考えています。
###
<外部資金情報>
本研究の一部はJSPS科研費17H01799の支援を受けました.
<論文情報>
C. K. Dewa and J. Miura, “A Framework for DRL Navigation With State Transition Checking and Velocity Increment Scheduling,” in IEEE Access, vol. 8, pp. 191826-191838, 2020, doi: 10.1109/ACCESS.2020.3033016.
Journal
IEEE Access