B4 　兼平　龍

10/23先端論文ゼミ発表会“Multiagent Reinforcement Learning with the PartlyHigh-Dimensional State Space”-状態空間の部分的高次元化手法を用いたマルチエージェント強化学習法- B4 　兼平　龍

1. Introduction- 初めに - • マルチエージェント強化学習には複雑なタスクを行う大規模なシステム制御への応用が期待されている　　　　　　　　　　　　　　　　↓(しかし・・・) • 不完全知覚問題、同時学習問題、報酬分配問題、次元の呪いなど様々な問題がある　　　　　　　　　　　　　　　　↓(そこで･･･) • 本研究では「次元の呪い」について、モジューラQ学習法を改善することでこの問題を解決しようとする

2.Curse of Dimensionality–次元の呪い - • エージェント数が増加するにあたり状態空間の大きさが指数的に増大すること • 強化学習において状態空間の増大は学習速度を低下させ、莫大なメモリを必要としてしまいます

Modular Q-learning - モジューラQ学習法 - • モジューラQ学習法は状態空間の爆発を防ぐために提案された手法 • 自分と他の１体のエージェントから構成される状態空間を用いるため、状態空間を常に一定にすることができる • しかし、部分状態のみを観測するので不完全知覚状態を招き、学習性能を低下させる欠点があるエージェント４体の場合でMediator moduleは各 Learning moduleからのQ値の合計値が最大となる行動を優先する

Fig.2(モジューラQ学習における学習性能の低下の例)の説明Fig.2(モジューラQ学習における学習性能の低下の例)の説明 • エージェント3体の場合 • S0とS5で同じ部分状態S1,2が観測される。 • ここで、状態S5においてQ(s1,s2,a)が最大である時、状態S6（ゴールへ向かう）へ遷移すると仮定する • 状態S0においてもQ(s1,s2,a)があるためにS5と同じ行動をとってしまう可能性が高い、しかし、S0ではこの行動を行ってもゴールに近づくことはできず、S5でゴールへ向かうQ(s1,s2,a)の値が小さくなってしまう。

3. Proposed Technique: Hybrid Modular Q-Learning- 提案手法:HMQL法 - • モジューラQ学習法では部分状態のみを観測しているために、不完全知覚状態が生じて学習性能が低下した • そこで、図２でのS5のようにQ値が低下すると学習に大きな影響が出てしまう場合、部分状態S1,2、S1,3を用いるのではなく、高次元化したS1,2,3={s1,s2,s3}を用いることで学習性能の低下を防ぐことにする • つまり、先ほどの例の場合では状態S0からの遷移でQ(s1,s2,a)の値が低下しても状態S5は影響を受けないことになる • ここでS0を高次元化しても、ゴールから遠いため価値は低く、遷移する確率も小さいため性能改善の効果は期待できない。 • また、多くの状態で高次元化を行うと、状態数が増えてしまうため学習速度が低下しまう　　　　　　　　　　　　　　　　　　　↓（よって） • S5のような状態のみ高次元化し、不完全知覚を取り除くHMQL法を提案する

3.1. Method of increasing the dimensionalit- 高次元化手法 – • 部分状態の価値を表す状態価値関数Viを用いて状態の識別を行う、学習式は下式になる。 • 状態価値関数Viはゴール状態（報酬がもらえたり、ゴールへの遷移の際）へ近いほど、価値Vの値が大きくなる • ここで、閾値ηを使い状態の区別（ηより大きいか小さいか）を行い高次元化する状態を決める。 γはVに用いた割引率であり、λを無限大にすると、ηが０となり、通常のQ学習。 λを小さくすると、ηが無限大となり、モジュールQ学習となる

3.2. Structure of an agent–エージェントの構成 - • Check Module:次元数に応じて学習器を選択。2次元部分状態をState-Value Moduleに渡す • State-Value Module:高次元判定と高次元生成を行う。 Check Moduleから2次元部分状態受け取り閾値η用い、判定を行う • N-dimensional Learning module:N次元状態の学習を行う。Q学習を行い、Q値をSelectorに渡す • Selector：受け取ったQ値を用いて行動選択を行う。Q値の合計値が最大となる行動を優先。

3.3. Learning algorithm- 学習アルゴリズム - (1).各Learning moduleがもつ、Q値を初期化。 Check Moduleに記憶している次元数を、最小次元（二次元）に設定。 (2).環境を観測 (3). Check Moduleを用いて、高次元状態が存在するか調べ、対応した次元のLearning moduleを選択する。 (4).選択されたLearning moduleはQ値をSelectorに渡す。 (5).Q値をもらったSelectorはQ値の合計値をもとに計算する。 (6).環境を観測し、報酬に基づきQ値、状態価値を更新。 (7).高次元状態に基づいて、状態の高次元化を行う。 (8).ゴール状態なら終了、そうでなければ（３）へ。

4. Evaluation Experiments - 評価実験 - • 追跡問題　　　・2次元トーラス平面（5×5、9×9）　　　・ハンター3体、獲物1体　　　・ハンター移動（上下左右＋停止）、　　　・獲物移動（上：40％、右：40％、停止:20％）　　　・捕獲することにハンター、獲物ランダム配置　　　・捕獲条件：獲物の3方向にハンターが接するとき　　　・エージェントの状態は獲物との相対位置で表現　　　・獲物捕獲時に報酬：1.0、それ以外-0.05

4.2. Learning by using policy estimates- 政策推定による学習１ - • 他エージェントの政策推定法他エージェントｋの政策Iとし、状態St-1で行動aを実行する確率を表す。更新式は以下に示す • 政策推定を利用したマルチエージェント強化学習法現在の環境状態において、エージェントkは（８）式から算出されるQ（バー）を用いて政策πにより行動を確率的に選択する。また、行動選択法にはボルツマン選択(１０）を用いる。

4.2. Learning by using policy estimates- 政策推定による学習２ - • 選択した行動を実行し、Q関数値を式（９）によって更新する。また、状態ｓｔにおける関数Iを式（５）によって更新する。 • 学習の終了状態を満たしていれば学習終了、そうでなければｔに１を加えて（８）式へもどる

4.3. Experimental results- 実験結果１ - ・５×５縦軸：ステップ数横軸；エピソード数・９×９最終的なステップ数 5×5,9×9どちらの場合も提案手法は、モジューラQに比べ学習速度は劣るもののステップ数でよい結果が得られていることが分かる。

4.3. Experimental results- 実験結果２ - • 今回提案手法が優れていたのは、図８のような部分状態による不完全知覚の排除ができたからだと考えられる • しかし、高次元化を実現したためモジュールQ学習より多くの状態が必要となり必要なメモリ量が多くなってしまったがQ学習より抑えることができた。

5. Conclusions- まとめ - • マルチエージェント環境で提案手法は、十分な学習速度、少ないメモリ量で学習性能改善を確認することができた。 • 今回は学習にQ学習を用いた。マルチエージェント環境では、他エージェントの政策変化によって環境の状態遷移確率が変化するためMDP環境としてモデル化することができない。よって、学習に状態遷移先のQ値が必要となりQ学習をそのまま用いるということの合理性に疑問が残る点があり、今後このような課題を考えなければならない。

B4 兼平 龍

B4 兼平 龍

Presentation Transcript

B4 　兼平　龍

B4 　兼平　龍