先端論文紹介ゼミ

先端論文紹介ゼミ 2009/10/07 B4 大富康弘

紹介論文 ・H∞ Reinforcement learning control of robotmanipulators using fuzzy wavelet networks ・Chuan-Kai Lin

Abstract • コントローラの学習部は、Associative search network(ASN)とAdaptive critic network(ACN)から成り立っている。 • ASNは、制御対象の未知の非線形関数を近似する。 • ACNは、ASNを調整するために２ループ目以降の強化信号を構成する。 • ASNとCANは、Fuzzy wavelet network(FWN)を用いている。 • 提案手法は、制御対象のダイナミクスの詳しい知識を必要とせずに、オンラインで学習を行う。 • H∞制御を用いて、FWNで、近似誤差や外乱の影響を受けない様に、制御を行う。

1.Introduction • 提案手法 Fuzzy wavelet networks(FWN)を使ったロボットマニュピレータの強化学習型H∞制御。 • 強化学習の長所　　制御対象のダイナミクスの詳しい知識を必要としない。 • H∞制御の長所 FSやNNを用いたときの近似誤差、未知パラメータや外乱の影響を最小限に抑える。

2.1. wavelet networks 　ウェーブレットネットワークは、もとの信号fの拡大によるウェーブレット分解で実装される。　多次元ウェーブレット関数(1)は、１次元ウェーブレット関数の積であらわされる。　並行移動、拡大縮小したマザーウェブレット関数と連続ウェーブレット関数の関係は、(2)と表される。安定性条件関数fは、(4)と、近似できる。

2.2 Fuzzy wavelet networks N入力M出力ファジーシステム FWNの出力は(5)となる。(シングルトンを用いる。)

FWBFのJ番目のルールは、(6)で表わされる。 (6)を簡潔に表わすと、(7)となる。多次元ウェーブレット関数は、１次元ウェーブレット関数の積で表わせられるので、となる。 FWNの出力は、(9)であらわされる。 FWNは、NNと比較すると、特に多次元関数に関して、小さいネットワークでNNと同等の近似能力がある。未知関数f(x(t))を、近似すると、(10)となる。理想的な重みは、となる。 FWNの結果は、(11)で表わされる。

3.1.Robot dynamics and the primary reinforcement 制御システム(m-DOF rigid manipulator) 追従誤差強化信号未知関数f(x) ((19)(20)(21)より)

3.2.H∞ reinforcement learning controller

制御則 H∞ auxiliary control signal(ASN近似誤差や外乱を小さくするため)

強化信号 連続時間の強化信号は、(26)で表わされる。ただし、 (27)を(26)に代入して、(28)が得られる。初期の強化信号rk(t)=0は、制御の終了を示し、強化信号も0となる。割引率をγ=1とすると、２番目の強化信号は、となる。 CANは、関数近似として更新される。よって、理想的な強化信号は、(29)で表現できる。また、実際の強化信号は、(30)で表現される。

3.3.H∞ stabilization (32)より、ACNの出力は、(33)となる。ただし、理想のASNとの出力の誤差は、(34)となる。よって、誤差のダイナミクス(24)は、(35)と書き換えることができる。学習の規則は、(38)(39)で表わされる。ただし、

は、以下に示す。

4.1.Robot manipulator model 制御システムパラメータ

4.3.Results of H∞ reinforcement learning controller θ1,θ2,θ3に対する規範曲線 FWNの入力は、とする。　初期パラメータは、０またはランダムとする。また、ファジールールベースは、２０個のファジールールを含んでいる。・強化学習信号・行列Q修正ゲインKr ・H∞制御信号のパラメータ・更新則のパラメータ・割引率

追従誤差 強化学習信号

提案手法とthe output feedback controller との比較

Simulation results • The adaptive output feedback fuzzy controllerは、関節の位置の寸法や速度情報だけでなくロボットの慣性マトリクスも利用する。 • 提案手法は、関節の位置の寸法や速度情報は利用するが、ロボットの慣性マトリクスは必要としない。 • 提案手法は、収束するスピードが、The adaptive output feedback fuzzy controllerより速い。 • FWBFのすべてのパラメータをオンラインで調整するので、FWBFの出力の重みの近似誤差は小さく維持できる。

5.Conclusion • FWNを使ったASNは、ロボットの非線形ダイナミクスの近似に用いた。ACNは、the temporal differenceの近似に使用した。 • H∞制御、FWBNのパラメータ、ASNやACNを用いたことで制御のパフォーマンス保証し、オンラインで調整を行えた。 • FWNを用いH∞stabilization criterionは、近似誤差や外乱の影響を小さくすることができた。 • コントロール対象のposition-trackingやdisturbanceは成功した。

先端 論文紹介ゼミ