Informacja

Drogi użytkowniku, aplikacja do prawidłowego działania wymaga obsługi JavaScript. Proszę włącz obsługę JavaScript w Twojej przeglądarce.

Tytuł pozycji:

Online learning algorithm for zero-sum games with integral reinforcement learning

Tytuł:
Online learning algorithm for zero-sum games with integral reinforcement learning
Autorzy:
Vamvoudakis, K. G.
Vrabie, D.
Lewis, F. L.
Powiązania:
https://bibliotekanauki.pl/articles/91780.pdf
Data publikacji:
2011
Wydawca:
Społeczna Akademia Nauk w Łodzi. Polskie Towarzystwo Sieci Neuronowych
Tematy:
learning
online algorithm
zero-sum game
game
infinite horizon
Hamilton-Jacobi-Isaacs equation
approximation network
optimal value function
adaptive control tuning algorithm
Nash solution
Źródło:
Journal of Artificial Intelligence and Soft Computing Research; 2011, 1, 4; 315-332
2083-2567
2449-6499
Język:
angielski
Prawa:
Wszystkie prawa zastrzeżone. Swoboda użytkownika ograniczona do ustawowego zakresu dozwolonego użytku
Dostawca treści:
Biblioteka Nauki
Artykuł
  Przejdź do źródła  Link otwiera się w nowym oknie
In this paper we introduce an online algorithm that uses integral reinforcement knowledge for learning the continuous-time zero sum game solution for nonlinear systems with infinite horizon costs and partial knowledge of the system dynamics. This algorithm is a data based approach to the solution of the Hamilton-Jacobi-Isaacs equation and it does not require explicit knowledge on the system’s drift dynamics. A novel adaptive control algorithm is given that is based on policy iteration and implemented using an actor/ disturbance/critic structure having three adaptive approximator structures. All three approximation networks are adapted simultaneously. A persistence of excitation condition is required to guarantee convergence of the critic to the actual optimal value function. Novel adaptive control tuning algorithms are given for critic, disturbance and actor networks. The convergence to the Nash solution of the game is proven, and stability of the system is also guaranteed. Simulation examples support the theoretical result.

Ta witryna wykorzystuje pliki cookies do przechowywania informacji na Twoim komputerze. Pliki cookies stosujemy w celu świadczenia usług na najwyższym poziomie, w tym w sposób dostosowany do indywidualnych potrzeb. Korzystanie z witryny bez zmiany ustawień dotyczących cookies oznacza, że będą one zamieszczane w Twoim komputerze. W każdym momencie możesz dokonać zmiany ustawień dotyczących cookies