Analiza możliwości wykorzystania algorytmów uczenia maszynowego w środowisku Unity

Szczegóły
Opis

Tytuł:: Analiza możliwości wykorzystania algorytmów uczenia maszynowego w środowisku Unity
Analysis of the possibilities for using machine learning algorithms in the Unity environment
Autorzy:: Litwynenko, Karina
Plechawska-Wójcik, Małgorzata
Powiązania:: https://bibliotekanauki.pl/articles/1837823.pdf
Data publikacji:: 2021
Wydawca:: Politechnika Lubelska. Instytut Informatyki
Tematy:: uczenie ze wzmocnieniem
uczenie przez naśladowanie
Unity
reinforcement learning
imitation learning
Źródło:: Journal of Computer Sciences Institute; 2021, 20; 197-204
2544-0764
Język:: polski
Prawa:: CC BY-SA: Creative Commons Uznanie autorstwa - Na tych samych warunkach 4.0
Dostawca treści:: Biblioteka Nauki
: Artykuł

Przejdź do źródła

Algorytmy uczenia ze wzmocnieniem zyskują coraz większą popularność, a ich rozwój jest możliwy dzięki istnieniu narzędzi umożliwiających ich badanie. Niniejszy artykuł dotyczy możliwości zastosowania algorytmów uczenia maszynowego na platformie Unity wykorzystującej bibliotekę Unity ML-Agents Toolkit. Celem badania było porównanie dwóch algorytmów: Proximal Policy Optimization oraz Soft Actor-Critic. Zweryfikowano również możliwość poprawy wyników uczenia poprzez łączenie tych algorytmów z metodą uczenia przez naśladowanie Generative Adversarial Imitation Learning. Wyniki badania wykazały, że algorytm PPO może sprawdzić się lepiej w nieskomplikowanych środowiskach o nienatychmiastowym charakterze nagród, zaś dodatkowe zastosowanie GAIL może wpłynąć na poprawę skuteczności uczenia.

Reinforcement learning algorithms are gaining popularity, and their advancement is made possible by the presence of tools to evaluate them. This paper concerns the applicability of machine learning algorithms on the Unity platform using the Unity ML-Agents Toolkit library. The purpose of the study was to compare two algorithms: Proximal Policy Optimization and Soft Actor-Critic. The possibility of improving the learning results by combining these algorithms with Generative Adversarial Imitation Learning was also verified. The results of the study showed that the PPO algorithm can perform better in uncomplicated environments with non-immediate rewards, while the additional use of GAIL can improve learning performance.

Informacja

Powiązane pozycje