ПОРІВНЯННЯ АДАПТИВНОСТІ RL-АЛГОРИТМІВ ДЛЯ УНИКНЕННЯ ЗІТКНЕНЬ БПЛА

Автор(и)

Ключові слова:

DQN, PPO, SAC, TD3, DDPG, A2C, навігація дронів, уникнення зіткнень, навчання з підкріпленням

Анотація

У цій роботі досліджується адаптивність алгоритмів навчання з підкріпленням (RL), зокрема DQN, PPO, SAC, TD3, DDPG та A2C, у змодельованому тривимірному середовищі, що імітує сценарії уникнення зіткнень безпілотних літальних апаратів (БПЛА). Метою дослідження є порівняння здатності кожного алгоритму узагальнювати отримані знання та використовувати їх у нових непередбачуваних умовах польоту. Експериментальна частина складається з двох етапів. На першому етапі дрони тренуються в умовах, коли їхні траєкторії спрямовуються назустріч один одному з фіксованими початковими параметрами швидкості та положення. На другому етапі кожний алгоритм проходить валідацію в сценаріях, що виходять за межі тренування, з випадковими змінами напрямків польоту та швидкісних характеристик. Такий підхід дозволяє оцінити стабільність поведінки моделей у нових, непередбачуваних умовах. У результатах дослідження порівнюються показники успішного уникнення зіткнень та якість маневрування для заданих алгоритмів. Отримані дані демонструють, що деякі алгоритми, такі як SAC та TD3, показують вищий рівень стабільності в умовах сильних коливань траєкторій, тоді як DQN і PPO можуть бути менш стійкими на непередбачуваних етапах випробувань. A2C та DDPG виявилися посередніми за показниками успішності визначеними в ході експерименту. Запропоноване дослідження надає цінну інформацію для практичної реалізації систем автономного управління БПЛА в динамічних та невизначених середовищах. Отримані висновки можуть бути використані при розробці адаптивних контролерів, що здатні швидко коригувати поведінку дрона у випадку виникнення непередбачуваних ситуацій. У подальших дослідженнях слід підключити сенсорні системи, максимально наближені до реальних умов польоту, та перевірити, як це вплине на адаптивність алгоритмів.Це забезпечить подальше підвищення надійності та безпеки безпілотних систем у реальних польотних місіях.

Посилання

Mohsan S. A. H., Othman N. Q. H., Li Y., Alsharif M. H., Khan M. A. Unmanned aerial vehicles (UAVs): practical aspects, applications, open challenges, security issues, and future trends. Intelligent Service Robotics. 2023. Vol. 16, No. 1. P. 109–137. DOI: 10.1007/s11370-022-00452-4

Arulkumaran K., Deisenroth M. P., Brundage M., Bharath A. A. Deep reinforcement learning: A brief survey. IEEE Signal Processing Magazine. 2017. Vol. 34, No. 6. P. 26–38. DOI: 10.1109/MSP.2017.2743240

Mnih V., Kavukcuoglu K., Silver D. et al. Playing Atari with deep reinforcement learning. arXiv Preprint. 2013. No. 1312.5602. URL: http://arxiv.org/abs/1312.5602 (дата звернення: 07.05.2025).

Schulman J., Wolski F., Dhariwal P. et al. Proximal policy optimization algorithms. arXiv Preprint. 2017. No. 1707.06347. URL: http://arxiv.org/abs/1707.06347 (дата звернення: 07.05.2025).

Hwang H. J., Jang J., Choi J. et al. Stepwise Soft Actor–Critic for UAV autonomous flight control. Drones. 2023. Vol. 7, No. 9. Article 549. DOI: 10.3390/drones7090549

Abo Mosali N., Shamsudin S. S., Alfandi O. et al. Twin delayed deep deterministic policy gradient-based target tracking for unmanned aerial vehicle with achievement rewarding and multistage training. IEEE Access. 2022. Vol. 10. P. 23545–23559. DOI: 10.1109/ACCESS.2022.3154388

Sun D., Gao D., Zheng J., Han P. Unmanned aerial vehicles control study using deep deterministic policy gradient. 2018 IEEE CSAA Guidance, Navigation and Control Conference (CGNCC). Xiamen, China. 2018. P. 1–5. DOI: 10.1109/GNCC42960.2018.9018682

Ayeelyan J., Lee G.-H., Hsu H.-C., Hsiung P.-A. Advantage Actor-Critic for autonomous intersection management. Vehicles. 2022. Vol. 4, No. 4. P. 1391–1412. DOI: 10.3390/vehicles4040073

Reuf K., Stefan W., Simon H. Deep Q-learning versus proximal policy optimization: Performance comparison in a material sorting task. Proceedings of the IEEE International Symposium on Industrial Electronics (ISIE 2023). 2023. P. 1–6. DOI: 10.1109/ISIE51358.2023.10228056

Kalidas A. P., Joshua C. J., Md A. Q. et al. Deep reinforcement learning for vision-based navigation of UAVs in avoiding stationary and mobile obstacles. Drones. 2023. Vol. 7, No. 4. Article 245. DOI: 10.3390/drones7040245

Rybchak Z., Kopylets M. Comparative analysis of DQN and PPO algorithms in UAV obstacle avoidance 2D simulation. Proceedings of the 8th International Conference on Computational Linguistics and Intelligent Systems. Volume III: Intelligent Systems Workshop. 2024. P. 391–403. URL: https://ceur-ws.org/Vol-3688/paper25.pdf (дата звернення: 07.05.2025).

PyBullet physics engine. URL: https://pybullet.org/ (дата звернення: 07.05.2025).

Stable-Baselines3 documentation. URL: https://stable-baselines3.readthedocs.io/ (дата звернення: 07.05.2025).

Raffin A., Hill A., Gleave A. et al. Stable-Baselines3: Reliable reinforcement learning implementations. Journal of Machine Learning Research. 2021. Vol. 22. Article 268. URL: http://jmlr.org/papers/v22/20-1364.html (дата звернення: 07.05.2025).

##submission.downloads##

Опубліковано

2025-05-29

Як цитувати

Копилець, М. М. (2025). ПОРІВНЯННЯ АДАПТИВНОСТІ RL-АЛГОРИТМІВ ДЛЯ УНИКНЕННЯ ЗІТКНЕНЬ БПЛА. Таврійський науковий вісник. Серія: Технічні науки, (2), 105-114. вилучено із http://journals.ksauniv.ks.ua/index.php/tech/article/view/876

Номер

Розділ

КОМП’ЮТЕРНІ НАУКИ ТА ІНФОРМАЦІЙНІ ТЕХНОЛОГІЇ