РОЗПІЗНАВАННЯ ЕМОЦІЙ УЧАСНИКІВ ВІДЕОКОНФЕРЕНЦІЙ З ВИКОРИСТАННЯМ МУЛЬТИМОДАЛЬНОГО АНАЛІЗУ
DOI:
https://doi.org/10.32782/tnv-tech.2024.4.13Ключові слова:
розпізнавання емоцій, згорткові нейронні мережі, математична модель, відеоконференції, спектрограми, аналіз голосу.Анотація
У роботі описано актуальність задачі аналізу емоцій у відеокомунікаціях, підкреслено важливість розуміння настроїв учасників для поліпшення якості взаємодії у сучасному світі, де відеозустрічі стають нормою у бізнесі, освіті та особистих контактах. Ефективне розуміння емоцій сприяє адаптації комунікації, вирішенню конфліктів на ранніх стадіях та покращенню загального сприйняття взаємодії. Незважаючи на наявність потужних інструментів для розпізнавання емоцій, як FaceReader та Microsoft Oxford Project, їхня ефективність обмежена через фокусування виключно на аналізі виразів облич. Точність таких систем часто поступається через недоліки в розпізнаванні емоцій, що вимагає удосконалення методів аналізу. Робота пропонує новітній підхід до розпізнавання емоцій учасників відеоконференцій через мультимодальний аналіз, що поєднує обробку фізичних характеристик голосу та виразів облич. Використання згорткових нейронних мереж дозволяє з високою точністю ідентифікувати емоційні стани, враховуючи різноманітні спотворення вхідних даних. Методика передбачає аналіз голосових даних, їх нормалізацію та перетворення у спектрограми для подальшої обробки нейронною мережею. Особлива увага приділяється процесу навчання мережі, що базується на методі градієнтного спуску, для підвищення точності розпізнавання емоцій. Результати експериментів демонструють перевагу запропонованого методу над існуючими програмними засобами, з підвищенням точності розпізнавання емоцій до 79%, що є значним поліпшення. Запропонований мультимодальний аналіз, що включає в себе комплексний підхід до аналізу звукових та візуальних характеристик, відкриває нові можливості для розвитку інструментів відеокомунікації та покращення міжособистісного спілкування. Висновки роботи підкреслюють значення інтегрованого підходу до розпізнавання емоцій, наголошуючи на потенціалі застосування згорткових нейронних мереж для ефективної обробки емоційних станів у реальному часі, що є ключовим для розширення можливостей відеокомунікацій.
Посилання
Ekman, P. Basic emotions. Handbook of cognition and emotion, 1999. 45-60.
Fredrickson, B. L. The role of positive emotions in positive psychology: The broaden-and-build theory of positive emotions. American psychologist, 2001. 56(3), 218-226.
Facereader. URL: https://www.noldus.com/facereader
Happy? Sad? Angry? This Microsoft tool recognizes emotions in pictures. URL: https://blogs.microsoft.com/ai/happy-sad-angry-this-microsoft-tool-recognizesemotions-in-pictures/
Understanding Audio data, Fourier Transform, FFT and Spectrogram features for a Speech Recognition System. URL: https://towardsdatascience.com/understandingaudio-data-fourier-transform-fft-spectrogram-and-speech-recognition-a4072d228520
Савчук Т. О., Пастух І. П. Розпізнавання емоцій учасників відеоконференцій в Microsoft Teams. Таврійський науковий вісник. Серія: Технічні науки. Херсон: Видавничий дім «Гельветика», 2023. Вип. 6. С. 18-24. https://doi.org/10.32851/tnvtech.
6.3