ДОСЛІДЖЕННЯ МЕТОДІВ ВЕКТОРИЗАЦІЇ ТЕКСТІВ У ЗАДАЧАХ ВАЛІДАЦІЇ ВІДПОВІДЕЙ, ПОДАНИХ ПРИРОДНОЮ МОВОЮ

Автор(и)

DOI:

https://doi.org/10.32851/tnv-tech.2021.6.5

Ключові слова:

відповідь, подана у текстовій формі, природномовний текст, відповідь відкритого типу, векторизація тексту, модель bag-of-words, TF, IDF, TF-IDF, TF-PWI, набір ознак для векторизації тексту

Анотація

Інтелектуалізація процесу обробки природномовних текстів у задачах автоматизованого тестування зумовлює актуальність дослідження. Оскільки відповіді відкритого типу в системах тестування є природномовними текстами, то завдання їх обробки належить до прикладної задачі обробки текстів. Усі прикладні задачі обробки текстів, рішення яких відбувається з використанням машинного навчання, нейромереж, вимагають векторизації – перетворення тексту на цифрові послідовності. Метою статті є дослідження моделей, методів векторизації текстів у задачах обробки відповідей, поданих природною мовою. На першому етапі досліджено базові прикладні задачі обробки текстів і наведено їх класифікацію. Обґрунтовано віднесення задачі перевірки природномовних відповідей у межах цього дослідження до задач класифікації текстів і семантичного аналізу. На другому етапі проаналізовано базові моделі представлення тексту в цифровому вигляді: bag-of-words та дистрибутивну семантику. Обґрунтовано застосування моделі bag-of-words для задачі обробки відповідей відкритого типу, оскільки для визначення класу відповіді досить складу словника, який застосовується для кодування колекції правильних відповідей, і частоти слів, з якою вони застосовуються у відповідях «навчального» та «тестового» наборів даних. Зауважено, що вектором ознак у цій задачі є частоти появи токенів (символьні або словесні уні-, бі-, n-грами) словника, сформованого за навчальною вибіркою, у відповідях «навчального» та «тестового» наборів даних. На третьому етапі досліджено підходи до обчислення вектора ознак: абсолютну частоту (TF), відносну частоту (TF-IDF), сумісну інформацію (PWI), визначено переваги та недоліки кожного з них. На останньому етапі для векторизації текстів у задачах обробки відповідей, поданих природною мовою, запропоновано такі комбінації наборів ознак: модель bag-of-words та TF; модель bag-of-words та TF-IDF; словесні n-грами та TF-IDF; символьні n-грами та TF-IDF; модель bag-of-words та TF-PWI. Запропоновані набори ознак та їх комбінації є засобами покращення моделі машинного навчання для задачі перевірки відповідей, поданих природною мовою. Подальші дослідження будуть спрямовані на розробку моделі машинного навчання цієї задачі та її експериментальне тестування із запропонованими наборами ознак для отримання ефективної математичної моделі.

Посилання

Zhang L.J. et al. Deep learning for sentiment analysis: A survey. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery. 2018. DOI: 10.1002/widm.1253.

Лесько О.М., Рогушина Ю.В. Использование онтологий для анализа семантики естественно-языковых текстов. Проблеми програмування. 2009. № 3. С. 59−65.

Ваколюк Т.В., Комарницька О.І. Алгоритм нечіткого семантичного порівняння текстової інформації. Збірник наукових праць Військового інституту Київського національного університету ім. Т. Шевченка. 2013. № 39. С. 163−168.

Цыганов Н.Л., Циканин М.А. Исследование методов поиска дубликатов веб-документов с учетом запроса пользователя. Интернет-математика-2007 : сборник работ участников конкурса. 2007. Екатеринбург : Издательство Уральского университета. С. 211–222.

Mutabazi E. et al. A Review on Medical Textual Question Answering Systems Based on Deep Learning Approaches. Applied Sciences. 2021. No. 11 (12). DOI: 10.3390/app11125456.

Rocktäschel T. et al. Reasoning about entailment with neural attention. arXiv preprint arXiv.1509.06664. 2015.

Ampomah I.K., Park S.B., Lee S.J. A Sentence-to-Sentence Relation Network for Recognizing Textual Entailment. World Academy of Science, Engineering and Technology International Journal of Computer and Information Engineering. 2016. Nov. 1; 10 (12): 1955-8.

Годич О.В., Наконечний Ю.С., Щербина Ю.М. Категоризація електронних документів. Вісник Національного університету «Львівська політехніка» «Інформаційні системи та мережі». 2010. № 673. С. 233–248.

Euclidean norm. Wikipedia: the free encyclopedia. URL: https://en.wikipedia.org/wiki/Norm_(mathematics) (дата звернення: 15.09.2021 р.).

Zipf’s law. Wikipedia: the free encyclopedia. URL: https://en.wikipedia.org/wiki/Zipf%27s_law (дата звернення: 15.09.2021 р.).

TF-IDF. Wikipedia: the free encyclopedia. URL: https://en.wikipedia.org/wiki/Tf-idf (дата звернення: 20.11.2021 р.).

Pointwise mutual information. Wikipedia: the free encyclopedia. URL: https://en.wikipedia.org/wiki/Pointwise_mutual_information (дата звернення: 20.11.2021 р.).

Mutual information. Wikipedia: the free encyclopedia. URL: https://en.wikipedia.org/wiki/Mutual_information (дата звернення: 20.11.2021 р.).

Levy O., Goldberg Yoav. Neural Word Embedding as Implicit Matrix Factorization. Advances in neural information processing systems. 2014. № 27, pp. 2177–2185.

##submission.downloads##

Опубліковано

2022-02-14

Як цитувати

Кузьма, К., & Мельник, О. (2022). ДОСЛІДЖЕННЯ МЕТОДІВ ВЕКТОРИЗАЦІЇ ТЕКСТІВ У ЗАДАЧАХ ВАЛІДАЦІЇ ВІДПОВІДЕЙ, ПОДАНИХ ПРИРОДНОЮ МОВОЮ. Таврійський науковий вісник. Серія: Технічні науки, (6), 36-42. https://doi.org/10.32851/tnv-tech.2021.6.5

Номер

Розділ

КОМП’ЮТЕРНІ НАУКИ ТА ІНФОРМАЦІЙНІ ТЕХНОЛОГІЇ