DOI: https://doi.org/10.20998/2522-9052.2020.3.14

Аналіз впливу методів попередньої обробки тексту на роботу класифікатора деструктивних повідомлень

Oleksandr Orlovskyi, Sergey Ostapov

Анотація


Проблема. Соціальні мережі все частіше стають середовищем для погроз, образ, ненормативної лексики та інших деструктивних проявів людського спілкування. В онлайнових платформах сьогодні задіяна величезна кількість людей, а об'єм створеного контенту та реакцій на нього постійно б'є рекордні показники. Тому виникає потреба в автоматизації діяльності із детектування та протидії антисоціальним впливам. Одним із важливих напрямків такої діяльності є виявлення токсичних коментарів, що містять погрози, образи, ненормативну лексику, зневагу до оточуючих тощо. Для виконання такої задачі зазвичай будують класифікатор, заснований на нейронних мережах. А для їх навчання використовують зібраний власно або публічно доступний набір даних. В статті досліджується, як різні методи попередньої обробки вхідних даних впливають на кінцеву точність роботи класифікатора. Попередні дослідження в цьому напрямку підтвердили присутність впливу на результат, але не дозволили зробити остаточних висновків про ефективність. Мета. Дослідження впливу методів попередньої обробки текстових даних на результат роботи класифікатора деструктивних повідомлень. Результати. Продемонстровано, що вплив конкретного методу може досить сильно залежати від контенту в наборі даних. Крім цього, відзначено, що інколи вплив може бути незначним, а в деяких випадках може призводити навіть до погіршення результату. Також обґрунтовано необхідність попередньої перевірки набору даних на відсоток елементів, що підпадають під дію конкретного методу. Оригінальність. Проведено оцінку методів попередньої обробки даних на прикладі англомовного та російськомовного наборів даних. Практична значущість. Отримані результати дозволяють якісніше приймати рішення про використання тих чи інших методів попередньої обробки для підвищення точності прогнозів класифікатора деструктивних повідомлень.

Ключові слова


препроцесінг даних; виявлення деструктивних текстових даних; нейронні мережі; інтелектуальний аналіз даних; набір даних; обробка даних; класифікатор

Повний текст:

PDF (English)

Посилання


(2020), Social Network Ranking, available at: https://www.statista.com/statistics/272014/global-social-networksranked-by-number-of-users/.

Dadvar. M., Trieschnigg. D., Ordelman. R. and de Jong, F. (2013), “Improving Cyberbullying Detection with User Context”, Serdyukov P. et al. (eds), Advances in Information Retrieval. ECIR 2013, Lecture Notes in Computer Science, vol 7814. Springer, Berlin, Heidelberg.

Salminen, J., Almerekhi, H., Milenkovic, M., Jung, S., An, J., Kwak, H., & Jansen, B.J. (2017), “Anatomy of Online Hate: Developing a Taxonomy and Machine Learning Models for Identifying and Classifying Hate”, Online News Media. ICWSM.

Shtovba, S. D., Shtovba, O. V., Yakhymovych, O. V. and Petrychko, M. V. (2019), “Vplyv syntaksychnykh zviazkiv u rechenniakh na yakist identyfikatsii toksychnykh komentariv v sotsialnii merezhi”, Informatsiini tekhnolohii ta kompiuterna tekhnika, VNTU, Vinnytsia, No. 4, DOI: https://doi.org/10.31649/2307-5376-2019-4-35-42.

Pavlopoulos, J., Sorensen, J., Dixon, L., Thain, N., & Androutsopoulos, I. (2020), “Toxicity Detection: Does Context Really Matter?”, arXiv preprint, arXiv: 2006.00998.

Noever, D. (2018), “Machine learning suites for online toxicity detection”, arXiv preprint, arXiv:1810.01869.

van Aken, B., Risch, J., Krestel, R., & Löser, A. (2018), “Challenges for toxic comment classification: An in-depth error analysis”, arXiv preprint, arXiv:1809.07572.

Mohammad, Fahim (2018), “Is preprocessing of text really worth your time for toxic comment classification?”, Proceedings on the International Conference on Artificial Intelligence (ICAI), The Steering Committee of The World Congress in Computer Science, Computer Engineering and Applied Computing (WorldComp), pp. 447-453.

(2020), Toxic Comment Classification Challenge, available at:

https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data.

(2020), Russian Language Toxic Comments. Small dataset with labeled comments from 2ch.hk and pikabu.ru, available at: https://www.kaggle.com/blackmoon/russian-language-toxic-comments.

(2020), Tackling Toxic Using Keras, available at: https://www.kaggle.com/sbongo/for-beginners-tackling-toxic-using-keras.

(2020), An Intuitive Understanding of Word Embeddings: From Count Vectors to Word2Vec , available at:

https://www.analyticsvidhya.com/blog/2017/06/word-embeddings-count-word2veec/.




Copyright (c) 2020 Oleksandr Orlovskyi, Sergey Ostapov