Ключевые слова: семантическая близость, обработка текстов, нейросети, ruBERT, морфологический анализ, синтаксический анализ, семантический анализ, заимствования, первоисточник
Мера семантической близости текстов
УДК 004.912
DOI: 10.26102/2310-6018/2025.50.3.017
В статье рассматривается задача автоматического определения семантической близости текстов, направленная на выявление первоисточников и заимствований в новостных материалах. Представлен двухфазный алгоритм, который на первом этапе использует косинусную меру близости для предварительной фильтрации текстов, а на втором – рассчитывает несимметричную взвешенную меру семантической близости с применением моделей RuBERT. Алгоритм осуществляет комплексный анализ текстов, учитывая их морфологические, синтаксические и семантические особенности, и демонстрирует устойчивость к типичным ошибкам, встречающимся в новостных материалах. Разработанный алгоритм включает этапы лингвистической обработки текстов, построения инвертированных индексов и расчета мер близости с использованием различных лингвистических признаков. Особое внимание уделяется обработке предложений: взвешиванию по TF-IDF, удалению дубликатов и анализу пересечений. Для оценки семантической близости предложений применяется система взвешенных показателей, учитывающих лексические, морфологические, синтаксические и семантические особенности. Экспериментальная часть работы направлена на определение оптимальных параметров алгоритма, таких как пороговые значения и весовые коэффициенты для различных лингвистических признаков. Результаты эксперимента показывают, что предложенный алгоритм эффективно выявляет заимствования, включая случаи значительной переработки текстов, с высокой полнотой на этапе фильтрации и повышенной точностью после семантического анализа. Алгоритм особенно полезен для автоматического формирования новостных обзоров и мониторинга заимствований в региональных СМИ.
1. Николенко С., Кадурин А., Архангельская Е. Глубокое обучение. Санкт-Петербург: Питер; 2018. 480 с.
2. Feldman R., Sanger J. The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. New York: Cambridge University Press; 2007. 410 p.
3. Tseng Yu.-H., Lin Ch.-J., Lin Yu-I. Text Mining Techniques for Patent Analysis. Information Processing & Management. 2007;43(5):1216–1247. https://doi.org/10.1016/j.ipm.2006.11.011
4. Ефименко И.В. Обработка естественно-языковых текстов: онтологичность в лингвистике и дискурсивность в извлечении знаний. В сборнике: КИИ-2006: десятая национальная конференция по искусственному интеллекту с международным участием: труды конференции: Том 2, 25–28 сентября 2006 года, Обнинск, Россия. Москва: Физматлит; 2006. С. 230–234.
5. Mikolov T., Chen K., Corrado G., Dean J. Efficient Estimation of Word Representations in Vector Space. arXiv. URL: https://arxiv.org/abs/1301.3781 [Accessed 28th March 2025].
6. Mikolov T., Sutskever I., Chen K., Corrado G.S., Dean J. Distributed Representations of Words and Phrases and Their Compositionality. In: NIPS 2013: Advances in Neural Information Processing Systems 26: 27th Annual Conference on Neural Information Processing Systems 2013, 05–08 December 2013, Lake Tahoe, NV, USA. 2013. P. 3111–3119.
7. Dobrov B.V., Loukachevitch N.V. Multiple Evidence for Term Extraction in Broad Domains. In: RANLP 2011: Recent Advances in Natural Language Processing, 12–14 September 2011, Hissar, Bulgaria. Association for Computational Linguistics; 2011. P. 710–715.
8. Delgado M., Martín-Bautista M.J., Sánchez D., Vila M.A. Mining Text Data: Special Features and Patterns. In: Pattern Detection and Discovery: ESF Exploratory Workshop, 16–19 September 2002, London, UK. Berlin, Heidelberg: Springer; 2002. P. 140–153. https://doi.org/10.1007/3-540-45728-3_11
9. Hu K., Wu H., Qi K., et al. A Domain Keyword Analysis Approach Extending Term Frequency-Keyword Active Index with Google Word2vec Model. Scientometrics. 2018;114(3):1031–1068. https://doi.org/10.1007/s11192-017-2574-9
10. Cruse D.A. Meaning in Language: An Introduction to Semantics and Pragmatics. Oxford: Oxford University Press; 2011. 497 p.
11. Соченков И.В. Метод сравнения текстов для решения поисково-аналитических задач. Искусственный интеллект и принятие решений. 2013;(2):32–43.
12. Salton G., Buckley Ch. Term-Weighting Approaches in Automatic Text Retrieval. Information Processing & Management. 1988;24(5):513–523. https://doi.org/10.1016/0306-4573(88)90021-0
13. Luhn H.P. A Statistical Approach to Mechanized Encoding and Searching of Literary Information. IBM Journal of Research and Development. 1957;1(4):309–317. https://doi.org/10.1147/rd.14.0309
14. Jones K.S. A Statistical Interpretation of Term Specificity and Its Application in Retrieval. Journal of Documentation. 1972;28(1):11–21. https://doi.org/10.1108/eb026526
15. Jing L.-P., Huang H.-K., Shi H.-B. Improved Feature Selection Approach TFIDF in Text Mining. In: 2002 International Conference on Machine Learning and Cybernetics, 04–05 November 2002, Beijing, China. IEEE; 2002. P. 944–946. https://doi.org/10.1109/ICMLC.2002.1174522
16. Zubarev D.V., Sochenkov I.V. Paraphrased Plagiarism Detection Using Sentence Similarity. In: Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегодной Международной конференции «Диалог», 31 May – 03 June 2017, Moscow, Russia. Moscow: Russian State University for the Humanities; 2017. P. 399–408.
Ключевые слова: семантическая близость, обработка текстов, нейросети, ruBERT, морфологический анализ, синтаксический анализ, семантический анализ, заимствования, первоисточник
Для цитирования: Шиян В.И. Мера семантической близости текстов. Моделирование, оптимизация и информационные технологии. 2025;13(3). URL: https://moitvivt.ru/ru/journal/pdf?id=1940 DOI: 10.26102/2310-6018/2025.50.3.017
Поступила в редакцию 01.05.2025
Поступила после рецензирования 10.07.2025
Принята к публикации 14.07.2025