<?xml version="1.0" encoding="UTF-8"?>
<article article-type="research-article" dtd-version="1.3" xml:lang="ru" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:noNamespaceSchemaLocation="https://metafora.rcsi.science/xsd_files/journal3.xsd">
  <front>
    <journal-meta>
      <journal-id journal-id-type="publisher-id">moitvivt</journal-id>
      <journal-title-group>
        <journal-title xml:lang="ru">Моделирование, оптимизация и информационные технологии</journal-title>
        <trans-title-group xml:lang="en">
          <trans-title>Modeling, Optimization and Information Technology</trans-title>
        </trans-title-group>
      </journal-title-group>
      <issn pub-type="epub">2310-6018</issn>
      <publisher>
        <publisher-name>Издательство</publisher-name>
      </publisher>
    </journal-meta>
    <article-meta>
      <article-id pub-id-type="doi">10.26102/2310-6018/2025.50.3.017</article-id>
      <article-id pub-id-type="custom" custom-type="elpub">1940</article-id>
      <title-group>
        <article-title xml:lang="ru">Мера семантической близости текстов</article-title>
        <trans-title-group xml:lang="en">
          <trans-title>A measure of semantic text similarity</trans-title>
        </trans-title-group>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author">
          <name-alternatives>
            <name name-style="eastern" xml:lang="ru">
              <surname>Шиян</surname>
              <given-names>Валерий Игоревич</given-names>
            </name>
            <name name-style="western" xml:lang="en">
              <surname>Shiyan</surname>
              <given-names>Valery</given-names>
            </name>
          </name-alternatives>
          <email>kubsuteam01@gmail.com</email>
          <xref ref-type="aff">aff-1</xref>
        </contrib>
      </contrib-group>
      <aff-alternatives id="aff-1">
        <aff xml:lang="ru">Кубанский государственный университет</aff>
        <aff xml:lang="en">Kuban State University</aff>
      </aff-alternatives>
      <pub-date pub-type="epub">
        <day>01</day>
        <month>01</month>
        <year>2026</year>
      </pub-date>
      <volume>1</volume>
      <issue>1</issue>
      <elocation-id>10.26102/2310-6018/2025.50.3.017</elocation-id>
      <permissions>
        <copyright-statement>Copyright © Авторы, 2026</copyright-statement>
        <copyright-year>2026</copyright-year>
        <license license-type="creative-commons-attribution" xlink:href="https://creativecommons.org/licenses/by/4.0/">
          <license-p>This work is licensed under a Creative Commons Attribution 4.0 International License</license-p>
        </license>
      </permissions>
      <self-uri xlink:href="https://moitvivt.ru/ru/journal/article?id=1940"/>
      <abstract xml:lang="ru">
        <p>В статье рассматривается задача автоматического определения семантической близости текстов, направленная на выявление первоисточников и заимствований в новостных материалах. Представлен двухфазный алгоритм, который на первом этапе использует косинусную меру близости для предварительной фильтрации текстов, а на втором – рассчитывает несимметричную взвешенную меру семантической близости с применением моделей RuBERT. Алгоритм осуществляет комплексный анализ текстов, учитывая их морфологические, синтаксические и семантические особенности, и демонстрирует устойчивость к типичным ошибкам, встречающимся в новостных материалах. Разработанный алгоритм включает этапы лингвистической обработки текстов, построения инвертированных индексов и расчета мер близости с использованием различных лингвистических признаков. Особое внимание уделяется обработке предложений: взвешиванию по TF-IDF, удалению дубликатов и анализу пересечений. Для оценки семантической близости предложений применяется система взвешенных показателей, учитывающих лексические, морфологические, синтаксические и семантические особенности. Экспериментальная часть работы направлена на определение оптимальных параметров алгоритма, таких как пороговые значения и весовые коэффициенты для различных лингвистических признаков. Результаты эксперимента показывают, что предложенный алгоритм эффективно выявляет заимствования, включая случаи значительной переработки текстов, с высокой полнотой на этапе фильтрации и повышенной точностью после семантического анализа. Алгоритм особенно полезен для автоматического формирования новостных обзоров и мониторинга заимствований в региональных СМИ.</p>
      </abstract>
      <trans-abstract xml:lang="en">
        <p>The article explores the task of automatically determining the semantic similarity of texts, aimed at identifying original sources and instances of borrowing in news materials. A two-phase algorithm is presented: the first stage employs cosine similarity for preliminary text filtering, while the second stage calculates an asymmetric weighted measure of semantic similarity using RuBERT models. The algorithm conducts a comprehensive analysis of texts, taking into account their morphological, syntactic, and semantic features, and demonstrates robustness against typical errors found in news materials. The developed algorithm includes stages of linguistic text processing, inverted index construction, and similarity calculation using various linguistic features. Special attention is given to sentence processing: TF-IDF weighting, duplicate removal, and intersection analysis. To assess the semantic similarity of sentences, a weighted scoring system is applied, incorporating lexical, morphological, syntactic, and semantic characteristics. The experimental part of the study focuses on determining the algorithm's optimal parameters, such as threshold values and weight coefficients for different linguistic features. The results demonstrate that the proposed algorithm effectively detects borrowings, including cases of substantial text modifications, achieving high recall at the filtering stage and improved precision after semantic analysis. The algorithm is particularly useful for automated news digest generation and monitoring text reuse in regional media.</p>
      </trans-abstract>
      <kwd-group xml:lang="ru">
        <kwd>семантическая близость</kwd>
        <kwd>обработка текстов</kwd>
        <kwd>нейросети</kwd>
        <kwd>RuBERT</kwd>
        <kwd>морфологический анализ</kwd>
        <kwd>синтаксический анализ</kwd>
        <kwd>семантический анализ</kwd>
        <kwd>заимствования</kwd>
        <kwd>первоисточник</kwd>
      </kwd-group>
      <kwd-group xml:lang="en">
        <kwd>semantic similarity</kwd>
        <kwd>text processing</kwd>
        <kwd>neural networks</kwd>
        <kwd>RuBERT</kwd>
        <kwd>morphological analysis</kwd>
        <kwd>syntactic analysis</kwd>
        <kwd>semantic analysis</kwd>
        <kwd>borrowings</kwd>
        <kwd>original source</kwd>
      </kwd-group>
      <funding-group>
        <funding-statement xml:lang="ru">Исследование выполнено без спонсорской поддержки.</funding-statement>
        <funding-statement xml:lang="en">The study was performed without external funding.</funding-statement>
      </funding-group>
    </article-meta>
  </front>
  <back>
    <ref-list>
      <title>References</title>
      <ref id="cit1">
        <label>1</label>
        <mixed-citation xml:lang="ru">Николенко С., Кадурин А., Архангельская Е. Глубокое обучение. Санкт-Петербург: Питер; 2018. 480 с.</mixed-citation>
      </ref>
      <ref id="cit2">
        <label>2</label>
        <mixed-citation xml:lang="ru">Feldman R., Sanger J. The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. New York: Cambridge University Press; 2007. 410 p.</mixed-citation>
      </ref>
      <ref id="cit3">
        <label>3</label>
        <mixed-citation xml:lang="ru">Tseng Yu.-H., Lin Ch.-J., Lin Yu-I. Text Mining Techniques for Patent Analysis. Information Processing &amp; Management. 2007;43(5):1216–1247. https://doi.org/10.1016/j.ipm.2006.11.011</mixed-citation>
      </ref>
      <ref id="cit4">
        <label>4</label>
        <mixed-citation xml:lang="ru">Ефименко И.В. Обработка естественно-языковых текстов: онтологичность в лингвистике и дискурсивность в извлечении знаний. В сборнике: КИИ-2006: десятая национальная конференция по искусственному интеллекту с международным участием: труды конференции: Том 2,  25–28 сентября 2006 года, Обнинск, Россия. Москва: Физматлит; 2006. С. 230–234.</mixed-citation>
      </ref>
      <ref id="cit5">
        <label>5</label>
        <mixed-citation xml:lang="ru">Mikolov T., Chen K., Corrado G., Dean J. Efficient Estimation of Word Representations in Vector Space. arXiv. URL: https://arxiv.org/abs/1301.3781 [Accessed 28th March 2025].</mixed-citation>
      </ref>
      <ref id="cit6">
        <label>6</label>
        <mixed-citation xml:lang="ru">Mikolov T., Sutskever I., Chen K., Corrado G.S., Dean J. Distributed Representations of Words and Phrases and Their Compositionality. In: NIPS 2013: Advances in Neural Information Processing Systems 26: 27th Annual Conference on Neural Information Processing Systems 2013, 05–08 December 2013, Lake Tahoe, NV, USA. 2013. P. 3111–3119.</mixed-citation>
      </ref>
      <ref id="cit7">
        <label>7</label>
        <mixed-citation xml:lang="ru">Dobrov B.V., Loukachevitch N.V. Multiple Evidence for Term Extraction in Broad Domains. In: RANLP 2011: Recent Advances in Natural Language Processing, 12–14 September 2011, Hissar, Bulgaria. Association for Computational Linguistics; 2011. P. 710–715.</mixed-citation>
      </ref>
      <ref id="cit8">
        <label>8</label>
        <mixed-citation xml:lang="ru">Delgado M., Martín-Bautista M.J., Sánchez D., Vila M.A. Mining Text Data: Special Features and Patterns. In: Pattern Detection and Discovery: ESF Exploratory Workshop, 16–19 September 2002, London, UK. Berlin, Heidelberg: Springer; 2002. P. 140–153. https://doi.org/10.1007/3-540-45728-3_11</mixed-citation>
      </ref>
      <ref id="cit9">
        <label>9</label>
        <mixed-citation xml:lang="ru">Hu K., Wu H., Qi K., et al. A Domain Keyword Analysis Approach Extending Term Frequency-Keyword Active Index with Google Word2vec Model. Scientometrics. 2018;114(3):1031–1068. https://doi.org/10.1007/s11192-017-2574-9</mixed-citation>
      </ref>
      <ref id="cit10">
        <label>10</label>
        <mixed-citation xml:lang="ru">Cruse D.A. Meaning in Language: An Introduction to Semantics and Pragmatics. Oxford: Oxford University Press; 2011. 497 p.</mixed-citation>
      </ref>
      <ref id="cit11">
        <label>11</label>
        <mixed-citation xml:lang="ru">Соченков И.В. Метод сравнения текстов для решения поисково-аналитических задач. Искусственный интеллект и принятие решений. 2013;(2):32–43.</mixed-citation>
      </ref>
      <ref id="cit12">
        <label>12</label>
        <mixed-citation xml:lang="ru">Salton G., Buckley Ch. Term-Weighting Approaches in Automatic Text Retrieval. Information Processing &amp; Management. 1988;24(5):513–523. https://doi.org/10.1016/0306-4573(88)90021-0</mixed-citation>
      </ref>
      <ref id="cit13">
        <label>13</label>
        <mixed-citation xml:lang="ru">Luhn H.P. A Statistical Approach to Mechanized Encoding and Searching of Literary Information. IBM Journal of Research and Development. 1957;1(4):309–317. https://doi.org/10.1147/rd.14.0309</mixed-citation>
      </ref>
      <ref id="cit14">
        <label>14</label>
        <mixed-citation xml:lang="ru">Jones K.S. A Statistical Interpretation of Term Specificity and Its Application in Retrieval. Journal of Documentation. 1972;28(1):11–21. https://doi.org/10.1108/eb026526</mixed-citation>
      </ref>
      <ref id="cit15">
        <label>15</label>
        <mixed-citation xml:lang="ru">Jing L.-P., Huang H.-K., Shi H.-B. Improved Feature Selection Approach TFIDF in Text Mining. In: 2002 International Conference on Machine Learning and Cybernetics, 04–05 November 2002, Beijing, China. IEEE; 2002. P. 944–946. https://doi.org/10.1109/ICMLC.2002.1174522</mixed-citation>
      </ref>
      <ref id="cit16">
        <label>16</label>
        <mixed-citation xml:lang="ru">Zubarev D.V., Sochenkov I.V. Paraphrased Plagiarism Detection Using Sentence Similarity. In: Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегодной Международной конференции «Диалог», 31 May – 03 June 2017, Moscow, Russia. Moscow: Russian State University for the Humanities; 2017. P. 399–408.</mixed-citation>
      </ref>
    </ref-list>
    <fn-group>
      <fn fn-type="conflict">
        <p>The authors declare that there are no conflicts of interest present.</p>
      </fn>
    </fn-group>
  </back>
</article>