<?xml version="1.0" encoding="UTF-8"?>
<article article-type="research-article" dtd-version="1.3" xml:lang="ru" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:noNamespaceSchemaLocation="https://metafora.rcsi.science/xsd_files/journal3.xsd">
  <front>
    <journal-meta>
      <journal-id journal-id-type="publisher-id">moitvivt</journal-id>
      <journal-title-group>
        <journal-title xml:lang="ru">Моделирование, оптимизация и информационные технологии</journal-title>
        <trans-title-group xml:lang="en">
          <trans-title>Modeling, Optimization and Information Technology</trans-title>
        </trans-title-group>
      </journal-title-group>
      <issn pub-type="epub">2310-6018</issn>
      <publisher>
        <publisher-name>Издательство</publisher-name>
      </publisher>
    </journal-meta>
    <article-meta>
      <article-id pub-id-type="doi">10.26102/2310-6018/2020.28.1.034</article-id>
      <article-id pub-id-type="custom" custom-type="elpub">729</article-id>
      <title-group>
        <article-title xml:lang="ru">Классификация потоковых данных на основе байесовского критерия</article-title>
        <trans-title-group xml:lang="en">
          <trans-title>Stream data classification based on bayesian criteria</trans-title>
        </trans-title-group>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author" corresp="yes">
          <name-alternatives>
            <name name-style="eastern" xml:lang="ru">
              <surname>Ломакина</surname>
              <given-names>Любовь Сергеевна</given-names>
            </name>
            <name name-style="western" xml:lang="en">
              <surname>Lomakina</surname>
              <given-names>Lyubov Sergeevna</given-names>
            </name>
          </name-alternatives>
          <email>llomakina@list.ru</email>
          <xref ref-type="aff">aff-1</xref>
        </contrib>
        <contrib contrib-type="author" corresp="yes">
          <name-alternatives>
            <name name-style="eastern" xml:lang="ru">
              <surname>Субботин</surname>
              <given-names>Артем Николаевич</given-names>
            </name>
            <name name-style="western" xml:lang="en">
              <surname>Subbotin</surname>
              <given-names>Artem Nikolaevich</given-names>
            </name>
          </name-alternatives>
          <email>turnonmore@yandex.ru</email>
          <xref ref-type="aff">aff-2</xref>
        </contrib>
      </contrib-group>
      <aff-alternatives id="aff-1">
        <aff xml:lang="ru">Нижегородский Государственный Технический Университет им. Р.Е. Алексеева</aff>
        <aff xml:lang="en">Nizhny Novgorod State University N. A. R.E. Alekseev</aff>
      </aff-alternatives>
      <aff-alternatives id="aff-2">
        <aff xml:lang="ru">Нижегородский Государственный Технический Университет им. Р.Е. Алексеева ООО «СВТЕКНН»</aff>
        <aff xml:lang="en">Nizhny Novgorod State University N. A. R.E. Alekseev «СВТЕКНН», LLC</aff>
      </aff-alternatives>
      <pub-date pub-type="epub">
        <day>01</day>
        <month>01</month>
        <year>2026</year>
      </pub-date>
      <volume>1</volume>
      <issue>1</issue>
      <elocation-id>10.26102/2310-6018/2020.28.1.034</elocation-id>
      <permissions>
        <copyright-statement>Copyright © Авторы, 2026</copyright-statement>
        <copyright-year>2026</copyright-year>
        <license license-type="creative-commons-attribution" xlink:href="https://creativecommons.org/licenses/by/4.0/">
          <license-p>This work is licensed under a Creative Commons Attribution 4.0 International License</license-p>
        </license>
      </permissions>
      <self-uri xlink:href="https://moitvivt.ru/ru/journal/article?id=729"/>
      <abstract xml:lang="ru">
        <p>Рассматривается проблема классификации потоковых данных, поступающих из&#13;
различных источников в случайные моменты времени. Это может быть поток данных,&#13;
содержащих результаты измерения датчиков, расположенных в прибрежных зонах&#13;
океанов, позволяющий оценивать параметры состояния экосистемы, и также поток&#13;
текстов, получаемых, например, в письмах электронной почты и т. д. Интернет содержит&#13;
большие объёмы неструктурированной информации, отсутствие организации которых делает&#13;
работу с данными неудобной и ресурсоёмкой. Преодоление указанного недостатка является&#13;
актуальной задачей. Классификация служит инструментом, позволяющим облегчить работу с&#13;
неструктурированной информацией. Разработан алгоритм классификации потоковых данных на&#13;
основе байесовского критерия. Построена математическая модель потоковых текстовых данных,&#13;
позволяющая применять алгоритмы классификации текстов на естественном языке на потоковых&#13;
данных. Предложена модификация наивного байесовского классификатора, использующая&#13;
характеристику tf-idf как меру принадлежности терминов классам, позволяющая улучшить&#13;
качество классификации. Классификатор был обучен с помощью машинного фонда русского&#13;
языка. Разработано программное обеспечение, позволяющее извлекать потоковые текстовые&#13;
данные из сети Интернет и производить классификацию разработанным алгоритмом в реальном&#13;
времени.</p>
      </abstract>
      <trans-abstract xml:lang="en">
        <p>The paper describes the issue of stream data classification. Stream data is described as a set of&#13;
objects arriving from different sources at random moments of time. It might be a stream of data&#13;
containing ocean coastal area sensors measure information and describing the parameters of the&#13;
ecosystem condition, as well, it might be a stream of texts acquired from incoming emails attachments,&#13;
etc. The Internet contains vast volumes of unstructured information. The lack of organization makes&#13;
data inconvenient and resource-intensive to work with. Addressing to such an issue considered to be a&#13;
relevant problem. Classification provides an opportunity to make it easier to work with unstructured&#13;
information. The paper describes the algorithm for stream data classification based on Bayesian criteria.&#13;
Text stream data model is proposed. This model allows applying natural language text classification&#13;
algorithms to stream data. Naive Bayes classifier modification using tf-idf measure for evaluating the proximity of a classified document to a particular class that allows improving the classification quality&#13;
is proposed. The classifier has been trained using the machine Fund of the Russian language. Software&#13;
allowing text data stream extraction from the Internet and its classification using the proposed algorithm&#13;
in real-time scale is proposed.</p>
      </trans-abstract>
      <kwd-group xml:lang="ru">
        <kwd>классификация</kwd>
        <kwd>классификатор</kwd>
        <kwd>поток данных</kwd>
        <kwd>байесовский критерий</kwd>
        <kwd>байесовский классификатор</kwd>
      </kwd-group>
      <kwd-group xml:lang="en">
        <kwd>classification</kwd>
        <kwd>data stream</kwd>
        <kwd>naive bayesian classifier</kwd>
        <kwd>bayesian criteria</kwd>
      </kwd-group>
      <funding-group>
        <funding-statement xml:lang="ru">Исследование выполнено без спонсорской поддержки.</funding-statement>
        <funding-statement xml:lang="en">The study was performed without external funding.</funding-statement>
      </funding-group>
    </article-meta>
  </front>
  <back>
    <ref-list>
      <title>References</title>
      <ref id="cit1">
        <label>1</label>
        <mixed-citation xml:lang="ru">Lomakina L.S., Subbotin A.N., Surkova A.S. Naïve Bayes Modification for Data Streams&#13;
Classification. Proceedings of the Thirteenth International MEDCOAST Congress on&#13;
Coastal and Marine Sciences, Engineering, Management and Conservation (MEDCOAST&#13;
2017). 2017;2:805-814.&#13;
</mixed-citation>
      </ref>
      <ref id="cit2">
        <label>2</label>
        <mixed-citation xml:lang="ru">Большакова Е.И., Клышинский Э.С., Ландэ Д.В., Носков А.А., Пескова О.В., Ягунова&#13;
Е.В. Автоматическая обработка текстов на естественном языке и компьютерная&#13;
лингвистика: учеб. Пособие. М.: МИЭМ. 2011.</mixed-citation>
      </ref>
      <ref id="cit3">
        <label>3</label>
        <mixed-citation xml:lang="ru">Gaber М.М., Zaslavsky A., Krishnaswamy S. A Survey of Classification Methods in Data&#13;
Streams. Data Streams; Ed. by Aggarwal С.C. Springer US. 2007.</mixed-citation>
      </ref>
      <ref id="cit4">
        <label>4</label>
        <mixed-citation xml:lang="ru">Berry M.W., Kogan J. Text Mining. Applications and Theory. Wiley. 2010.&#13;
</mixed-citation>
      </ref>
      <ref id="cit5">
        <label>5</label>
        <mixed-citation xml:lang="ru">Ломакина Л.С., Ломакин Д.В., Субботин А.Н. Байесовская классификация текстовых&#13;
потоков. Системы управления и информационные технологии. 2016;4(66):60-64.</mixed-citation>
      </ref>
      <ref id="cit6">
        <label>6</label>
        <mixed-citation xml:lang="ru">Субботин А.Н. Алгоритм классификации потоков текстовой информации на&#13;
естественном языке. Научно-технический вестник Поволжья. 2020;1:18-21.</mixed-citation>
      </ref>
      <ref id="cit7">
        <label>7</label>
        <mixed-citation xml:lang="ru">Ломакина Л.С., Ломакин Д.В., Субботин А.Н. Программа классификации потоков&#13;
текстовых данных на основе байесовского подхода. Свидетельство государственной&#13;
регистрации программы для ЭВМ № 2017611236, 31 октября 2016 г. </mixed-citation>
      </ref>
    </ref-list>
    <fn-group>
      <fn fn-type="conflict">
        <p>The authors declare that there are no conflicts of interest present.</p>
      </fn>
    </fn-group>
  </back>
</article>