<?xml version="1.0" encoding="UTF-8"?>
<article article-type="research-article" dtd-version="1.3" xml:lang="ru" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:noNamespaceSchemaLocation="https://metafora.rcsi.science/xsd_files/journal3.xsd">
  <front>
    <journal-meta>
      <journal-id journal-id-type="publisher-id">moitvivt</journal-id>
      <journal-title-group>
        <journal-title xml:lang="ru">Моделирование, оптимизация и информационные технологии</journal-title>
        <trans-title-group xml:lang="en">
          <trans-title>Modeling, Optimization and Information Technology</trans-title>
        </trans-title-group>
      </journal-title-group>
      <issn pub-type="epub">2310-6018</issn>
      <publisher>
        <publisher-name>Издательство</publisher-name>
      </publisher>
    </journal-meta>
    <article-meta>
      <article-id pub-id-type="doi">10.26102/2310-6018/2021.32.1.025</article-id>
      <article-id pub-id-type="custom" custom-type="elpub">944</article-id>
      <title-group>
        <article-title xml:lang="ru">Тематический анализ текстовой информации на основе частотных характеристик</article-title>
        <trans-title-group xml:lang="en">
          <trans-title>Thematic Analysis of Text Information Based on Frequency Characteristics</trans-title>
        </trans-title-group>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author" corresp="yes">
          <contrib-id contrib-id-type="orcid">0000-0002-6911-8053</contrib-id>
          <name-alternatives>
            <name name-style="eastern" xml:lang="ru">
              <surname>Преображенский</surname>
              <given-names>Андрей Петрович</given-names>
            </name>
            <name name-style="western" xml:lang="en">
              <surname>Preobrazhenskiy</surname>
              <given-names>Andrey Petrovich</given-names>
            </name>
          </name-alternatives>
          <email>app@vivt.ru</email>
          <xref ref-type="aff">aff-1</xref>
        </contrib>
        <contrib contrib-type="author" corresp="yes">
          <name-alternatives>
            <name name-style="eastern" xml:lang="ru">
              <surname>Меняйлов</surname>
              <given-names>Дмитрий Владимирович</given-names>
            </name>
            <name name-style="western" xml:lang="en">
              <surname>Menyaylov</surname>
              <given-names>Dmitriy Vladimirovich</given-names>
            </name>
          </name-alternatives>
          <email>dmitriy.menyaylov111@yandex.ru</email>
          <xref ref-type="aff">aff-2</xref>
        </contrib>
        <contrib contrib-type="author" corresp="yes">
          <name-alternatives>
            <name name-style="eastern" xml:lang="ru">
              <surname>Чопорова</surname>
              <given-names>Екатерина Ивановна</given-names>
            </name>
            <name name-style="western" xml:lang="en">
              <surname>Choporova</surname>
              <given-names>Ejkaterina Ivanovna</given-names>
            </name>
          </name-alternatives>
          <email>choporov_oleg@mail.ru</email>
          <xref ref-type="aff">aff-3</xref>
        </contrib>
      </contrib-group>
      <aff-alternatives id="aff-1">
        <aff xml:lang="ru">Воронежский институт высоких технологий</aff>
        <aff xml:lang="en">Voronezh Institute of High Technologies</aff>
      </aff-alternatives>
      <aff-alternatives id="aff-2">
        <aff xml:lang="ru">Воронежский институт высоких технологий</aff>
        <aff xml:lang="en">Voronezh Institute of High Technologies</aff>
      </aff-alternatives>
      <aff-alternatives id="aff-3">
        <aff xml:lang="ru">Воронежский институт высоких технологий</aff>
        <aff xml:lang="en">Voronezh Institute of High Technologies</aff>
      </aff-alternatives>
      <pub-date pub-type="epub">
        <day>01</day>
        <month>01</month>
        <year>2026</year>
      </pub-date>
      <volume>1</volume>
      <issue>1</issue>
      <elocation-id>10.26102/2310-6018/2021.32.1.025</elocation-id>
      <permissions>
        <copyright-statement>Copyright © Авторы, 2026</copyright-statement>
        <copyright-year>2026</copyright-year>
        <license license-type="creative-commons-attribution" xlink:href="https://creativecommons.org/licenses/by/4.0/">
          <license-p>This work is licensed under a Creative Commons Attribution 4.0 International License</license-p>
        </license>
      </permissions>
      <self-uri xlink:href="https://moitvivt.ru/ru/journal/article?id=944"/>
      <abstract xml:lang="ru">
        <p>В настоящее время происходит активное развитие методов, связанных с исследованием текстовых массивов. При этом подобные подходы нацелены либо на то, чтобы измерять пространственные характеристики в текстовых массивах, таких как длины строк, размеры шрифтов и т. п., либо на рассмотрение общелингвистических задач, в которых изучаются смыслонесущие единицы, такие как предложения, фразы и др. Во втором классе задач перспективным можно считать использование частотного анализа. В работе дан анализ подходов, которые могут при этом использоваться. Авторами составлен алгоритм обработки текста на естественном языке. Созданный в работе программным образом алгоритм реализуется с помощью Python, Jupyter Notebook, wordcloud, NLTK. При обработке текстовый массив разбивается на слова, после чего происходит формирование списка токенов. Даны рекомендации по удалению союзов, предлогов и других частей речи, чтобы осуществлять полноценный анализ тематики. Показаны основные этапы алгоритма частотного анализа текста, которые заключаются в том, что выгружаются данные, производится первичная обработка текстовых массивов, осуществляется процесс замены слов, проводится оценка статистических данных, убираются лишние слова, осуществляется визуальное представление. В статье продемонстрирован пример фрагментов программного кода, описывающих работу ключевых этапов алгоритма.</p>
      </abstract>
      <trans-abstract xml:lang="en">
        <p>Currently, there is a development of methods related to the study of text arrays. In doing so, they aim to either measure their spatial characteristics, such as line lengths, font sizes, etc. or for consideration of general linguistic problems, in which the study of meaning-bearing units, such as sentences, phrases, etc., is carried out. In the second class of problems, the use of frequency analysis can be considered promising. The paper analyzes the approaches that can be used in this case. The authors in the article developed an algorithm for processing text in a natural language.The algorithm created in the work is programmatically implemented using Python, Jupyter Notebook, wordcloud, NLTK. During processing, the text array is split into words, after which a list of tokens is formed. Recommendations are given for removing conjunctions, prepositions and other parts of speech in order to carry out a full analysis of the topic. The main stages of the text frequency analysis algorithm are shown. They consist in the fact that the data are unloaded, the primary processing of text arrays is carried out, after which the process of replacing words is carried out, the statistical data are evaluated, unnecessary words are removed, and a visual presentation is carried out. The main stages of the algorithm have also been demonstrated based on fragments of the program code.</p>
      </trans-abstract>
      <kwd-group xml:lang="ru">
        <kwd>текстовая информация</kwd>
        <kwd>модель</kwd>
        <kwd>частотный анализ</kwd>
        <kwd>программа</kwd>
        <kwd>слово</kwd>
        <kwd>язык</kwd>
      </kwd-group>
      <kwd-group xml:lang="en">
        <kwd>text information</kwd>
        <kwd>model</kwd>
        <kwd>frequency analysis</kwd>
        <kwd>program</kwd>
        <kwd>word</kwd>
        <kwd>language</kwd>
      </kwd-group>
      <funding-group>
        <funding-statement xml:lang="ru">Исследование выполнено без спонсорской поддержки.</funding-statement>
        <funding-statement xml:lang="en">The study was performed without external funding.</funding-statement>
      </funding-group>
    </article-meta>
  </front>
  <back>
    <ref-list>
      <title>References</title>
      <ref id="cit1">
        <label>1</label>
        <mixed-citation xml:lang="ru">Свиридов В.И., Чопорова Е.И., Свиридова Е.В. Лингвистическое обеспечение автоматизированных систем управления и взаимодействие пользователя с компьютером Моделирование, оптимизация и информационные технологии. 2019;1(24):430-438.</mixed-citation>
      </ref>
      <ref id="cit2">
        <label>2</label>
        <mixed-citation xml:lang="ru">Цепковская Т.А., Чопорова Е.И. Проблемы построения автоматизированных обучающих систем Моделирование, оптимизация и информационные технологии. 2017;1(16):20.</mixed-citation>
      </ref>
      <ref id="cit3">
        <label>3</label>
        <mixed-citation xml:lang="ru">Осочкин А.А., Фомин В.В., Флегонтов А.В. Метод частотно-морфологической классификации текстов.  Программные продукты и системы. 2017;3(30):478–486.</mixed-citation>
      </ref>
      <ref id="cit4">
        <label>4</label>
        <mixed-citation xml:lang="ru">Смирнова И.Г., Чопорова Е.И., Серостанова Н.Н. Особенности разработки профильных учебных пособий по иностранному языку с учетом формирования информационно-коммуникативной компетенции обучающихся. Вестник Воронежского института высоких технологий. 2017;3(22):64-68.</mixed-citation>
      </ref>
      <ref id="cit5">
        <label>5</label>
        <mixed-citation xml:lang="ru">Шеменков П.С. Нейросетевой метод извлечения знаний на основе совместной встречаемости ключевых термов. Сборник материалов 61 научно-технической конференции профессорско-преподавательского состава, СПб ГУТ.2009:42–43.</mixed-citation>
      </ref>
      <ref id="cit6">
        <label>6</label>
        <mixed-citation xml:lang="ru">Третьяков Ф.И., Серебряная Л.В. Методы автоматического построения рефератов на основе частотного анализа текстов. Доклады  Белорусского  государственного университета информатики и радиоэлектроники. 2014;3(81):40–44.</mixed-citation>
      </ref>
      <ref id="cit7">
        <label>7</label>
        <mixed-citation xml:lang="ru">Шумилина Т.В. Применение частотного анализа текстов СМИ для оптимизации процесса коммуникации.  Вестник Московского Университета. Сер. 10. Журналистика. 2017;(2):67–79.</mixed-citation>
      </ref>
      <ref id="cit8">
        <label>8</label>
        <mixed-citation xml:lang="ru">Тхан Б. Х., Лупин С.А., Тайк А. М., Тун Х. Статическая балансировка нагрузки в параллельной реализации алгоритма частотного анализа текстовой информации. International Journal of Open Information Technologies. 2016;4(11):27-33.</mixed-citation>
      </ref>
      <ref id="cit9">
        <label>9</label>
        <mixed-citation xml:lang="ru">Ляшевская О. Н., Шаров С. А. Частотный словарь современного русского языка (на материалах Национального корпуса русского языка). М: Азбуковник, 2009.</mixed-citation>
      </ref>
    </ref-list>
    <fn-group>
      <fn fn-type="conflict">
        <p>The authors declare that there are no conflicts of interest present.</p>
      </fn>
    </fn-group>
  </back>
</article>