References

moitvivt

Моделирование, оптимизация и информационные технологии

Modeling, Optimization and Information Technology

2310-6018

Издательство

10.26102/2310-6018/2021.32.1.025

944

Тематический анализ текстовой информации на основе частотных характеристик

Thematic Analysis of Text Information Based on Frequency Characteristics

0000-0002-6911-8053

Преображенский

Андрей Петрович

Preobrazhenskiy

Andrey Petrovich

app@vivt.ru aff-1

Меняйлов

Дмитрий Владимирович

Menyaylov

Dmitriy Vladimirovich

dmitriy.menyaylov111@yandex.ru aff-2

Чопорова

Екатерина Ивановна

Choporova

Ejkaterina Ivanovna

choporov_oleg@mail.ru aff-3

Воронежский институт высоких технологий Voronezh Institute of High Technologies

01 01 2026

1 1

10.26102/2310-6018/2021.32.1.025

2026

This work is licensed under a Creative Commons Attribution 4.0 International License

В настоящее время происходит активное развитие методов, связанных с исследованием текстовых массивов. При этом подобные подходы нацелены либо на то, чтобы измерять пространственные характеристики в текстовых массивах, таких как длины строк, размеры шрифтов и т. п., либо на рассмотрение общелингвистических задач, в которых изучаются смыслонесущие единицы, такие как предложения, фразы и др. Во втором классе задач перспективным можно считать использование частотного анализа. В работе дан анализ подходов, которые могут при этом использоваться. Авторами составлен алгоритм обработки текста на естественном языке. Созданный в работе программным образом алгоритм реализуется с помощью Python, Jupyter Notebook, wordcloud, NLTK. При обработке текстовый массив разбивается на слова, после чего происходит формирование списка токенов. Даны рекомендации по удалению союзов, предлогов и других частей речи, чтобы осуществлять полноценный анализ тематики. Показаны основные этапы алгоритма частотного анализа текста, которые заключаются в том, что выгружаются данные, производится первичная обработка текстовых массивов, осуществляется процесс замены слов, проводится оценка статистических данных, убираются лишние слова, осуществляется визуальное представление. В статье продемонстрирован пример фрагментов программного кода, описывающих работу ключевых этапов алгоритма.

Currently, there is a development of methods related to the study of text arrays. In doing so, they aim to either measure their spatial characteristics, such as line lengths, font sizes, etc. or for consideration of general linguistic problems, in which the study of meaning-bearing units, such as sentences, phrases, etc., is carried out. In the second class of problems, the use of frequency analysis can be considered promising. The paper analyzes the approaches that can be used in this case. The authors in the article developed an algorithm for processing text in a natural language.The algorithm created in the work is programmatically implemented using Python, Jupyter Notebook, wordcloud, NLTK. During processing, the text array is split into words, after which a list of tokens is formed. Recommendations are given for removing conjunctions, prepositions and other parts of speech in order to carry out a full analysis of the topic. The main stages of the text frequency analysis algorithm are shown. They consist in the fact that the data are unloaded, the primary processing of text arrays is carried out, after which the process of replacing words is carried out, the statistical data are evaluated, unnecessary words are removed, and a visual presentation is carried out. The main stages of the algorithm have also been demonstrated based on fragments of the program code.

текстовая информация модель частотный анализ программа слово язык

text information model frequency analysis program word language

Исследование выполнено без спонсорской поддержки.

The study was performed without external funding.

References 1

Свиридов В.И., Чопорова Е.И., Свиридова Е.В. Лингвистическое обеспечение автоматизированных систем управления и взаимодействие пользователя с компьютером Моделирование, оптимизация и информационные технологии. 2019;1(24):430-438.

Цепковская Т.А., Чопорова Е.И. Проблемы построения автоматизированных обучающих систем Моделирование, оптимизация и информационные технологии. 2017;1(16):20.

Осочкин А.А., Фомин В.В., Флегонтов А.В. Метод частотно-морфологической классификации текстов. Программные продукты и системы. 2017;3(30):478–486.

Смирнова И.Г., Чопорова Е.И., Серостанова Н.Н. Особенности разработки профильных учебных пособий по иностранному языку с учетом формирования информационно-коммуникативной компетенции обучающихся. Вестник Воронежского института высоких технологий. 2017;3(22):64-68.

Шеменков П.С. Нейросетевой метод извлечения знаний на основе совместной встречаемости ключевых термов. Сборник материалов 61 научно-технической конференции профессорско-преподавательского состава, СПб ГУТ.2009:42–43.

Третьяков Ф.И., Серебряная Л.В. Методы автоматического построения рефератов на основе частотного анализа текстов. Доклады Белорусского государственного университета информатики и радиоэлектроники. 2014;3(81):40–44.

Шумилина Т.В. Применение частотного анализа текстов СМИ для оптимизации процесса коммуникации. Вестник Московского Университета. Сер. 10. Журналистика. 2017;(2):67–79.

Тхан Б. Х., Лупин С.А., Тайк А. М., Тун Х. Статическая балансировка нагрузки в параллельной реализации алгоритма частотного анализа текстовой информации. International Journal of Open Information Technologies. 2016;4(11):27-33.

Ляшевская О. Н., Шаров С. А. Частотный словарь современного русского языка (на материалах Национального корпуса русского языка). М: Азбуковник, 2009.

The authors declare that there are no conflicts of interest present.