References

moitvivt

Моделирование, оптимизация и информационные технологии

Modeling, Optimization and Information Technology

2310-6018

Издательство

10.26102/2310-6018/2020.28.1.034

729

Классификация потоковых данных на основе байесовского критерия

Stream data classification based on bayesian criteria

Ломакина

Любовь Сергеевна

Lomakina

Lyubov Sergeevna

llomakina@list.ru aff-1

Субботин

Артем Николаевич

Subbotin

Artem Nikolaevich

turnonmore@yandex.ru aff-2

Нижегородский Государственный Технический Университет им. Р.Е. Алексеева Nizhny Novgorod State University N. A. R.E. Alekseev

Нижегородский Государственный Технический Университет им. Р.Е. Алексеева ООО «СВТЕКНН» Nizhny Novgorod State University N. A. R.E. Alekseev «СВТЕКНН», LLC

01 01 2026

1 1

10.26102/2310-6018/2020.28.1.034

2026

This work is licensed under a Creative Commons Attribution 4.0 International License

Рассматривается проблема классификации потоковых данных, поступающих из различных источников в случайные моменты времени. Это может быть поток данных, содержащих результаты измерения датчиков, расположенных в прибрежных зонах океанов, позволяющий оценивать параметры состояния экосистемы, и также поток текстов, получаемых, например, в письмах электронной почты и т. д. Интернет содержит большие объёмы неструктурированной информации, отсутствие организации которых делает работу с данными неудобной и ресурсоёмкой. Преодоление указанного недостатка является актуальной задачей. Классификация служит инструментом, позволяющим облегчить работу с неструктурированной информацией. Разработан алгоритм классификации потоковых данных на основе байесовского критерия. Построена математическая модель потоковых текстовых данных, позволяющая применять алгоритмы классификации текстов на естественном языке на потоковых данных. Предложена модификация наивного байесовского классификатора, использующая характеристику tf-idf как меру принадлежности терминов классам, позволяющая улучшить качество классификации. Классификатор был обучен с помощью машинного фонда русского языка. Разработано программное обеспечение, позволяющее извлекать потоковые текстовые данные из сети Интернет и производить классификацию разработанным алгоритмом в реальном времени.

The paper describes the issue of stream data classification. Stream data is described as a set of objects arriving from different sources at random moments of time. It might be a stream of data containing ocean coastal area sensors measure information and describing the parameters of the ecosystem condition, as well, it might be a stream of texts acquired from incoming emails attachments, etc. The Internet contains vast volumes of unstructured information. The lack of organization makes data inconvenient and resource-intensive to work with. Addressing to such an issue considered to be a relevant problem. Classification provides an opportunity to make it easier to work with unstructured information. The paper describes the algorithm for stream data classification based on Bayesian criteria. Text stream data model is proposed. This model allows applying natural language text classification algorithms to stream data. Naive Bayes classifier modification using tf-idf measure for evaluating the proximity of a classified document to a particular class that allows improving the classification quality is proposed. The classifier has been trained using the machine Fund of the Russian language. Software allowing text data stream extraction from the Internet and its classification using the proposed algorithm in real-time scale is proposed.

классификация классификатор поток данных байесовский критерий байесовский классификатор

classification data stream naive bayesian classifier bayesian criteria

Исследование выполнено без спонсорской поддержки.

The study was performed without external funding.

References 1

Lomakina L.S., Subbotin A.N., Surkova A.S. Naïve Bayes Modification for Data Streams Classification. Proceedings of the Thirteenth International MEDCOAST Congress on Coastal and Marine Sciences, Engineering, Management and Conservation (MEDCOAST 2017). 2017;2:805-814.

Большакова Е.И., Клышинский Э.С., Ландэ Д.В., Носков А.А., Пескова О.В., Ягунова Е.В. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика: учеб. Пособие. М.: МИЭМ. 2011.

Gaber М.М., Zaslavsky A., Krishnaswamy S. A Survey of Classification Methods in Data Streams. Data Streams; Ed. by Aggarwal С.C. Springer US. 2007.

Berry M.W., Kogan J. Text Mining. Applications and Theory. Wiley. 2010.

Ломакина Л.С., Ломакин Д.В., Субботин А.Н. Байесовская классификация текстовых потоков. Системы управления и информационные технологии. 2016;4(66):60-64.

Субботин А.Н. Алгоритм классификации потоков текстовой информации на естественном языке. Научно-технический вестник Поволжья. 2020;1:18-21.

Ломакина Л.С., Ломакин Д.В., Субботин А.Н. Программа классификации потоков текстовых данных на основе байесовского подхода. Свидетельство государственной регистрации программы для ЭВМ № 2017611236, 31 октября 2016 г.

The authors declare that there are no conflicts of interest present.