References

moitvivt

Моделирование, оптимизация и информационные технологии

Modeling, Optimization and Information Technology

2310-6018

Издательство

10.26102/2310-6018/2018.23.4.011

521

ПОСТРОЕНИЕ ЛОГИЧЕСКОГО АЛГОРИТМА ВЫЯВЛЕНИЯ ВЫБРОСОВ В ЗАШУМЛЕННЫХ ДАННЫХ

CONSTRUCTION OF A LOGICAL ALGORITHM FOR DETECTING EMISSIONS INTO A DISTURBABLE DATA

Лютикова

Лариса Адольфовна

Lutikova

Larisa Adolfovna

lylarisa@yandex.ru aff-1

Кабардино-Балкарский научный центр РАН Institute of Applied Mathematics and Automation of Kabardino-Balkarian Scientific Center

01 01 2026

1 1

10.26102/2310-6018/2018.23.4.011

2026

This work is licensed under a Creative Commons Attribution 4.0 International License

В работе предложен логический подход к анализу качества данных для решения задач машинного обучения. При разработке алгоритмов машинного обучения часть исходных данных решаемой задачи объединяют в обучающую выборку. Как правило, качество этих данных не вляется идиальным, и это дастаточно острая проблема возникающая при построении обучающих систем распознавания. Так как построение модели распознования является результатом последовательного предъявления исходного набора данных, то их некорректность может существенно искозить конечную модель, что скакжется на результатах работы алгоритмов распознования. Данные, которые вносят искажения при построении модели называют выбросами. Причиной возникновения выбросов являются помехи аппаратуры, неверная интерпритация эксперта, шумы и т.д. В связи с этим возникает задача анализа данных на предмет выявления выбросов и ослобления их влияния на процесс формирования (обучения) рабочей модели. В то же время важно отделять индивидуальные особенности распозноваемых объектов от аномальных данных. В настоящей работе предложены логические методы анализа данных, позволяющие провести классификацию данных. В качестве функции классификатора строится функция, которая является логической комбинацией продукионных правил. Она решает ряд проблем, строит все возможные классы, выявляет индивидуальные характеристики объектов, входящих во множество данных, выявляет объекты и их признаки, которые являются выросами. Основываясь на результатах работы построенного классификатора можно выявленные подозрительные объекты дополнительно исследовать на предмет принадлежности множеству выбросов с учетом полученной оценки. Предложенный подход позволяет не только произвести обучающей выборки на классы, но и выявить выбросы, объекты, которые не могут выступать в качестве эталонов обучающей выборки. Предложенный в настоящей работе метод может служить основой для построения процедуры, повышающей информативное качество обучающей выборки в исследуемой предметной области.

The paper proposes a logical approach to data quality analysis for solving machine-learning problems. When developing machine-learning algorithms, a part of the initial data of the problem being solved is combined into a training sample. As a rule, the quality of this data is not ideal, and this is a rather acute problem arising in the construction of training recognition systems. Since the construction of the recognition model is the result of the sequential presentation of the initial data set, their incorrectness can significantly distort the final model, which stresses the results of the recognition algorithms. The data that introduce distortions in building a model is called outliers. The cause of emissions is the interference of the equipment, incorrect interpretation of the expert, noise, etc. In this regard, the task of analyzing data to identify emissions and reducing their influence on the process of formation (training) of the working model arises. At the same time, it is important to separate the individual features of recognized objects from abnormal data. In the present work, logical methods of data analysis are proposed, allowing data to be classified. As a classifier function, a function is constructed that is a logical combination of production rules. It solves a number of problems, builds all possible classes, reveals the individual characteristics of objects included in the data set, identifies objects and their signs that are grown. Based on the results of the constructed classifier, the identified suspicious objects can be additionally investigated for belonging to a set of emissions, taking into account the obtained estimate. The proposed approach allows not only to make a training sample for classes, but also to identify emissions, objects that can not act as standards of the training sample. The method proposed in this paper can serve as the basis for constructing a procedure that enhances the informative quality of a training sample in the pre-project area under study.

объект класс база знаний выбросы информативный вес

object class knowledge base emissions informative weight

Исследование выполнено без спонсорской поддержки.

The study was performed without external funding.

References 1

Дьякoнoв A.Г., Гoлoвина A.M. Выявление аномалий в работе механизмов методами машинного обучения//Аналитика и управление данными в областях с интенсивным использованием данных: труды XIX Международной конференции DAMDID/RCDL'2017,2017. С. 469– 476.

Журавлёв Ю.И. Об алгебраическом подходе к решению задач распознавания или классификации//Проблемы кибернетики. 1978. Т. 33. С. 5–68.

Лютикoва Л.А., Шматoва Е.В. Анализ и синтез алгоритмов распознавания образов с использованием переменно-значной логики // Информационные технологии. №4. Том 22. 2016. С. 292—297.

Лютикова Л.А., Шматoва Е.В. Логический подход к коррекции результатов работы $\Sigma\Pi$-нейронных сетей//Информационные технологии. 2018. Т. 24. №2. С. 110-116.

Шибзухoв З.М. O принципе минимизации эмпирического риска на основе усредняющих агрегирующих функций//Доклады РАН. 2017. Т.476. №5. C. 495-499.

Флax П. Машиннoе обучение. Наука и искусство пoстрoения алгoритмoв, которые извлекают знания из данных. М.: МДК Прecc, 2015. 400 c.

The authors declare that there are no conflicts of interest present.