<?xml version="1.0" encoding="UTF-8"?>
<article article-type="research-article" dtd-version="1.3" xml:lang="ru" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:noNamespaceSchemaLocation="https://metafora.rcsi.science/xsd_files/journal3.xsd">
  <front>
    <journal-meta>
      <journal-id journal-id-type="publisher-id">moitvivt</journal-id>
      <journal-title-group>
        <journal-title xml:lang="ru">Моделирование, оптимизация и информационные технологии</journal-title>
        <trans-title-group xml:lang="en">
          <trans-title>Modeling, Optimization and Information Technology</trans-title>
        </trans-title-group>
      </journal-title-group>
      <issn pub-type="epub">2310-6018</issn>
      <publisher>
        <publisher-name>Издательство</publisher-name>
      </publisher>
    </journal-meta>
    <article-meta>
      <article-id pub-id-type="doi">10.26102/2310-6018/2022.38.3.013</article-id>
      <article-id pub-id-type="custom" custom-type="elpub">1210</article-id>
      <title-group>
        <article-title xml:lang="ru">Ансамблирование методов обнаружения выбросов при подготовке обучающей выборки данных</article-title>
        <trans-title-group xml:lang="en">
          <trans-title>Ensemble methods for detecting outliers in the preparation of a training data set</trans-title>
        </trans-title-group>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author" corresp="yes">
          <name-alternatives>
            <name name-style="eastern" xml:lang="ru">
              <surname>Дорофеев</surname>
              <given-names>Владимир Сергеевич</given-names>
            </name>
            <name name-style="western" xml:lang="en">
              <surname>Dorofeev</surname>
              <given-names>Vladimir Sergeevich</given-names>
            </name>
          </name-alternatives>
          <email>do.wladimir@gmail.com</email>
          <xref ref-type="aff">aff-1</xref>
        </contrib>
        <contrib contrib-type="author" corresp="yes">
          <name-alternatives>
            <name name-style="eastern" xml:lang="ru">
              <surname>Волосатова</surname>
              <given-names>Тамара Михайловна</given-names>
            </name>
            <name name-style="western" xml:lang="en">
              <surname>Volosatova</surname>
              <given-names>Tamara Mikhailovna</given-names>
            </name>
          </name-alternatives>
          <email>tamaravol@gmail.com</email>
          <xref ref-type="aff">aff-2</xref>
        </contrib>
      </contrib-group>
      <aff-alternatives id="aff-1">
        <aff xml:lang="ru">Московский государственный технический университет имени Н.Э. Баумана</aff>
        <aff xml:lang="en">Bauman Moscow State Technical University</aff>
      </aff-alternatives>
      <aff-alternatives id="aff-2">
        <aff xml:lang="ru">Московский государственный технический университет имени Н.Э. Баумана</aff>
        <aff xml:lang="en">Bauman Moscow State Technical University</aff>
      </aff-alternatives>
      <pub-date pub-type="epub">
        <day>01</day>
        <month>01</month>
        <year>2026</year>
      </pub-date>
      <volume>1</volume>
      <issue>1</issue>
      <elocation-id>10.26102/2310-6018/2022.38.3.013</elocation-id>
      <permissions>
        <copyright-statement>Copyright © Авторы, 2026</copyright-statement>
        <copyright-year>2026</copyright-year>
        <license license-type="creative-commons-attribution" xlink:href="https://creativecommons.org/licenses/by/4.0/">
          <license-p>This work is licensed under a Creative Commons Attribution 4.0 International License</license-p>
        </license>
      </permissions>
      <self-uri xlink:href="https://moitvivt.ru/ru/journal/article?id=1210"/>
      <abstract xml:lang="ru">
        <p>Большинство методов машинного обучения показывают наибольшую эффективность при работе с данными, удовлетворяющими нормальному распределению. С другой стороны, обучающая выборка часто содержит «выбросы» различной природы, способные значи-тельно снизить точность методов машинного обучения. Таким образом, в любой задаче машинного обучения возникает проблема обнаружения выбросов. В статье приведена классификация основных типов выбросов. Рассмотрены различные методы обнаружения одномерных выбросов: метод, использующий критерий Граббса; метод Z-оценки; метод надежной Z-оценки (RZ-оценки); метод межквартильного размаха (IQR); метод процен-тильного уплотнения (Winsorization). Выполнено сравнение методов обнаружения одно-мерных выбросов. Для автоматизированного обнаружения выбросов предложен ансамбле-вый метод, объединяющий различные методы обнаружения одномерных выбросов. Ан-самблирование позволяет настроить автоматизированную процедуру обнаружения выбро-сов по правилу требуемой строгости. Предложенный метод применен для анализа и обна-ружения выбросов в данных по продажам товаров в период акции в крупной розничной сети. Показана возможность применения ансамблирования методов обнаружения выбро-сов для стратификации обучающей выборки. При этом абсолютная и относительная ошибка прогнозирования итоговой модели была снижена на 5 % по сравнению с исходной.</p>
      </abstract>
      <trans-abstract xml:lang="en">
        <p>Most machine learning methods are most effective when working with data that satisfies a nor-mal distribution. On the other hand, the training set often contains “outliers” of various nature, which can significantly reduce the accuracy of machine learning methods. Thus, in any machine learning task, there is a problem of detecting outliers. The article provides a classification of the main types of emissions. Various methods for detecting one-dimensional outliers are considered: the method using the Grubbs criterion; Z-score method; robust Z-score (RZ-score) method; in-terquartile range (IQR) method; Winsorization method. The methods for detecting one-dimensional outliers are compared. For the automated detection of outliers, an ensemble method has been proposed that combines various methods for detecting one-dimensional outliers. The ensemble method helps to configure an automated outlier detection procedure according to the rule of the required severity. The suggested method is applied to analyze and detect outliers in data on sales of goods during the promotion in a large retail network. The applicability of using outlier detection method ensemble to stratification of the training sample is shown. At the same time, the absolute and relative forecasting error of the final model decreased by 5% compared to the initial one.</p>
      </trans-abstract>
      <kwd-group xml:lang="ru">
        <kwd>выбросы</kwd>
        <kwd>машинное обучение</kwd>
        <kwd>обучающая выборка</kwd>
        <kwd>ансамблирование</kwd>
        <kwd>метод Z-оценки</kwd>
        <kwd>метод межквартильного размаха</kwd>
      </kwd-group>
      <kwd-group xml:lang="en">
        <kwd>outliers</kwd>
        <kwd>machine learning</kwd>
        <kwd>training sample</kwd>
        <kwd>ensemble method</kwd>
        <kwd>Z-score</kwd>
        <kwd>interquartile range method</kwd>
      </kwd-group>
      <funding-group>
        <funding-statement xml:lang="ru">Исследование выполнено без спонсорской поддержки.</funding-statement>
        <funding-statement xml:lang="en">The study was performed without external funding.</funding-statement>
      </funding-group>
    </article-meta>
  </front>
  <back>
    <ref-list>
      <title>References</title>
      <ref id="cit1">
        <label>1</label>
        <mixed-citation xml:lang="ru">Reinsel D., Gantz J., Rydning J. The Digital of the World – From Edge to Core. IDC White Paper; 2018. Доступно по: https://www.seagate.com/ru/ru/our–story/data–age–2025/ (дата обращения: 17.05.2021).</mixed-citation>
      </ref>
      <ref id="cit2">
        <label>2</label>
        <mixed-citation xml:lang="ru">Парасич А.В., Парасич В.А., Парасич И.В. Формирование обучающей выборки в зада-чах машинного обучения. Обзор. Информационно-управляющие системы. 2021;4(113):61–68.</mixed-citation>
      </ref>
      <ref id="cit3">
        <label>3</label>
        <mixed-citation xml:lang="ru">Якимова В.А. Возможности и перспективы использования цифровых технологий в аудиторской деятельности. Вестник Санкт-Петербургского университета. Экономи-ка. 2020;2:287–318.</mixed-citation>
      </ref>
      <ref id="cit4">
        <label>4</label>
        <mixed-citation xml:lang="ru">Бекетнова Ю.М. Сравнительный анализ методов машинного обучения при идентифи-кации признаков вовлеченности кредитных организаций и их клиентов в сомнитель-ные операции. Финансы: теория и практика. 2021;5:186–199.</mixed-citation>
      </ref>
      <ref id="cit5">
        <label>5</label>
        <mixed-citation xml:lang="ru">Shulenin V.P. Robust Alternatives to the Standard Deviation in Processing of Physics Exper-imental Data. Russian Physics Journal. 2016:59(6):824–832.</mixed-citation>
      </ref>
      <ref id="cit6">
        <label>6</label>
        <mixed-citation xml:lang="ru">Серышева И.А. Фильтрация выбросов в задачах статической и динамической обработ-ки данных в эталонах времени и частоты. Вестник Иркутского государственного тех-нического университета. 2018;22(10):67–77.</mixed-citation>
      </ref>
      <ref id="cit7">
        <label>7</label>
        <mixed-citation xml:lang="ru">Горяинов В.Б., Горяинова Е.Р. Влияние аномальных наблюдений на оценку наимень-ших квадратов параметра авторегрессионного уравнения со случайным коэффициен-том. Вестник МГТУ им. Н.Э. Баумана. Сер. Естественные науки. 2016;2:16–24. DOI: 10.18698/1812-3368-2016-2-16-24.</mixed-citation>
      </ref>
      <ref id="cit8">
        <label>8</label>
        <mixed-citation xml:lang="ru">Piryonesi S. Madeh, El-Diraby, Tamer E. Role of Data Analytics in Infrastructure Asset Man-agement: Overcoming Data Size and Quality Problems. Journal of Transportation Engineer-ing, Part B: Pavements. 2020:146–148.</mixed-citation>
      </ref>
      <ref id="cit9">
        <label>9</label>
        <mixed-citation xml:lang="ru">David A. Freedman. Statistical Models: Theory and Practice. Cambridge University Press; 2009. 442 p.</mixed-citation>
      </ref>
      <ref id="cit10">
        <label>10</label>
        <mixed-citation xml:lang="ru">Gianni Franchi, Andrei Bursuc, Emanuel Aldea, Séverine Dubuisson, Isabelle Bloch. TRADI: Tracking deep neural network weight distributions. 16th European Conference on Computer Vision. 2020:1–27.</mixed-citation>
      </ref>
      <ref id="cit11">
        <label>11</label>
        <mixed-citation xml:lang="ru">Лежебоков А.А., Кулиев Э.В. Технологии визуализации для прикладных задач интел-лектуального анализа данных. Известия КБНЦ РАН. 2019;4(90):14–23.</mixed-citation>
      </ref>
      <ref id="cit12">
        <label>12</label>
        <mixed-citation xml:lang="ru">Житный М.В., Девяткина Т.Ю., Хубларова Т.С., Прохватова И.С. Методика экспери-ментального моделирования ударного воздействия имитаторов частиц космического мусора на солнечные элементы космического аппарата. Известия ТулГУ. Технические науки. 2020;5:32–40.</mixed-citation>
      </ref>
      <ref id="cit13">
        <label>13</label>
        <mixed-citation xml:lang="ru">Ширяева Л.К., Репина Е.Г. О некоторых свойствах симметричной копулы Граббса. Вестн. Сам. гос. техн. ун-та. Сер. Физ.-мат. Науки. 2018;22(4):714–734. DOI: 10.14498/vsgtu1640.</mixed-citation>
      </ref>
      <ref id="cit14">
        <label>14</label>
        <mixed-citation xml:lang="ru">McLeod S.A. Z-score: definition, calculation and interpretation. Simply Psychology; 2019. Доступно по: https://www.simplypsychology.org/z-score.html (дата обращения 17.05.2021).</mixed-citation>
      </ref>
      <ref id="cit15">
        <label>15</label>
        <mixed-citation xml:lang="ru">Sapoetra D.B., Basuki R. Effect of service quality, religiosity, relationship closeness, and cus-tomer trust on customer satisfaction and loyalty at Bank Jatim Syariah. RJOAS. 2019;3:200–219.</mixed-citation>
      </ref>
      <ref id="cit16">
        <label>16</label>
        <mixed-citation xml:lang="ru">Nurunnabi A., West G., Belton D. Robust Outlier Detection and Saliency Features Estimation in Point Cloud Data. 2013 International Conference on Computer and Robot Vision. 2013:98–105.</mixed-citation>
      </ref>
      <ref id="cit17">
        <label>17</label>
        <mixed-citation xml:lang="ru">Выходцев Н.А. Использование искусственного интеллекта для оценки стоимости не-движимого имущества. Доклады ТУСУР. 2021;1:68–72.</mixed-citation>
      </ref>
      <ref id="cit18">
        <label>18</label>
        <mixed-citation xml:lang="ru">Chernov G. How to learn to defeat noisy robot in rock-paper-scissors game: an exploratory study. Экономический журнал ВШЭ. 2020;4:503–538.</mixed-citation>
      </ref>
      <ref id="cit19">
        <label>19</label>
        <mixed-citation xml:lang="ru">Евсеева С.А. Исследование эффективности процедур коллективного вывода при ре-шении задачи классификации. Актуальные проблемы авиации и космонавтики. 2019;2:41–43.</mixed-citation>
      </ref>
      <ref id="cit20">
        <label>20</label>
        <mixed-citation xml:lang="ru">Lee B.K., Lessler J., Stuart E.A. Weight Trimming and Propensity Score Weighting. PLoS ONE. 2011;6(3). DOI: 10.1371/journal.pone.0018174.</mixed-citation>
      </ref>
      <ref id="cit21">
        <label>21</label>
        <mixed-citation xml:lang="ru">Микрюков А.А., Бабаш А.В., Сизов В.А. Классификация событий в системах обеспе-чения информационной безопасности на основе нейросетевых технологий. Открытое образование. 2019;1:57–63.</mixed-citation>
      </ref>
      <ref id="cit22">
        <label>22</label>
        <mixed-citation xml:lang="ru">Протасов В.И., Потапова З.Е. Методика кардинального снижения вероятности приня-тия ошибочных решений в системах коллективного интеллекта. Современные инфор-мационные технологии и ИТ-образование. 2019;3:588–601.</mixed-citation>
      </ref>
      <ref id="cit23">
        <label>23</label>
        <mixed-citation xml:lang="ru">Baharad E., Goldberger J., Koppel M., Nitzan S. Beyond Con-dorcet: optimal aggregation rules using voting records. Theory and Decision. 2012;72(1):113–130.</mixed-citation>
      </ref>
      <ref id="cit24">
        <label>24</label>
        <mixed-citation xml:lang="ru">Дорофеев В.С., Волосатова Т.М. Алгоритм подготовки обучающей выборки в задаче прогнозирования спроса. Математические методы в технологиях и технике. 2021;2:64–68.</mixed-citation>
      </ref>
      <ref id="cit25">
        <label>25</label>
        <mixed-citation xml:lang="ru">Prokhorenkova L., Gusev G., Vorobev A., Dorogush A.V., Gulin A. CatBoost: unbiased boosting with categorical features. Advances in Neural Information Processing Systems. 2018:6637–6647.</mixed-citation>
      </ref>
    </ref-list>
    <fn-group>
      <fn fn-type="conflict">
        <p>The authors declare that there are no conflicts of interest present.</p>
      </fn>
    </fn-group>
  </back>
</article>