<?xml version="1.0" encoding="UTF-8"?>
<article article-type="research-article" dtd-version="1.3" xml:lang="ru" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:noNamespaceSchemaLocation="https://metafora.rcsi.science/xsd_files/journal3.xsd">
  <front>
    <journal-meta>
      <journal-id journal-id-type="publisher-id">moitvivt</journal-id>
      <journal-title-group>
        <journal-title xml:lang="ru">Моделирование, оптимизация и информационные технологии</journal-title>
        <trans-title-group xml:lang="en">
          <trans-title>Modeling, Optimization and Information Technology</trans-title>
        </trans-title-group>
      </journal-title-group>
      <issn pub-type="epub">2310-6018</issn>
      <publisher>
        <publisher-name>Издательство</publisher-name>
      </publisher>
    </journal-meta>
    <article-meta>
      <article-id pub-id-type="doi">10.26102/2310-6018/2025.51.4.069</article-id>
      <article-id pub-id-type="custom" custom-type="elpub">2141</article-id>
      <title-group>
        <article-title xml:lang="ru">Подход к построению распределённой аналитической платформы для мультимодальных медицинских данных  в задачах клинической диагностики</article-title>
        <trans-title-group xml:lang="en">
          <trans-title>An approach to building a distributed analytical platform for multimodal medical data in clinical diagnostic tasks</trans-title>
        </trans-title-group>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author">
          <name-alternatives>
            <name name-style="eastern" xml:lang="ru">
              <surname>Пожарский</surname>
              <given-names>Роман Витальевич</given-names>
            </name>
            <name name-style="western" xml:lang="en">
              <surname>Pozharsky</surname>
              <given-names>Roman Vitalievich</given-names>
            </name>
          </name-alternatives>
          <email>pozharskij2013@mail.ru</email>
          <xref ref-type="aff">aff-1</xref>
        </contrib>
        <contrib contrib-type="author">
          <name-alternatives>
            <name name-style="eastern" xml:lang="ru">
              <surname>Петрова</surname>
              <given-names>Елена Сергеевна</given-names>
            </name>
            <name name-style="western" xml:lang="en">
              <surname>Petrova</surname>
              <given-names>Elena Sergeevna</given-names>
            </name>
          </name-alternatives>
          <email>lenoks.sokolova@mail.ru</email>
          <xref ref-type="aff">aff-2</xref>
        </contrib>
      </contrib-group>
      <aff-alternatives id="aff-1">
        <aff xml:lang="ru">Воронежский институт высоких технологий</aff>
        <aff xml:lang="en">Voronezh Institute of High Technologies</aff>
      </aff-alternatives>
      <aff-alternatives id="aff-2">
        <aff xml:lang="ru">Воронежский государственный технический университет</aff>
        <aff xml:lang="en">Voronezh State Technical University</aff>
      </aff-alternatives>
      <pub-date pub-type="epub">
        <day>01</day>
        <month>01</month>
        <year>2026</year>
      </pub-date>
      <volume>1</volume>
      <issue>1</issue>
      <elocation-id>10.26102/2310-6018/2025.51.4.069</elocation-id>
      <permissions>
        <copyright-statement>Copyright © Авторы, 2026</copyright-statement>
        <copyright-year>2026</copyright-year>
        <license license-type="creative-commons-attribution" xlink:href="https://creativecommons.org/licenses/by/4.0/">
          <license-p>This work is licensed under a Creative Commons Attribution 4.0 International License</license-p>
        </license>
      </permissions>
      <self-uri xlink:href="https://moitvivt.ru/ru/journal/article?id=2141"/>
      <abstract xml:lang="ru">
        <p>Представлен подход к построению распределённой аналитической платформы для глубокой обработки мультимодальных медицинских данных, ориентированной на задачи клинической диагностики и поддержку врачебных решений. В качестве исходной предпосылки рассматривается рост объёмов гетерогенных данных (DICOM изображения, электронные медицинские карты, лабораторные показатели) в условиях централизации через системы класса ЕГИСЗ (Единая государственная информационная система в сфере здравоохранения) при сохраняющемся дефиците специализированных инструментов комплексного анализа в реальной клинической практике. Ключевым элементом платформы является гибридная модель обработки, сочетающая распределённый конвейер на Apache Spark с модульной системой подготовки данных и мультимодальный трансформер для кросс модального анализа. В конвейере реализованы специализированные процедуры токенизации и нормализации текстов (Spark NLP), извлечения метаданных и конвертации DICOM изображений в числовые представления. На уровне высокопроизводительных вычислений используется масштабируемое ядро на Apache Spark с возможностью передачи подготовленных выборок в GPU ориентированный сервис через Petastorm и PyTorch. Мультимодальный трансформер объединяет эмбеддинги изображений (ViT), клинико-текстовых описаний (BioClinicalBERT) и табличных признаков, применяя позиционное кодирование и несколько слоёв self attention для формирования агрегированного представления эпизода лечения. Разработан программный прототип платформы с использованием Docker. Эксперименты на синтетическом наборе мультимодальных данных продемонстрировали возможность выявления статистически значимых и клинически релевантных паттернов (например, ассоциация пневмонии с ХОБЛ) при высокой производительности.</p>
      </abstract>
      <trans-abstract xml:lang="en">
        <p>An approach to building a distributed analytical platform for deep processing of multimodal medical data, focused on clinical diagnostic tasks and support for medical decisions, is presented. The initial premise is the growth of heterogeneous data (DICOM images, electronic medical records, laboratory parameters) in conditions of centralization through EGISZ class systems with a continuing shortage of specialized tools for complex analysis in real clinical practice. The key element of the platform is a hybrid processing model that combines a distributed pipeline on Apache Spark with a modular data preparation system and a multimodal transformer for cross-modal analysis. The pipeline implements specialized procedures for tokenization and normalization of texts (Spark NLP), metadata extraction, and DICOM image conversion to numeric representations. At the high-performance computing level, a scalable Apache Spark core is used with the ability to transfer prepared samples to a GPU-oriented service via Petastorm and PyTorch. The multimodal transformer combines embeddings of images (ViT), clinical text descriptions (BioClinicalBERT), and tabular features, using positional encoding and several layers of self-attention to form an aggregated representation of the treatment episode. A software prototype of the platform using Docker has been developed. Experiments on a synthetic set of multimodal data have demonstrated the ability to identify statistically significant and clinically relevant patterns (for example, the association of pneumonia with COPD) at high performance.</p>
      </trans-abstract>
      <kwd-group xml:lang="ru">
        <kwd>мультимодальные медицинские данные</kwd>
        <kwd>системный анализ</kwd>
        <kwd>распределенная обработка данных</kwd>
        <kwd>Apache Spark</kwd>
        <kwd>интеллектуальные системы</kwd>
        <kwd>диагностика</kwd>
        <kwd>гибридная архитектура</kwd>
        <kwd>большие данные</kwd>
      </kwd-group>
      <kwd-group xml:lang="en">
        <kwd>multimodal medical data</kwd>
        <kwd>system analysis</kwd>
        <kwd>distributed data processing</kwd>
        <kwd>Apache Spark</kwd>
        <kwd>intelligent systems</kwd>
        <kwd>diagnostics</kwd>
        <kwd>hybrid architecture</kwd>
        <kwd>big data</kwd>
      </kwd-group>
      <funding-group>
        <funding-statement xml:lang="ru">Исследование выполнено без спонсорской поддержки.</funding-statement>
        <funding-statement xml:lang="en">The study was performed without external funding.</funding-statement>
      </funding-group>
    </article-meta>
  </front>
  <back>
    <ref-list>
      <title>References</title>
      <ref id="cit1">
        <label>1</label>
        <mixed-citation xml:lang="ru">Hao Y., Cheng Ch., Li J., et al. Multimodal Integration in Health Care: Development with Applications in Disease Management. Journal of Medical Internet Research. 2025;27. https://doi.org/10.2196/76557</mixed-citation>
      </ref>
      <ref id="cit2">
        <label>2</label>
        <mixed-citation xml:lang="ru">Liu C., Ye F. A Review of Multimodal Medical Data Fusion Techniques for Personalized Medicine. In: IC-BIS '25: Proceedings of the 4th International Conference on Biomedical and Intelligent Systems, 11–13 April 2025, Bologna, Italy. New York: Association for Computing Machinery; 2025. P. 338–347. https://doi.org/10.1145/3745034.3745088</mixed-citation>
      </ref>
      <ref id="cit3">
        <label>3</label>
        <mixed-citation xml:lang="ru">Krones F., Marikkar U., Parsons G., Szmul A., Mahdi A. Review of Multimodal Machine Learning Approaches in Healthcare. Information Fusion. 2025;114. https://doi.org/10.1016/j.inffus.2024.102690</mixed-citation>
      </ref>
      <ref id="cit4">
        <label>4</label>
        <mixed-citation xml:lang="ru">Xie Ch., Ningc Z., Guo T., et al. Multimodal Data Integration for Biologically-Relevant Artificial Intelligence to Guide Adjuvant Chemotherapy in Stage II Colorectal Cancer. eBioMedicine. 2025;117. https://doi.org/10.1016/j.ebiom.2025.105789</mixed-citation>
      </ref>
      <ref id="cit5">
        <label>5</label>
        <mixed-citation xml:lang="ru">Heydari M., Sarshar R., Soltanshahi M.A. Distributed Record Linkage in Healthcare Data with Apache Spark. arXiv. URL: https://arxiv.org/abs/2404.07939 [Accessed 21st November 2025].</mixed-citation>
      </ref>
      <ref id="cit6">
        <label>6</label>
        <mixed-citation xml:lang="ru">Deshpande P., Rasin A., Tchoua R. Biomedical Heterogeneous Data Categorization and Schema Mapping Toward Data Integration. Frontiers in Big Data. 2023;6. https://doi.org/10.3389/fdata.2023.1173038</mixed-citation>
      </ref>
      <ref id="cit7">
        <label>7</label>
        <mixed-citation xml:lang="ru">Acosta J.N., Falcone G.J., Rajpurkar P., Topol E.J. Multimodal Biomedical AI. Nature Medicine. 2022;28(9):1773–1784. https://doi.org/10.1038/s41591-022-01981-2</mixed-citation>
      </ref>
      <ref id="cit8">
        <label>8</label>
        <mixed-citation xml:lang="ru">Musik S., Sasin-Kurowska J., Panczyk M. Bridging the Past and Future of Clinical Data Management: The Transformative Impact of Artificial Intelligence. Open Access Journal of Clinical Trials. 2025;17:15–33. https://doi.org/10.2147/OAJCT.S509921</mixed-citation>
      </ref>
      <ref id="cit9">
        <label>9</label>
        <mixed-citation xml:lang="ru">Hagan N.K.A., Talburt J.R. SparkDWM: A Scalable Design of a Data Washing Machine Using Apache Spark. Frontiers in Big Data. 2024;7. https://doi.org/10.3389/fdata.2024.1446071</mixed-citation>
      </ref>
      <ref id="cit10">
        <label>10</label>
        <mixed-citation xml:lang="ru">Valo P., Tran A., Baranton E., Haas H., Freyssinet E., Vrzáková H. Clinical Data Integration and Processing Challenges in Healthcare Caused by Contemporary Software Design. Digital Health. 2025;11. https://doi.org/10.1177/20552076251374233</mixed-citation>
      </ref>
      <ref id="cit11">
        <label>11</label>
        <mixed-citation xml:lang="ru">Shrotriya L., Sharma K., Parashar D., Mishra K., Singh Rawat S., Pagare H. Apache Spark in Healthcare: Advancing Data-Driven Innovations and Better Patient Care. International Journal of Advanced Computer Science and Applications. 2023;14(6):608–616. https://doi.org/10.14569/IJACSA.2023.0140665</mixed-citation>
      </ref>
      <ref id="cit12">
        <label>12</label>
        <mixed-citation xml:lang="ru">Tu Y., Lu Y., Chen G., Zhao J., Yi F. Architecture Design of Distributed Medical Big Data Platform Based on Spark. In: 2019 IEEE 8th Joint International Information Technology and Artificial Intelligence Conference (ITAIC), 24–26 May 2019, Chongqing, China. IEEE; 2019. P. 682–685. https://doi.org/10.1109/ITAIC.2019.8785620</mixed-citation>
      </ref>
    </ref-list>
    <fn-group>
      <fn fn-type="conflict">
        <p>The authors declare that there are no conflicts of interest present.</p>
      </fn>
    </fn-group>
  </back>
</article>