Исследование задачи автоматизированного сопоставления аудиофайлов

idЛевшин Д.В., idБыстряков Д.В., idЗубков А.В.

УДК 004.032.26
DOI: 10.26102/2310-6018/2025.51.4.004

Аннотация
Список литературы
Об авторах

Объем данных в формате аудиозаписей сильно вырос и продолжает расти, из-за чего с данными становится достаточно сложно работать из-за большого количества различных дубликатов, зашумленных записей, обрезанных записей. В статье представлено решение проблемы поиска нечетких дубликатов аудиозаписей в больших массивах данных. Решение основано на использовании каскадного ансамбля. Для извлечения признаков, анализа временных параметров и оценки сходства между записями использовались сверточные нейронные сети (CNN), сети временных сегментов (TSN), а также сиамские сети. Данные, передаваемые в метод, изначально были преобразованы в изображения формата mel-спектрограмм, созданных с помощью алгоритма кратковременного преобразования Фурье (STFT), то есть каждая аудиозапись нарезалась с определенной частотой дискретизации при условии того, что часть данных имеют связь с предыдущими, преобразовывалась с помощью алгоритма STFT и передавалась в ансамбль моделей. Основное внимание в работе уделено поведению ансамбля с аудиозаписями, которые были подвергнуты различным изменениям, таким как зашумление, искажение, а также обрезка аудиозаписей. Эксперименты, проведенные над набором данных, показали достаточно высокую степень корреляции между результатами, показанными группой людей и методом, что подтверждает эффективность предложенного решения. Метод показал высокую степень устойчивости к различным видам модификации аудиоданных, таких как изменение темпа, добавление шума, а также обрезка аудиозаписей. Дальнейшие исследования могут быть направлены на адаптацию ансамбля к различным типам данных, включая видео и графические записи, что расширит область применения предложенного решения.

1. Кочегурова Е.А., Сайберт С.М., Татьянкина К.В. Оптимизация параметров гибридного алгоритма прогнозирования с использованием ансамбля моделей в режиме реального времени. Известия Томского политехнического университета. Промышленная кибернетика. 2024;2(4):26–33. https://doi.org/10.18799/29495407/2024/4/76

2. Six J., Bressan F., Renders K. Duplicate Detection for Digital Audio Archive Management: Two Case Studies. In: Advances in Speech and Music Technology: Computational Aspects and Applications. Cham: Springer; 2023. P. 311–329. https://doi.org/10.1007/978-3-031-18444-4_16

3. Reise W., Fernández X., Dominguez M., Harrington H.A., Beguerisse-Díaz M. Topological Fingerprints for Audio Identification. arXiv. URL: https://arxiv.org/abs/2309.03516 [Accessed 31st July 2025].

4. Маленко С.А. Увеличение производительности алгоритмов поиска дубликатов аудиозаписей. Молодой ученый. 2017;(49):22–26.

5. Ryynanen M., Klapuri A. Query by Humming of Midi and Audio Using Locality Sensitive Hashing. In: 2008 IEEE International Conference on Acoustics, Speech and Signal Processing, 01 March – 04 April 2008, Las Vegas, NV, USA. IEEE; 2008. P. 2249–2252. https://doi.org/10.1109/ICASSP.2008.4518093

6. Булавин Д.А., Харитонов И.А. Анализ методов распознавания и преобразования аудиоинформации в ноты. Автоматизированные системы управления и приборы автоматики. 2011;(152):78–82.

7. Новохрестова Д.И. Временная нормализация слогов алгоритмом динамической трансформации временной шкалы при оценке качества произнесения слогов в процессе речевой реабилитации. Доклады ТУСУР. 2017;20(4):142–145. https://doi.org/10.21293/1818-0442-2017-20-4-142-145

8. Wang Yi, Lyu X., Yang Sh. Ocean Observing Time-Series Anomaly Detection Based on DTW-TRSAX Method. The Journal of Supercomputing. 2024;80:18679–18704. https://doi.org/10.1007/s11227-024-06183-w

9. Ustubioglu A., Ustubioglu B., Ulutas G. Mel Spectrogram-Based Audio Forgery Detection Using CNN. Signal, Image and Video Processing. 2023;17(5):2211–2219. https://doi.org/10.1007/s11760-022-02436-4

10. Zhao H., Ye Ya., Shen X., Liu L. 1D-CNN-Based Audio Tampering Detection Using ENF Signals. Scientific Reports. 2024;14. https://doi.org/10.1038/s41598-024-60813-0

11. Wang W., Lu Zh. Few-Shot Bronze Vessel Classification via Siamese Fourier Networks. Scientific Reports. 2024;14. https://doi.org/10.1038/s41598-024-69272-z

12. Lin Ya.-B., Bertasius G. Siamese Vision Transformers Are Scalable Audio-Visual Learners. In: Computer Vision – ECCV 2024: 18th European Conference: Proceedings: Part XIV, 29 September – 04 October 2024, Milan, Italy. Cham: Springer; 2025. P. 303–321. https://doi.org/10.1007/978-3-031-72630-9_18

13. India M., Fonollosa J.A.R., Hernando J. LSTM Neural Network-Based Speaker Segmentation Using Acoustic and Language Modelling. In: Interspeech 2017: 18th Annual Conference of the International Speech Communication Association, 20–24 August 2017, Stockholm, Sweden. 2017. P. 2834–2838. https://doi.org/10.21437/Interspeech.2017-407

14. Hershey Sh., Chaudhuri S., Ellis D.P.W., et al. CNN Architectures for Large-Scale Audio Classification. arXiv. URL: https://arxiv.org/abs/1609.09430 [Accessed 11th April 2025].

15. Ананьев А.С., Бутенко Д.В., Попов К.В. Интеллектуальные технологии проектирования информационных систем. Методика проектирования программных продуктов в условиях наличия прототипа. Инженерный вестник Дона. 2012;(2). URL: http://www.ivdon.ru/ru/magazine/archive/n2y2012/815

16. Кошелева Н.Н. Корреляционный анализ и его применение для подсчета ранговой корреляции Спирмена. Актуальные проблемы гуманитарных и естественных наук. 2012;(5):23–26.

17. Меньшов М. Коэффициент корреляции Пирсона. Казанский федеральный университет. URL: https://kpfu.ru/portal/docs/F_2064674290/NPS_19.Pirson.Menshov.pdf (дата обращения: 11.04.2025).

Левшин Денис Витальевич

Email: levshin01@bk.ru

ORCID |

Волгоградский государственный технический университет
ИЦ ТМК

Волгоград, Российская Федерация

Быстряков Даниил Владимирович

Email: bystriackoff@yandex.ru

ORCID |

Волгоградский государственный технический университет

Волгоград, Российская Федерация

Зубков Александр Владимирович
Кандидат технических наук, доцент
Email: aleksandr.zubkov@volgmed.ru

ORCID |

Волгоградский государственный технический университет
Волгоградский государственный медицинский университет

Волгоград, Российская Федерация

Ключевые слова: аудиодубликаты, сверточные сети, преобразование Фурье, аудиошум, устойчивость модели, мел-спектрограмма, сиамская архитектура, временные признаки, сравнение аудиозаписей

Для цитирования: Левшин Д.В., Быстряков Д.В., Зубков А.В. Исследование задачи автоматизированного сопоставления аудиофайлов. Моделирование, оптимизация и информационные технологии. 2025;13(4). URL: https://moitvivt.ru/ru/journal/pdf?id=1903 DOI: 10.26102/2310-6018/2025.51.4.004

865

Полный текст статьи в PDF

Поступила в редакцию 17.04.2025

Поступила после рецензирования 09.09.2025

Принята к публикации 25.09.2025