Ключевые слова: аудиодубликаты, сверточные сети, преобразование Фурье, аудиошум, устойчивость модели, мел-спектрограмма, сиамская архитектура, временные признаки, сравнение аудиозаписей
Исследование задачи автоматизированного сопоставления аудиофайлов
УДК 004.032.26
DOI: 10.26102/2310-6018/2025.51.4.004
Объем данных в формате аудиозаписей сильно вырос и продолжает расти, из-за чего с данными становится достаточно сложно работать из-за большого количества различных дубликатов, зашумленных записей, обрезанных записей. В статье представлено решение проблемы поиска нечетких дубликатов аудиозаписей в больших массивах данных. Решение основано на использовании каскадного ансамбля. Для извлечения признаков, анализа временных параметров и оценки сходства между записями использовались сверточные нейронные сети (CNN), сети временных сегментов (TSN), а также сиамские сети. Данные, передаваемые в метод, изначально были преобразованы в изображения формата mel-спектрограмм, созданных с помощью алгоритма кратковременного преобразования Фурье (STFT), то есть каждая аудиозапись нарезалась с определенной частотой дискретизации при условии того, что часть данных имеют связь с предыдущими, преобразовывалась с помощью алгоритма STFT и передавалась в ансамбль моделей. Основное внимание в работе уделено поведению ансамбля с аудиозаписями, которые были подвергнуты различным изменениям, таким как зашумление, искажение, а также обрезка аудиозаписей. Эксперименты, проведенные над набором данных, показали достаточно высокую степень корреляции между результатами, показанными группой людей и методом, что подтверждает эффективность предложенного решения. Метод показал высокую степень устойчивости к различным видам модификации аудиоданных, таких как изменение темпа, добавление шума, а также обрезка аудиозаписей. Дальнейшие исследования могут быть направлены на адаптацию ансамбля к различным типам данных, включая видео и графические записи, что расширит область применения предложенного решения.
1. Кочегурова Е.А., Сайберт С.М., Татьянкина К.В. Оптимизация параметров гибридного алгоритма прогнозирования с использованием ансамбля моделей в режиме реального времени. Известия Томского политехнического университета. Промышленная кибернетика. 2024;2(4):26–33. https://doi.org/10.18799/29495407/2024/4/76
2. Six J., Bressan F., Renders K. Duplicate Detection for Digital Audio Archive Management: Two Case Studies. In: Advances in Speech and Music Technology: Computational Aspects and Applications. Cham: Springer; 2023. P. 311–329. https://doi.org/10.1007/978-3-031-18444-4_16
3. Reise W., Fernández X., Dominguez M., Harrington H.A., Beguerisse-Díaz M. Topological Fingerprints for Audio Identification. arXiv. URL: https://arxiv.org/abs/2309.03516 [Accessed 31st July 2025].
4. Маленко С.А. Увеличение производительности алгоритмов поиска дубликатов аудиозаписей. Молодой ученый. 2017;(49):22–26.
5. Ryynanen M., Klapuri A. Query by Humming of Midi and Audio Using Locality Sensitive Hashing. In: 2008 IEEE International Conference on Acoustics, Speech and Signal Processing, 01 March – 04 April 2008, Las Vegas, NV, USA. IEEE; 2008. P. 2249–2252. https://doi.org/10.1109/ICASSP.2008.4518093
6. Булавин Д.А., Харитонов И.А. Анализ методов распознавания и преобразования аудиоинформации в ноты. Автоматизированные системы управления и приборы автоматики. 2011;(152):78–82.
7. Новохрестова Д.И. Временная нормализация слогов алгоритмом динамической трансформации временной шкалы при оценке качества произнесения слогов в процессе речевой реабилитации. Доклады ТУСУР. 2017;20(4):142–145. https://doi.org/10.21293/1818-0442-2017-20-4-142-145
8. Wang Yi, Lyu X., Yang Sh. Ocean Observing Time-Series Anomaly Detection Based on DTW-TRSAX Method. The Journal of Supercomputing. 2024;80:18679–18704. https://doi.org/10.1007/s11227-024-06183-w
9. Ustubioglu A., Ustubioglu B., Ulutas G. Mel Spectrogram-Based Audio Forgery Detection Using CNN. Signal, Image and Video Processing. 2023;17(5):2211–2219. https://doi.org/10.1007/s11760-022-02436-4
10. Zhao H., Ye Ya., Shen X., Liu L. 1D-CNN-Based Audio Tampering Detection Using ENF Signals. Scientific Reports. 2024;14. https://doi.org/10.1038/s41598-024-60813-0
11. Wang W., Lu Zh. Few-Shot Bronze Vessel Classification via Siamese Fourier Networks. Scientific Reports. 2024;14. https://doi.org/10.1038/s41598-024-69272-z
12. Lin Ya.-B., Bertasius G. Siamese Vision Transformers Are Scalable Audio-Visual Learners. In: Computer Vision – ECCV 2024: 18th European Conference: Proceedings: Part XIV, 29 September – 04 October 2024, Milan, Italy. Cham: Springer; 2025. P. 303–321. https://doi.org/10.1007/978-3-031-72630-9_18
13. India M., Fonollosa J.A.R., Hernando J. LSTM Neural Network-Based Speaker Segmentation Using Acoustic and Language Modelling. In: Interspeech 2017: 18th Annual Conference of the International Speech Communication Association, 20–24 August 2017, Stockholm, Sweden. 2017. P. 2834–2838. https://doi.org/10.21437/Interspeech.2017-407
14. Hershey Sh., Chaudhuri S., Ellis D.P.W., et al. CNN Architectures for Large-Scale Audio Classification. arXiv. URL: https://arxiv.org/abs/1609.09430 [Accessed 11th April 2025].
15. Ананьев А.С., Бутенко Д.В., Попов К.В. Интеллектуальные технологии проектирования информационных систем. Методика проектирования программных продуктов в условиях наличия прототипа. Инженерный вестник Дона. 2012;(2). URL: http://www.ivdon.ru/ru/magazine/archive/n2y2012/815
16. Кошелева Н.Н. Корреляционный анализ и его применение для подсчета ранговой корреляции Спирмена. Актуальные проблемы гуманитарных и естественных наук. 2012;(5):23–26.
17. Меньшов М. Коэффициент корреляции Пирсона. Казанский федеральный университет. URL: https://kpfu.ru/portal/docs/F_2064674290/NPS_19.Pirson.Menshov.pdf (дата обращения: 11.04.2025).
Ключевые слова: аудиодубликаты, сверточные сети, преобразование Фурье, аудиошум, устойчивость модели, мел-спектрограмма, сиамская архитектура, временные признаки, сравнение аудиозаписей
Для цитирования: Левшин Д.В., Быстряков Д.В., Зубков А.В. Исследование задачи автоматизированного сопоставления аудиофайлов. Моделирование, оптимизация и информационные технологии. 2025;13(4). URL: https://moitvivt.ru/ru/journal/pdf?id=1903 DOI: 10.26102/2310-6018/2025.51.4.004
Поступила в редакцию 17.04.2025
Поступила после рецензирования 09.09.2025
Принята к публикации 25.09.2025