Адаптивні гібридні трансформери для керованого синтезу аудіо на основі вирівнювання представлень та динамічного зважування модальностей
DOI:
https://doi.org/10.18372/2073-4751.85.21098Ключові слова:
керований синтез аудіо, генерація Foley, мультимодальні дифузійні трансформери, адаптивні гібридні трансформери, керована крос-увага (GCA), динамічне злиття уваги (DAF), ентропійне зважування модальностей, вирівнювання представлень (REPA/iREPA), параметрично ефективне донавчання, LoRA, MoE-LoRA, AuditEval-sslАнотація
У статті запропоновано фреймворк адаптивного гібридного трансформера для керованого синтезу аудіо (Foley), який усуває стійкий «розрив керування» між бажаними перцептивними характеристиками (наприклад, висотою тону та інтенсивністю), заданими користувачем, і властивостями, що реалізуються у латентних просторах дифузійних генеративних моделей. Метод поєднує три взаємодоповнювальні механізми: Gated Cross-Attention (GCA) для стабілізації мультимодальної інтеграції та пригнічення нерелевантних візуальних токенів, що зменшує ефекти колапсу уваги та «attention sink», Dynamic Attention Fusion (DAF), яка призначає контекстно-залежні ваги модальностей із використанням нормалізованої ентропії Шеннона як міри надійності, підвищуючи стійкість до деградації модальностей (наприклад, візуального шуму або нечітких текстових підказок); та покращене вирівнювання представлень (iREPA), що переносить структурні знання від заморожених teacher-енкодерів для прискорення навчання із збереженням просторово-часової узгодженості. Для параметрично ефективного керування застосовано адаптери LoRA/MoE-LoRA як функціональні базиси керування, що забезпечують тонке налаштування акустичних атрибутів із мінімальними додатковими параметрами. Кількісна оцінка виконується за допомогою метрик керованості (CSS/COI) та автоматизованої валідації через AuditEval-ssl, демонструючи високу кореляцію з експертними оцінками та підвищену стійкість у сценаріях комбінованого шуму.
Посилання
Wang J. Audio Palette: A Diffusion Transformer with Multi-Signal Conditioning for Controllable Foley Synthesis. arXiv preprint arXiv:2510.12175. 2025. URL: https://arxiv.org/abs/2510.12175.
Jia Y., Wang H., Nie X., Guo Y., Gao L., Qin Y. Towards Automatic Evaluation and High-Quality Pseudo-Parallel Dataset Construction for Audio Editing: A Human-in-the-Loop Method. arXiv preprint arXiv:2508.11966. 2025. URL: https://arxiv.org/abs/2508.11966.
Mai S., Zeng Y., Zheng S., Hu H. Hybrid Contrastive Learning of Tri-Modal Representation for Multimodal Sentiment Analysis. IEEE Transactions on Affective Computing. 2021. Vol. 14. P. 2276–2289. URL: https://zhenglab.sjtu.edu.cn/uploadfile/ueditor/file/202406/17175674613c804a.pdf.
Wu Y. et al. LAION-AI/CLAP: Contrastive Language-Audio Pretraining. GitHub repository. 2023. URL: https://github.com/LAION-AI/CLAP.
Dinkel H., Yan Z., Wang T. et al. GLAP: General contrastive audio-text pretraining across domains and languages. arXiv preprint arXiv:2506.11350. 2025. URL: https://arxiv.org/abs/2506.11350.
Gated Cross-Attention in Neural Networks. Emergent Mind. 2025. URL: https://www.emergentmind.com/topics/gated-cross-attention.
Abdulhalim S., Albaghdadi M., Farazi M. Multi-Modal Sentiment Analysis with Dynamic Attention Fusion. arXiv preprint arXiv:2509.22729. 2025. URL: https://arxiv.org/abs/2509.22729.
Yu S., Kwak S., Jang H. et al. Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think. International Conference on Learning Representations (ICLR). 2025. URL: https://huggingface.co/papers/2410.06940.
Wang Y., He J., Wang D., Wang Q. Multimodal transformer with adaptive modality weighting for multimodal sentiment analysis. Neurocomputing. 2023. Vol. 572. URL: https://www.researchgate.net/publication/376895013_Multimodal_transformer_with_adaptive_modality_weighting_for_multimodal_sentiment_analysis.
Siriwardhana S., Kaluarachchi T., Billinghurst M., Nanayakkara S. Adaptive weighting in a transformer framework for multimodal emotion recognition. ResearchGate preprint. 2025. URL: https://www.researchgate.net/publication/397920846_Adaptive_weighting_in_a_transformer_framework_for_multimodal_emotion_recognition.
Yu S., Kwak S., Jang H. et al. What matters for Representation Alignment: Global Information or Spatial Structure? arXiv preprint arXiv:2512.10794. 2025. URL: https://arxiv.org/abs/2512.10794.
Wu G., Zhang S., Shi R. et al. Representation Entanglement for Generation: Training Diffusion Transformers Is Much Easier Than You Think. arXiv preprint arXiv:2507.01467. 2025. URL: https://arxiv.org/abs/2507.01467.
Huan M., Shun J. Fine-Tuning Transformers Efficiently: A Survey on LoRA and Its Impact. Preprints.org. 2025. URL: https://www.preprints.org/manuscript/202502.1637.
Laakkonen J., Kukanov I., Hautamäki V. Mixture of Low-Rank Adapter Experts in Generalizable Audio Deepfake Detection. arXiv preprint arXiv:2509.13878. 2025. URL: https://arxiv.org/abs/2509.13878.
The Nam. Phi-4-multimodal - Mixture of LoRAs. Medium. 2025. URL: https://medium.com/@namnguyenthe/phi-4-multimodal-mixture-of-loras-85f640592b39.
Liu H., Wang J., Huang R. et al. FlashAudio: Rectified Flows for Fast and High-fidelity Text-to-Audio Generation. Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (ACL). 2025. P. 13694–13710. URL: https://aclanthology.org/2025.acl-long.673.pdf.
Liu H., Wang J., Luo K. et al. ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing. arXiv preprint arXiv:2506.21448. 2025. URL: https://arxiv.org/abs/2506.21448.
Fréchet Audio Distance (FAD). Emergent Mind. 2025. URL: https://www.emergentmind.com/topics/frechet-audio-distance-fad.
Shan S., Li Q., Cui Y. et al. HunyuanVideo-Foley: Multimodal Diffusion with Representation Alignment for High-Fidelity Foley Audio Generation. arXiv preprint arXiv:2508.16930. 2025. URL: https://arxiv.org/abs/2508.16930.
Takahashi A., Takahashi S., Mitsufuji Y. MMAudioSep: Taming Video-to-Audio Generative Model towards Video/Text-Queried Sound Separation. arXiv preprint arXiv:2510.09065. 2025. URL: https://arxiv.org/abs/2510.09065.
Cheng H. K., Ishii M., Hayakawa A. et al. MMAudio: Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis. arXiv preprint arXiv:2412.15322. 2024. URL: https://arxiv.org/abs/2412.15322.
Dinkel H., Li G., Liu J. et al. MiDashengLM: Efficient Audio Understanding with General Audio Captions. arXiv preprint arXiv:2508.03983. 2025. URL: https://arxiv.org/abs/2508.03983.
Language-Based Audio Retrieval. DCASE Challenge. 2025. URL: https://dcase.community/challenge2025/task-language-based-audio-retrieval.
Yu J., Zhu L., Chi Y. et al. Technical Approach for the EMI Challenge in the 8th Affective Behavior Analysis in-the-Wild Competition. arXiv preprint arXiv:2503.10603. 2025. URL: https://arxiv.org/pdf/2503.10603.
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
Науковий журнал дотримується принципів відкритого доступу (Open Access) та забезпечує вільний, негайний і постійний доступ до всіх опублікованих матеріалів без фінансових, технічних або юридичних обмежень для читачів.
Усі статті публікуються у відкритому доступі відповідно до ліцензії Creative Commons Attribution 4.0 International (CC BY 4.0).
Авторські права
Автори, які публікують свої роботи в журналі:
-
зберігають за собою авторські права на свої публікації;
-
надають журналу право на перше опублікування статті;
-
погоджуються на поширення матеріалів за ліцензією CC BY 4.0;
-
мають право повторно використовувати, архівувати та поширювати свої роботи (у тому числі в інституційних та тематичних репозитаріях) за умови посилання на первинну публікацію в журналі.