МЕТОД ПІДВИЩЕННЯ ЕФЕКТИВНОСТІ РОЗПІЗНАВАННЯ МОВИ НА ОСНОВІ ГЕНЕ-ТИЧНОЇ ОПТИМІЗАЦІЇ ВЕЙВЛЕТ-ФУНКЦІЇ
DOI:
https://doi.org/10.18372/2310-5461.70.21200Ключові слова:
адаптивний вейвлет-аналіз, сплайни Акіма, генетичні алгоритми, згорткові нейронні мережі, розпізнавання мови, паралельні обчислення, цифрова обробка сигналівАнотація
У статті розглядається актуальна проблема забезпечення високої надійності функціонування систем розпізнавання мови в умовах впливу завад. Наукова новизна дослідження полягає у розробці методу синтезу оптимального адаптивного вейвлет-ядра для первинних шарів згорткових нейронних мереж. На відміну від існуючих підходів, що спираються на стохастичну ініціалізацію ваг або застосування жорстко детермінованих базисних функцій (таких як вейвлети Мейєра, Добеші або Сімлета), авторами запропоновано алгоритм цілеспрямованого формування геометрії ядра на основі інтерполяційних сплайнів Акіми. Центральне місце в даслідженні займає процес оптимізації морфології вейвлета, де в якості цільової функції обрано середньоквадратична помилка розбіжності між амплітудно-частотною характеристикою синтезованого фільтра та енергетичним спектральним портретом конкретного мовного сигналу. Для вирішення задачі мінімізації даної функції в багатовимірному просторі параметрів сплайну застосовано модифікований паралельний генетичний алгоритм. Використання еволюційного пошуку дозволяє ефективно долати проблему локальних екстремумів, характерну для невипуклих поверхонь цільових функцій при пошуку оптимальних ординат вузлових точок сплайну. У статті детально описано аналіз збіжності алгоритму до 50-го покоління та оцінку обчислювальної ефективності залежно від кількості задіяних ядер процесора. Наведено результати порівняльного моделювання, які підтверджують перевагу адаптивних ядер над класичними аналітичними вейвлетами. Зокрема, впровадження оптимального адаптивного фільтра в структуру згорткового класифікатора дозволило підвищити точність розпізнавання мови на 15–22 % при низьких значеннях відношення сигнал/шум 5–15 дБ. Показано, що завдяки застосуванню паралельних обчислювальних схем час адаптації системи до нового диктора скорочується до 2,1 секунди, що відкриває широкі перспективи для інтеграції методу в робастні системи голосового управління безпілотними робототехнічними системати та спеціалізованими інфокомунікаційними мережами.
Посилання
H. Lu et al., “Speech and Noise Dual-Stream Spectrogram Refine Network With Speech Distortion Loss For Robust Speech Recognition,” ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Rhodes Island, Greece, 2023, pp. 1-5, https://doi.org/10.1109/ICASSP49357.2023.10095872
Z. Shi, “New Speech Noise Reduction Recognition System Based on Spatial Filtering Technology and CI1103 Speech Module,” 2021 IEEE 3rd International Conference on Frontiers Technology of Information and Computer (ICFTIC), Greenville, SC, USA, 2021, pp. 355-360, https://doi.org/10.1109/ICFTIC54370.2021.9647201
S. Jia, “Electric theft system detection based on genetic algorithm optimization neural network,” 2024 6th International Conference on Energy, Power and Grid (ICEPG), Guangzhou, China, 2024, pp. 1880-1885, https://doi.org/10.1109/ICEPG63230.2024.10775810
V. Kuzmin, M. Zaliskyi, O. Holubnychyi and O. Lavrynenko, “Empirical Data Approximation Using Three-Dimensional Two-Segmented Regression,” 2022 IEEE 3rd KhPI Week on Advanced Technology (KhPIWeek), Kharkiv, Ukraine, 2022, pp. 1-6, https://doi.org/10.1109/KhPIWeek57572.2022.9916335
Z. Nian, Y. -H. Tu, J. Du and C. -H. Lee, “A Progressive Learning Approach to Adaptive Noise and Speech Estimation for Speech Enhancement and Noisy Speech Recognition,” ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Toronto, ON, Canada, 2021, pp. 6913-6917, https://doi.org/10.1109/ICASSP39728.2021.9413395
J. Chen, X. Zhou and Q. Qin, “Research on Speech Recognition of Sanitized Robot Based on Improved Speech Enhancement Algorithm,” 2024 5th International Seminar on Artificial Intelligence, Networking and Information Technology (AINIT), Nanjing, China, 2024, pp. 1641-1644, https://doi.org/10.1109/AINIT61980.2024.10581425
O. Lavrynenko et al., “Method of Remote Biometric Identification of a Person by Voice based on Wavelet Packet Transform,” CEUR Workshop Proceedings, vol. 3654, pp. 150-162, 2024.
Y. Shen et al., “Principal Component Analysis Based on Quantum Genetic Algorithm with T-Distribution Parameters,” 2021 IEEE 5th Advanced Information Technology, Electronic and Automation Control Conference (IAEAC), Chongqing, China, 2021, pp. 2378-2382, https://doi.org/10.1109/IAEAC50856.2021.9390901
S. R. Bandela, S. Sharma Sadhu, V. S. Rathore and S. K. Jagini, “Development of Noise Robust Automatic Speech Recognition System,” 2023 14th International Conference on Computing Communication and Networking Technologies (ICCCNT), Delhi, India, 2023, pp. 1-6, https://doi.org/10.1109/ICCCNT56998.2023.10307271
O. Lavrynenko et al., “Application of Daubechies wavelet analysis in problems of acoustic detection of UAVs,” CEUR Workshop Proceedings, vol. 3662, pp. 125-143, 2024.
M. Xu, “A Multi-Objective Genetic Algorithm for Financial Time Series Reversal Mode Mining,” 2024 International Conference on Integrated Intelligence and Communication Systems (ICIICS), Kalaburagi, India, 2024, pp. 1-5, https://doi.org/10.1109/ICIICS63763.2024.10860044
D. Bakhtiiarov et al., “Methods for assessing and forecasting electromagnetic radiation levels in urban environments,” Informatyka, Automatyka, Pomiary w Gospodarce i Ochronie Srodowiska, vol. 11, no. 1, pp. 24-27, 2021, https://doi.org/10.35784/iapgos.2430
Y. Zouhir, M. Zarka and K. Ouni, “Speech Recognition with Missing Data using Oracle-Mask-Cepstral Feature,” 2025 IEEE International Conference on Advanced Systems and Emergent Technologies (IC_ASET), Mammamet-Yasmine, Tunisia, 2025, pp. 1-4, https://doi.org/10.1109/IC_ASET65966.2025.11231917
G. Konakhovych et al., “Method of Reliability Increasing Based on Spare Parts Optimization for Telecommunication Equipment,” Lecture Notes in Networks and Systems, vol. 992, pp. 296-309, 2024, https://doi.org/10.1007/978-3-031-60196-5_22
J. Guan, “Optimization of BP neural network model based on genetic algorithm in nonlinear prediction,” 2024 IEEE 6th International Conference on Civil Aviation Safety and Information Technology (ICCASIT), Hangzhou, China, 2024, pp. 1228-1232, https://doi.org/10.1109/ICCASIT62299.2024.10827916
O. Holubnychyi et al., “Well-Adapted to Bounded Norms Predictive Model for Aviation Sensor Systems,” Lecture Notes in Networks and Systems, vol. 736, pp. 179-193, 2023, https://doi.org/10.1007/978-3-031-38082-2_14
V. Khedkar, M. Sreenivasu, S. L. Kantham Vinti, K. B. R. Naidu, A. Lakshmanarao and R. Kancharla, “Malware Classification Using Genetic Algorithm Based Feature Selection and Machine Learning Techniques,” 2024 2nd International Conference on Signal Processing, Communication, Power and Embedded System (SCOPES), Paralakhemundi Campus, Centurion University of Technology and Management, Odisha., India, 2024, pp. 1-6, https://doi.org/10.1109/SCOPES64467.2024.10991031
M. A. Ambewadikar and M. R. Baheti, “Review on Speech Recognition System for Disabled People Using Automatic Speech Recognition (ASR),” 2020 International Conference on Smart Innovations in Design, Environment, Management, Planning and Computing (ICSIDEMPC), Aurangabad, India, 2020, pp. 31-34, https://doi.org/10.1109/ICSIDEMPC49020.2020.9299615
S. Migel, M. Zaliskyi, R. Odarchenko, Z. Poberezhna, A. Osipchuk and O. Lavrynenko, “Speech Recognition System for Ukrainian Language,” 2024 14th International Conference on Advanced Computer Information Technologies (ACIT), Ceske Budejovice, Czech Republic, 2024, pp. 166-169, https://doi.org/10.1109/ACIT62333.2024.10712557
M. J. A. J and A. R. Jayan, “Speech to Speech Based Effortless Malayalam Dictionary Using Kaldi and Effect of CVR Modification on Isolated Word Recognition,” 2022 IEEE 19th India Council International Conference (INDICON), Kochi, India, 2022, pp. 1-6, https://doi.org/10.1109/INDICON56171.2022.10039854
D. Bakhtiiarov et al., “Distribute load among concurrent servers,” CEUR Workshop Proceedings, vol. 3826, pp. 260-266, 2024.
Y. Shi, L. Qin, D. Zhao and Y. Xu, “Research on Indoor Robot Localization Method Based on Clustering Optimizes Genetic Algorithm,” 2023 2nd International Conference on Artificial Intelligence and Intelligent Information Processing (AIIIP), Hangzhou, China, 2023, pp. 153-158, https://doi.org/10.1109/AIIIP61647.2023.00035
O. Lavrynenko et al., “Method of speech signal scrambling based on matched wavelet filters,” CEUR Workshop Proceedings, vol. 3826, pp. 229-235, 2024.
M. Labied, A. Belangour, M. Banane and A. Erraissi, “An overview of Automatic Speech Recognition Preprocessing Techniques,” 2022 International Conference on Decision Aid Sciences and Applications (DASA), Chiangrai, Thailand, 2022, pp. 804-809, https://doi.org/10.1109/DASA54658.2022.9765043
O. Lavrynenko et al., “A method for extracting semantic features for speech signal recognition based on the empirical wavelet transform,” Radioelectronic and Computer Systems, vol. 107, no. 3, pp. 101-124, 2023, https://doi.org/10.32620/reks.2023.3.09.
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2026 О Лавриненко

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
Науковий журнал дотримується принципів відкритого доступу (Open Access) та забезпечує вільний, негайний і постійний доступ до всіх опублікованих матеріалів без фінансових, технічних або юридичних обмежень для читачів.
Усі статті публікуються у відкритому доступі відповідно до ліцензії Creative Commons Attribution 4.0 International (CC BY 4.0).
Авторські права
Автори, які публікують свої роботи в журналі:
-
зберігають за собою авторські права на свої публікації;
-
надають журналу право на перше опублікування статті;
-
погоджуються на поширення матеріалів за ліцензією CC BY 4.0;
-
мають право повторно використовувати, архівувати та поширювати свої роботи (у тому числі в інституційних та тематичних репозитаріях) за умови посилання на первинну публікацію в журналі.




