СИСТЕМА КОМПЛЕКСНОГО АНАЛІЗУ КОМУНІКАТИВНОЇ ПОВЕДІНКИ В ПУБЛІЧНИХ ДИСКУСІЯХ НА ОСНОВІ ДІАРИЗАЦІЇ МОВЦІВ
Ключові слова:
діаризація мовців, автоматичне розпізнавання мови, штучний інтелект, публічні дискусії, аналіз комунікативної поведінкиАнотація
Актуальність дослідження зумовлена зростанням кількості онлайн-зустрічей та публічних дискусій у цифровому форматі, що створює потребу в автоматизованих інструментах аналізу групової комунікації. Традиційні методи ручного кодування та транскрипції є надзвичайно трудомісткими та суб'єктивними, що обмежує можливості масштабного дослідження комунікативних патернів. Мета дослідження полягає в розробці та апробації комплексної системи автоматизованого аналізу комунікативної поведінки, яка поєднує сучасні технології діаризації мовців, автоматичного розпізнавання мови та статистичного аналізу для надання детальної картини групової динаміки в публічних дискусіях. Методи. Система реалізована на основі мікросервісної архітектури з використанням Python 3.10+, FastAPI та React. Для діаризації мовців застосовано алгоритм pyannote.audio, що поєднує конволюційні енкодери з попередньо навченими моделями WavLM. Автоматичне розпізнавання мови здійснюється через трансформерні архітектури (Whisper, AssemblyAI, Conformer). Аналіз комунікативної поведінки включає обчислення статистичних метрик активності, мережевий аналіз взаємодій та оцінку стилю комунікації. Результати. Розроблена система успішно інтегрує діаризацію мовців з точністю до 0.5 секунди, автоматичну транскрипцію та багатовимірний аналіз комунікативних патернів. Модульна архітектура забезпечує гнучкість адаптації під різніdomени застосування. Система генерує детальні часові мітки активності учасників, візуалізує розподіл часу мовлення та надає комплексну аналітику для покращення процесів прийняття рішень. Перспективи. Подальший розвиток системи включає інтеграцію мультимодального аналізу з урахуванням невербальної комунікації, покращення стабільності роботи в умовах фонового шуму, доменну адаптацію для специфічних галузей та впровадження real-time аналізу живих дискусій. Система відкриває нові можливості для дослідження групової динаміки в корпоративному, освітньому та державному секторах.
Посилання
1. Bredin, H., Laurent, A., Rouvier, M., Meignier, S., & Duponchel, L. (2020). Pyannote.audio: Neural building blocks for speaker diarization. In 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (pp. 7124–7128). IEEE. https://doi.org/10.48550/arXiv.1911.01255.
2. Bredin, H. (2023). pyannote.audio 2.1 speaker diarization pipeline: Principle, benchmark, and recipe. In Proc. Interspeech 2023. International Speech Communication Association. https://doi.org/10.21437/Interspeech.2023-1294.
3. Radford, A., Kim, J. W., Xu, T., Brockman, G., McLeavey, C., & Sutskever, I. (2023). Robust speech recognition via large-scale weak supervision. In Proceedings of the 40th International Conference on Machine Learning (Vol. 202, pp. 28492–28518). PMLR. https://proceedings.mlr.press/v202/radford23a.html. https://doi.org/10.48550/arXiv.2212.04356.
4. Gulati, A., Qin, J., Chiu, C.-C., Parmar, N., Zhang, Y., Yu, J., Han, W., Wang, S., Zhang, Z., Wu, Y., & Pang, R. (2020). Conformer: Convolution-augmented Transformer for speech recognition. In Proceedings of Interspeech 2020 (pp. 5036–5040). ISCA. https://doi.org/10.21437/Interspeech.2020-3015.
5. Ao, J., Wang, R., Yang, L., Zhou, J., Liu, S., Wei, L., Qian, C., & Li, X. (2022). SpeechT5: Unified-modal encoder-decoder pre-training for spoken language processing. In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) (pp. 5723–5738). Association for Computational Linguistics. https://doi.org/10.18653/v1/2022.acl-long.393.
6. Park, T. J., Zhang, N., Lu, X., Wu, Y., & Glass, J. (2021). AutoVC: Zero-shot voice style transfer with only autoencoder loss. In International Conference on Machine Learning (pp. 8291–8300). PMLR. https://proceedings.mlr.press/v139/park21b.html. https://doi.org/10.48550/arXiv.1905.05879.
Завантаження
Опубліковано
Номер
Розділ
Ліцензія
Авторське право (c) 2026 Інформаційні технології в економіці та природокористуванні

TЦя робота ліцензується відповідно до ліцензії Creative Commons Attribution-ShareAlike 4.0 International License.