На днях общественности был представлен движок Picovoice Cobra Voice Activity Detection (VAD) с поддержкой Raspberry Pi, BeagleBone, NVIDIA Jetson Nano, 64-разрядной версии Linux, 64-разрядной версии macOS, 64-разрядной версии Windows, Android, iOS и веб-браузеров, которые поддерживают WebAssembly. Поддержка других SoC на базе Cortex-M и Cortex-A также может быть доступна, но только для корпоративных клиентов.
Picovoice уже предлагал настраиваемое определение слова пробуждения с простым и быстрым веб-обучением и автономным распознаванием голоса для Raspberry Pi, и даже позже перенес свой голосовой движок на Arduino. Cobra VAD – это новый выпуск, который, как и другие VAD, направлен на обнаружение человеческого голоса в аудиопотоке.
Picovoice Cobra можно найти на Github, но обратите внимание, что это не решение с открытым исходным кодом. Для различных целей предоставляется динамическая библиотека libpv_cobra.so вместе с файлами разъемов и демонстрациями на C, Python, Rust и WebAssembly, а также демонстрационные приложения для iOS и Android.
Самый простой и быстрый способ опробовать его – воспользоваться демонстрацией, представленной в объявление. Просто нажмите на микрофон, а затем пошумите и/или поговорите, чтобы посмотреть, как это работает.
Любой шум, который не слышен в речи, должен быть отфильтрован, даже в шумной обстановке, конечно, в определенных пределах.
Компания также опубликовала тест голосовой активности, чтобы сравнить его с другими решениями, такими как доступ Google WebRTC VAD через программу Python py-webrtcvad. На приведенной ниже диаграмме, предоставленной Picovoice, показана кривая рабочей характеристики приемника (ROC) движка WebRTC и Cobra с отношением сигнал/шум 0 дБ.
График немного сбивает с толку, но вывод состоит в том, что чем больше площадь под кривой, тем лучше.
Движок Cobra VAD также считается эффективным с коэффициентом реального времени 0,05 или около 5% на Raspberry Pi Zero и 0,0006 на более мощном ноутбуке Intel Core i7-1185G7 Tiger Lake.
Выражаем свою благодарность источнику из которого взята и переведена статья, сайту cnx-software.com.
Оригинал статьи вы можете прочитать здесь.