Примерно два года назад мы опубликовали статью, показывающую в сравнении работу микрофонного массива и одного USB-микрофона, и, последний продемонстрировал неудовлетворительную скорость обнаружения при пробуждении на расстоянии около 3 метров даже в тихой комнате, что усугублялось белым шумом или фоновой музыкой, в то время как микрофонный массив воспринимал слово «пробуждение» в любых условиях одинаково хорошо.
Стоимость комплектов для разработки умных акустических систем варьируется от 500 долларов США за комплект разработчика Intel с поддержкой распознания речи до 129 долларов США за комплект разработчика с 3-мя микрофонами Amazon AVS на базе Allwinner R18 и 99 долларов за ReSpeaker Core v2. Если у вас уже есть плата Raspberry Pi 3/4, вы можете получить более дешевые варианты, такие как ReSpeaker 4-Mic Array, за 25 долларов, но ничто не сравнится с ценой камеры Sony PS3 Eye, которая поставляется с массивом из 4 микрофонов и продается на Amazon примерно за 7,5 $. Возможно, у вас уже есть она, поэтому не стоит тратить дополнительные деньги.
PS3 Eye рассматривалась в статье, которую мы опубликовали два года назад, и камера показала хорошие результаты по сравнению с более дорогими комплектами разработчика. Устройство недавно стало предметом обсуждения в разделе комментариев поста о умном динамике Tmall Genie, в связи с постом Микаэлой Мерц, в котором сравнивается PS3 Eye с Respeaker Mic Array v2.0 (стоимостью 69 долларов) и объясняется, как настроить массив микрофонов PS3 Eye в Raspberry Pi 3.
Давайте покажем часть конфигурации
- Отредактируйте /etc/udev/rules.d/70-alsa-permanent.rules, чтобы убедиться, что USB-микрофон PS3 Eye правильно определен:
1 2 3 |
SUBSYSTEM!="sound", GOTO="my_usb_audio_end" ACTION!="add", GOTO="my_usb_audio_end" ATTRS{idVendor}=="1415", ATTRS{idProduct}=="2000", ATTR{id}="VOICE" |
2. Отредактируйте конфигурацию ${HOME}/.asoundrc ALSA для использования устройства VOICE:
1 2 3 4 |
pcm.array { type hw card VOICE } |
отрегулируйте усиление:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 |
pcm .array_gain { type softvol slave { pcm "array" } control { name "Mic Gain" count 2 card 0 } min_dB - 40.0 max _ dB 10.0 resolution 80 } |
и сведите все 4 аудиопотока микрофона в один:
1 2 3 4 5 6 7 8 |
pcm.cap { type plug slave { pcm "array_gain" channels 4 } route_policy sum } |
3. Используйте поток «cap» для записи аудио, используя то решение для преобразования звука в текст, которое вы используете.
Итак, насколько хорошо работает PS3 Eye по сравнению с микрофонным массивом ReSpeaker? Микаэла более подробно рассказывает о своем посте в блоге с примерами и идеями, но основной вывод такой:
Не ожидай чудес. Если ваш STT, такой как Sphinx или Kaldi, не понимает вас с помощью дешевого Sony Playstation Eye, он, скорее всего, не поймет вас даже с подключенным ReSpeaker.
Одним из преимуществ платы ReSpeaker является то, что она работает в радиусе 360 градусов вокруг устройства, в то время как PlayStation Eye более направленная, поэтому она воспринимает звук в зависимости от того, где и как далеко вы стоите, иногда не так хорошо.
Выражаем свою благодарность источнику из которого взята и переведена статья, сайту cnx-software.com.
Оригинал статьи вы можете прочитать здесь.