Примерно два года назад мы опубликовали статью, показывающую в сравнении работу микрофонного массива и одного USB-микрофона, и, последний продемонстрировал неудовлетворительную скорость обнаружения при пробуждении на расстоянии около 3 метров даже в тихой комнате, что усугублялось белым шумом или фоновой музыкой, в то время как микрофонный массив воспринимал слово «пробуждение» в любых условиях одинаково хорошо.
Стоимость комплектов для разработки умных акустических систем варьируется от 500 долларов США за комплект разработчика Intel с поддержкой распознания речи до 129 долларов США за комплект разработчика с 3-мя микрофонами Amazon AVS на базе Allwinner R18 и 99 долларов за ReSpeaker Core v2. Если у вас уже есть плата Raspberry Pi 3/4, вы можете получить более дешевые варианты, такие как ReSpeaker 4-Mic Array, за 25 долларов, но ничто не сравнится с ценой камеры Sony PS3 Eye, которая поставляется с массивом из 4 микрофонов и продается на Amazon примерно за 7,5 $. Возможно, у вас уже есть она, поэтому не стоит тратить дополнительные деньги.
PS3 Eye рассматривалась в статье, которую мы опубликовали два года назад, и камера показала хорошие результаты по сравнению с более дорогими комплектами разработчика. Устройство недавно стало предметом обсуждения в разделе комментариев поста о умном динамике Tmall Genie, в связи с постом Микаэлой Мерц, в котором сравнивается PS3 Eye с Respeaker Mic Array v2.0 (стоимостью 69 долларов) и объясняется, как настроить массив микрофонов PS3 Eye в Raspberry Pi 3.
Давайте покажем часть конфигурации
- Отредактируйте /etc/udev/rules.d/70-alsa-permanent.rules, чтобы убедиться, что USB-микрофон PS3 Eye правильно определен:
SUBSYSTEM!="sound", GOTO="my_usb_audio_end"
ACTION!="add", GOTO="my_usb_audio_end"
ATTRS{idVendor}=="1415", ATTRS{idProduct}=="2000", ATTR{id}="VOICE"
2. Отредактируйте конфигурацию ${HOME}/.asoundrc ALSA для использования устройства VOICE:
pcm.array {
type hw
card VOICE
}
отрегулируйте усиление:
pcm .array_gain {
type softvol
slave {
pcm "array"
}
control {
name "Mic Gain"
count 2
card 0
}
min_dB - 40.0
max _ dB 10.0
resolution 80
}
и сведите все 4 аудиопотока микрофона в один:
pcm.cap {
type plug
slave {
pcm "array_gain"
channels 4
}
route_policy sum
}
3. Используйте поток «cap» для записи аудио, используя то решение для преобразования звука в текст, которое вы используете.
Итак, насколько хорошо работает PS3 Eye по сравнению с микрофонным массивом ReSpeaker? Микаэла более подробно рассказывает о своем посте в блоге с примерами и идеями, но основной вывод такой:
Не ожидай чудес. Если ваш STT, такой как Sphinx или Kaldi, не понимает вас с помощью дешевого Sony Playstation Eye, он, скорее всего, не поймет вас даже с подключенным ReSpeaker.
Одним из преимуществ платы ReSpeaker является то, что она работает в радиусе 360 градусов вокруг устройства, в то время как PlayStation Eye более направленная, поэтому она воспринимает звук в зависимости от того, где и как далеко вы стоите, иногда не так хорошо.
Выражаем свою благодарность источнику из которого взята и переведена статья, сайту cnx-software.com.
Оригинал статьи вы можете прочитать здесь.