Голосовой помощник Espressif ESP-Skainet предлагает механизм обнаружения «слова пробуждения» и распознавание речевых команд для встроенных микроконтроллеров


Теперь у нас есть ESP-Skainet, предоставленный Espressif Systems. ESP-Skainet — это интеллектуальный голосовой помощник, в котором реализован механизм обнаружения «слова пробуждения» WakeNet и распознание речевых команд MultiNet .

WakeNet

WakeNet был специально разработан для микроконтроллеров с низким энергопотреблением, таких как ESP8266 или ESP32, с небольшим объемом памяти (20 КБ ОЗУ) и высокой скоростью вычислений, что позволяет ему успешно обнаруживать «слово пробуждения» даже в шумной среде.

WakeNet в плате LyraT Mini 

Протестированный с помощью готовящейся к выпуску аудио-плате LyraT-Mini компании, сочетающей в себе модуль ESP32-WROVER-B и кодек, WakeNet обнаруживает «слово пробуждения» на расстоянии одного метра в 97% случаев и в 95% на расстоянии трех метров в тихой обстановке.

ESP-Skainet включает в себя «слово пробуждения» «嗨 乐 鑫» (Hi Lexin), которое переводится как «Hello Espressif» и поддерживает до пяти «слов пробуждения». Вы также можете использовать персональные слова для пробуждения, но вам нужно перейти в Espressif Systems, чтобы включить эту настройку.

MultiNet 

Как только ваше умное аудио-устройство (он же умный динамик) будет разбужено «словом пробуждения», он будет слушать то, что вы хотите сказать, конвертируя аудио в текст, используя распознавание речевых команд MultiNet, которое в настоящее время работает только на китайском (мандаринском языке), но, скоро появится поддержка на английском, точнее в следующем выпуске.

Компания далее объясняет, как это работает:

Дизайн MultiNet опирается на сверточные рекуррентные нейронные сети (CRNN) и нейросетевую темпоральную классификацию (CTC). В качестве входных данных MultiNet использует аудио клип Mel-Frequency Cepstral Coefficients (MFCC), а в качестве выходных данных — фонемы этого аудио клипа, которые могут быть на китайском или английском языке. Сравнивая фонемы выходных данных, MultiNet может определить соответствующую китайскую или английскую команду.

На данном этапе поддерживается до 100 разговорных команд на китайском языке, включая настроенные. Настройка голосовых команд не требует повторного обучения модели, доступ к сети не требуется. Обратите внимание, что, хотя WakeNet требует только 20 КБ ОЗУ, ESP-Skainet (MultiNet) работает на модулях ESP8266 или ESP32 с ОЗУ SPI не менее 4 МБ.

Более подробную информацию можно найти в пресс-релизе и Github-хранилище.

Выражаем свою благодарность источнику из которого взята и переведена статья, сайту cnx-software.com.

Оригинал статьи вы можете прочитать здесь.

Комментарии:

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Этот сайт использует Akismet для борьбы со спамом. Узнайте как обрабатываются ваши данные комментариев.