Picovoice поддерживает настраиваемое слово для пробуждения, автономное распознавание голоса на Raspberry Pi

4-микрофонный массив ReSpeaker – это Raspberry Pi HAT с четырьмя микрофонами, которые могут работать с такими сервисами, как Google Assistant или Amazon Echo. Он был запущен в 2017 году. Так что ничего нового в аппаратном обеспечении.

Новым является то, что Picovoice теперь поддерживает плату расширения, которая работает так же, как и другие голосовые помощники, за исключением того, что позволяет людям создавать собственные слова для пробуждения и распознавание голоса в автономном режиме.

Picovoice описывается как платформа для создания настраиваемых голосовых продуктов с обработкой, полностью выполняемой на устройстве. Устройство кроссплатформенное, считается более устойчивым к шуму и реверберации, а благодаря работе в автономном режиме обеспечивает малую задержку и соответствует правилам конфиденциальности HIPAA и GDPR.

Платформа состоит из двух основных частей:

  • Porcupine – поддерживающий пользовательские пробуждающие слова, обученные через консоль PicoVoice. Движок может прослушивать несколько слов пробуждения и является кроссплатформенным с поддержкой Raspberry Pi, BeagleBone, Android, iOS, Linux (x86_64), macOS (x86_64), Windows (x86_64).
  • Rhino Speech-to-Intent для понимания естественно произносимых команд

Например, если у вас дома есть умная кофемашина, вы можете разбудить свой умный динамик с помощью специального слова пробуждения от Porcupine, такого как «Привет, дом, милый дом», а затем попросить его приготовить вам чашку кофе через Rhino: «сделай мне чашку кофе». Также возможно сочетание обоих:

Привет, милый дом, сделай мне чашку кофе

Seeed Studio обновила свою Wiki, чтобы показать, как использовать PicoVoice Porcupine и Rhino, используя демонстрацию Python, работающую на Raspberry Pi с 4-микрофонным массивом ReSpeaker. Исходный код демонстрации также можно найти на Github. Он поддерживает девять разных слов для пробуждения: Alexa, Bumblebee, Computer, Hey Google, Hey Siri, Jarvis, Picovoice, Porcupine и Terminator.

Мы решили проверить консоль Picovoice на процесс создания собственного пробуждающего слова. Во время регистрации вам будет предложено указать адрес электронной почты и указать, являетесь ли вы физическим лицом или представляете компанию, стремящуюся создать коммерческий продукт. После регистрации вам будет предложено выбрать движок пробуждения Porcupine или движок Rhino speed-to-intend.

Начнем с Porcupine, так как мы хотим создать собственное ключевое слово. Мы попробовали «Эй, ты». По какой-то причине мы должны выбрать операционную систему и цель, и в этом случае мы оставили значение по умолчанию: Linux (x86_64).

Можно выбрать другие платформы, но с личной учетной записью активны только 64-разрядные ОС x86 (Linux, Windows, macOS), а Android, Beaglebone, Arm Cortex-M, iOS, Raspberry Pi и WebAssembly ограничены. Полагаю, что ограничения снимаются только для коммерческих аккаунтов.

Личные учетные записи могут использовать только пользовательские слова для пробуждения в течение 30 дней, и есть ограничение на три обучения в месяц. Нажмите “Train”.

Нам не понравилось наше пробуждающее слово, потому что «ты» слишком короткое обращение. Поэтому мы решили изменить его на «дорогой хозяин».

Нам сказали, что процесс может занять до 3 часов, но мы получили письмо с подтверждением в течение 20 минут:

Ваше пробуждающее слово («дорогой хозяин») закончило обучение.

Вы можете проверить слово пробуждения в браузере, загрузив файл модели по адресу https://console.picovoice.ai/ppn

Мы не знаем, как они это сделали, потому что мы полагали, что создание собственного слова для пробуждения требует времени и тысяч образцов голоса.

Наш файл называется «dear_master_linux_2021-01-17-utc_v1_9_0.ppn» и занимает всего 3,1 КБ. Это можно сделать в виде zip-файла с текстовым файлом, содержащим «Лицензионное соглашение для личного аккаунта консоли Picovoice». После загрузки файла вы можете интегрировать его с Porcupine Wake Word SDK и Picovoice Platform SDK, документацию которых можно найти здесь.

Для быстрой проверки вы также можете протестировать новое слово для пробуждения в веб-браузере. У нас все заработало после правильной настройки громкости микрофона ноутбука.

Выражаем свою благодарность источнику из которого взята и переведена статья, сайту cnx-software.com.

Оригинал статьи вы можете прочитать здесь.

0 0 votes
Article Rating
Подписаться
Уведомление о
guest

Этот сайт использует Akismet для борьбы со спамом. Узнайте, как обрабатываются ваши данные комментариев.

0 Комментарий
Inline Feedbacks
View all comments