Механизмы преобразования речи в текст на устройстве Picovoice сокращают требования и стоимость транскрипции

Говорят, что автономные механизмы преобразования речи в текст на устройстве Picovoice Leopard и Cheetah достигают точности на уровне облака, полагаются на крошечные модели преобразования речи в текст и сокращают стоимость автоматической транскрипции до 10 раз.

Leopard — это механизм преобразования речи в текст на устройстве, а Cheetah — механизм потокового преобразования речи в текст на устройстве, и оба являются кроссплатформенными с поддержкой Linux x86_64, macOS (x86_64, arm64), Windows x86_64, Android, iOS, Raspberry Pi 3/4 и NVIDIA Jetson Nano.

Рассчитать стоимость не всегда просто, поскольку у компаний разные структуры ценообразования, и в приведенной выше таблице показан наилучший сценарий, когда Picovoice в 6–20 раз более рентабельн, чем решения от Microsoft Azure или Google STT. Picovoice Leopard/Cheetah предоставляется бесплатно в течение первых 100 часов, и клиенты могут платить ежемесячную плату в размере 999 долларов США за до 10 000 часов, следовательно, стоимость PicoVoice составляет 0,1 доллара США в час. Если бы вы использовали только 1000 часов из своего плана, это было бы 1 доллар в час, что все еще не так уж плохо. Подробности смотрите на странице с ценами.

Но цена — это еще не все, и дешевый сервис, который не выполняет свою работу, был бы бесполезен, поэтому компания предоставила несколько тестов преобразования речи в текст с инструкциями по воспроизведению их настройки на Github, сравнивая Picovoice Leopard/Cheetah с AWS Transcribe, Google. STT/STT-Enhanced, IBM Watson STT и Microsoft Azure.

Первая рассматриваемая метрика — это частота ошибок в словах для оценки точности услуг/решений. Picovoice Leopard и Cheetah обеспечивают относительно низкий уровень ошибок в словах, аналогичный облачным службам, таким как Azure, Amazon и Google Enhanced, и намного лучше, чем автономный механизм преобразования речи в текст Mozilla DeepSpeech на устройстве.

Mozilla DeepSpeech по-прежнему будет наиболее экономичным решением (поскольку оно бесплатное), если ваше приложение может работать с более низкой точностью, но другой аспект заключается в том, что механизмы преобразования речи в текст Picovoice используют гораздо меньше ресурсов, чем решение Mozilla STT с более низкий коэффициент реального времени (RTF), отношение времени обработки ЦП к длине входного речевого файла, а также акустические и языковые модели, которые в 60 раз меньше.

Библиотеки с закрытым исходным кодом для всех поддерживаемых платформ, а также документацию можно найти на Github в соответствующих репозиториях Cheetah и Leopard.

Выражаем свою благодарность источнику из которого взята и переведена статья, сайту cnx-software.com.

Оригинал статьи вы можете прочитать здесь.