Аудиокодек Lyra V2 с открытым исходным кодом становится быстрее, качественнее и совместим с большим количеством платформ

Lyra V2 — это обновление аудиокодека Lyra с открытым исходным кодом, представленного компанией Google в прошлом году, с новой архитектурой, которая предлагает возможности масштабирования битрейта, лучшую производительность, более высокое качество звука и работает на большем количестве платформ.

Под капотом Lyra V2 используется сквозной нейронный аудиокодек под названием SoundStream с «остаточным векторным квантователем» (RVQ), расположенным до и после канала передачи, который может изменить битрейт аудио в любое время, выбрав количество используемых квантователей. Поддерживаются три битрейтах: 3,2 кбит/с, 6 кбит/с и 9,2 кбит/с. Lyra V2 использует искусственный интеллект, а модель TensorFlow Lite позволяет ему работать на телефонах Android, Linux, а также на Mac и Windows, хотя поддержка последних двух является экспериментальной. iOS и другие встроенные платформы в настоящее время не поддерживаются, но это может измениться в будущем.

Особенно интересно посмотреть на сравнение с Lyra V2 с другими аудиокодеками, такими как Lyra (V1) и Opus, с новым аудиокодеком, обеспечивающим более высокое качество (оценка MUSHRA ), чем те, которые имеют заданный битрейт, и на приведенной выше диаграмме показана Lyra V2 при 9,2 кбит/с обеспечивает примерно такое же качество, как Opus на 14 кбит/с.

Задержка также была уменьшена со 100 мс до 20 мс, что делает кодек второго поколения сопоставимым с Opus для WebRTC, который имеет типичную задержку 26,5 мс, 46,5 мс и 66,5 мс. Lyra V2 также кодирует и декодирует в пять раз быстрее, чем Lyra V1, что обеспечивает кодирование/декодирование звука в реальном времени и более низкое энергопотребление. Например, новому аудиокодеку требуется 0,57 мс для кодирования и декодирования аудиокадра длительностью 20 мс на телефоне Pixel 6 Pro, что примерно в 35 раз быстрее, чем в режиме реального времени.

В то время как LyraV1 можно сравнить с AMR-NB, Lyra V2 предлагает улучшенное качество по сравнению с Enhanced Voice Services (EVS) и Adaptive Multi-Rate Wideband (AMR-WB), а также качество, аналогичное Opus, при использовании от 50% до 60% пропускной способности.

Исходный код для реализации Lyra V1/V2 можно найти на Github с C++ API, почти таким же, как и в первом выпуске, за исключением нескольких изменений, таких как возможность изменять битрейт во время кодирования. Определения и веса модели также включены в виде файлов .tflite.

Более подробную информацию и образцы аудио можно найти в блоге Google Open Source .

Выражаем свою благодарность источнику из которого взята и переведена статья, сайту cnx-software.com.

Оригинал статьи вы можете прочитать здесь.