Mozilla представила систему синтеза речи LPCNet

Mozilla рассказала о новой системе синтеза речи LPCNet, которая эффективно переводит текст в речь при уменьшении требовательности к ресурсам. Достигается это за счёт комбинации традиционных методов цифровой обработки сигналов (DSP, digital signal processing) с механизмами синтеза речи на основе рекуррентной нейронной сети.

Принцип работы

Главная проблема современных систем синтеза речи реального времени на основе нейронных сетей — высокая вычислительная сложность. Это не позволяют использовать их на смартфонах и планшетах.

LPCNet использует DSP для LPC-фильтрации (Linear Predictive Coding) и моделирования голосового тракта. Затем, вместо всех выбранных сэмплов, нейросеть получает лишь прогноз каждого последующего. Это освобождает ИИ от моделирования вокального тракта и оставляет ему только корректировку проблем при прогнозировании. Нейросети нужно лишь следить за правильностью прогноза, а не генерировать каждый сэмпл в режиме реального времени.

Возможности LPCNet

Технология может использоваться и в других областях, где нужно улучшить качество голосового сигнала. Например, для передачи речи по низкоскоростным каналам связи, устранения шумов, фильтрации данных и восстановления утерянных при передаче фрагментов речи.

LPCNet написан на языке Си с использованием высокоуровневого фреймворка для построения нейронных сетей Keras. Для работы желательна видеокарта уровня GTX 1080 Ti. Готовые натренированные модели доступны для загрузки, но систему можно обучить и на своих данных. LPCNet распространяется под лицензией BSD.

Система синтеза речи от Mozilla разрабатывается как альтернатива WaveNet от Google. Код WaveNet был открыт для разработчиков в марте 2018 года.

Источник: tproger.ru