Alibaba создала нейросеть, способную распознать голос человека в толпе

Глава отделения науки о данных Alibaba Ронг Джин рассказал о нейросети, способной распознать голос человека в шумных местах. Специалисты Alibaba утверждают, что точность достигает 94−95 %, несмотря на сильный акцент оратора. В шанхайском метро на основе этой нейросети введена система оплаты проезда.

Нейросеть, способная распознать голос

Компания решала проблему с использованием как аппаратной, так и программной составляющей. В этом им помогли система удалённых направленных микрофонов и алгоритм нейросети, отрезающий лишние голоса.

Alibaba использует ИИ для обработки естественного языка в реальном времени с помощью облачного сервиса. Кроме того, он отвечает за приём тысяч звонков от клиентов в сервисе Alime. Благодаря машинному обучению, ИИ отвечает на вопросы клиентов без вмешательства людей. В случае обращения клиента в чат, бот умеет вырезать фрагменты текста и предоставлять изображения. По словам специалистов компании, он делает это быстрее человека.

В середине октября 2018 года разработчики Google тоже научились использовать ИИ для выделения конкретного голоса в толпе. Для этого они обучили две отдельные нейросети: одна распознаёт говорящего, другая сравнивает звуковые спектрограммы. Тесты новой разработки, названной VoiceFilter, показали снижение частоты ошибок в распознавании слов с 55,9 % до 23,4 %.

Источник: tproger.ru

Поделиться с друзьями:
Андройд IT
Добавить комментарий