Facebook разработала датасет XLNI, расширяющий системы понимания естественных языков

Facebook объединилась с исследователями из Университета Нью-Йорка для создания набора данных XLNI, который служит для улучшения межъязыковых подходов в понимании естественных языков. Он построен на базе MultiNLU с добавлением 14 новых языков к уже доступному английскому, среди которых редко используемые суахили и урду.

Так для чего нужен XLNI?

Большинство систем распознавания естественного языка требуют для обучения данных, специальным образом отобранных и промаркированных вручную. Такой подход работает, когда дело касается одного языка, но при работе с несколькими затраты слишком велики.

Поэтому ученые из Нью-Йоркского университета решили применить метод межъязыкового понимания. Он заключается в тренировке системы на одном языке, а затем тестировании полученной модели на 112 500 парах слов и предложений на 14 других языках.

XNLI не только расширяет датасет MultiNLU, но и дает развитие системам машинного обучения для распознавания большого количества языков, в том числе редких. Подходы, используемые в разработке, включают в себя как основанный на ИИ машинный перевод, так и параллельную передачу данных для маломощных компьютеров.

Полный текст исследования доступен на странице проекта на Facebook Research.

В конце августа 2018 года команда разработчиков Google Cloud обновила свои API Text-To-Speech для перевода письменной речи в устную и Speech-To-Text для обработки разговора нескольких людей. Кроме того, в тестовом режиме были добавлены аудиопрофили 14 новых языков и диалектов.

Источник: tproger.ru