Исследователи из Google и MIT CSAIL (Лаборатории Компьютерных Наук и Искусственного Интеллекта) представили на конференции NeurIPS 2018 в Монреале нейронную сеть, способную создавать 3D-модели с реалистичным освещением и отражениями. Система VON (Visual Object Networks) позволяет редактировать форму и текстуру объекта, менять ракурс и выполнять другие действия, доступные в работе с 3D-моделями.
Принцип работы VON
Нейросеть разбивает генерируемую модель на три фактора: форму, ракурс и текстуру. Затем она тренируется создавать трёхмерные объекты и вычисляет эскизы «2.5D» — совокупность силуэта объекта моделирования и карты его глубины.
Поскольку эти факторы условно независимы, модель не требует дублирования данных между двумерными изображениями и трёхмерными формами. Это позволило обучать VON на коллекциях Pix3D, изображениях Google и ShapeNet.
Чтобы научить VON создавать форму объекта самостоятельно, исследователи задействовали генеративно-состязательную сеть (GAN), обученную на ShapeNet. За создание текстур отвечает другая сеть на базе GAN.
Оценка нейросети
Для оценки модели генерации изображения разработчики определили расстояние Фреше для сгенерированных объектов. Они представили около 200 пар изображений и моделей, созданных нейросетью, на сервисе Mechanical Turk от Amazon. Пятеро опрашиваемых должны были выбрать наиболее реалистичную модель. VON имела самое низкое начальное расстояние Фреше из всех моделей ИИ, и опрашиваемые выбрали её изображения в 74–85 % случаев.
В июне 2018 года команда разработчиков рассказала о проекте HeadOn — технологии, которая «считывает» выражение лица, движение глаз, позу человека в реальном времени и на основе этой информации воссоздаёт его реалистичную объёмную модель.
Источник: