VFusion3D от Meta: шаг вперед в создании 3D-контента с использованием искусственного интеллекта

Подпишитесь на наши ежедневные и еженедельные рассылки, чтобы получать последние обновления и эксклюзивный контент о ведущих в отрасли материалах об ИИ. Узнать больше


Исследователи из Meta и Оксфордского университета разработали мощную модель искусственного интеллекта, способную генерировать высококачественные 3D-объекты из отдельных изображений или текстовых описаний.

Система под названием VFusion3D является важным шагом на пути к масштабируемому трехмерному искусственному интеллекту, который может трансформировать такие области, как виртуальная реальность, игры и цифровой дизайн.

Цзюньлин Хан, Филиппос Коккинос и Филипп Торр возглавили исследовательскую группу, которая занялась решением давней проблемы в области ИИ — дефицита данных для обучения 3D по сравнению с огромным количеством 2D-изображений и текста, доступных в сети. Их новый подход использует предварительно обученные модели видео ИИ для генерации синтетических 3D-данных, что позволяет им обучать более мощную систему генерации 3D.

Параллельное сравнение, демонстрирующее возможности VFusion3D. Слева — 2D-изображение мультяшной свиньи с рюкзаком. Справа — 3D-модель, созданная ИИ, демонстрирующая способность системы интерпретировать глубину, текстуру и форму из одного входного изображения. Кредит: Meta/University of Oxford

Открывая третье измерение: как VFusion3D заполняет пробелы в данных

«Основным препятствием при разработке фундаментальных генеративных 3D-моделей является ограниченная доступность 3D-данных», — объясняют исследователи в своей статье.

Чтобы преодолеть это, они доработали существующую модель видео ИИ для создания многоракурсных видеопоследовательностей, по сути, научив ее представлять объекты с разных ракурсов. Эти синтетические данные затем использовались для обучения VFusion3D.

Результаты действительно впечатляют. В ходе испытаний оценщики-люди отдавали предпочтение 3D-реконструкциям VFusion3D в более чем 90% случаев по сравнению с предыдущими передовыми системами. Модель может генерировать 3D-ресурс из одного изображения всего за несколько секунд.

2D-воин-коала (слева), преобразованный в 3D-модель (справа), демонстрирует потенциал ИИ в дизайне персонажей. Кредит: Meta/University of Oxford

От пикселей к полигонам: перспективы масштабируемого 3D-ИИ

Возможно, наиболее захватывающей является масштабируемость этого подхода. По мере разработки более мощных моделей видео ИИ и появления большего количества 3D-данных для тонкой настройки, исследователи ожидают, что возможности VFusion3D будут продолжать быстро совершенствоваться.

Этот прорыв в конечном итоге может ускорить инновации в отраслях, полагающихся на 3D-контент. Разработчики игр могут использовать его для быстрого прототипирования персонажей и окружения. Архитекторы и дизайнеры продуктов могут быстро визуализировать концепции в 3D. А приложения VR/AR могут стать гораздо более захватывающими с 3D-активами, созданными ИИ.

Практический опыт работы с VFusion3D: взгляд в будущее 3D-генерации

Чтобы лично ознакомиться с возможностями VFusion3D, я протестировал общедоступную демоверсию (доступную на Hugging Face через Gradio).

Интерфейс прост и позволяет пользователям либо загружать собственные изображения, либо выбирать из ряда предварительно загруженных примеров, включая таких культовых персонажей, как Пикачу и Дарт Вейдер, а также более причудливые варианты, например, свинью с рюкзаком.

Предварительно загруженные примеры показали себя очень хорошо, создавая 3D-модели и видео, которые с удивительной точностью передавали суть и детали исходных 2D-изображений.

Но настоящее испытание началось, когда я загрузил пользовательское изображение — сгенерированную ИИ картинку рожка мороженого, созданную с помощью Midjourney. К моему удивлению, VFusion3D обработал это синтетическое изображение так же хорошо, если не лучше, чем предварительно загруженные примеры. За считанные секунды он создал полностью реализованную 3D-модель рожка мороженого, дополненную текстурными деталями и соответствующей глубиной.

Этот опыт подчеркивает потенциальное влияние VFusion3D на творческие рабочие процессы. Дизайнеры и художники могли бы потенциально пропустить трудоемкий процесс ручного 3D-моделирования, вместо этого используя созданные ИИ 2D-концепты в качестве трамплина для мгновенных 3D-прототипов. Это могло бы значительно ускорить процесс создания идей и итераций в таких областях, как разработка игр, дизайн продукта и визуальные эффекты.

Более того, способность системы обрабатывать 2D-изображения, созданные ИИ, предполагает будущее, в котором целые конвейеры создания 3D-контента могут управляться ИИ, от начальной концепции до финального 3D-актива. Это может демократизировать создание 3D-контента, позволяя отдельным лицам и небольшим командам производить высококачественные 3D-активы в масштабах, которые ранее были доступны только крупным студиям со значительными ресурсами.

Однако важно отметить, что хотя результаты впечатляют, они еще не идеальны. Некоторые мелкие детали могут быть утеряны или неверно истолкованы, а сложные или необычные объекты могут по-прежнему представлять трудности. Тем не менее, потенциал этой технологии для преобразования творческих отраслей очевиден, и, вероятно, мы увидим быстрый прогресс в этой области в ближайшие годы.

Дорога вперед: вызовы и будущие горизонты

Несмотря на свои впечатляющие возможности, технология не лишена ограничений. Исследователи отмечают, что система иногда испытывает трудности с определенными типами объектов, такими как транспортные средства и текст. Они предполагают, что будущие разработки в области моделей видео ИИ могут помочь устранить эти недостатки.

Поскольку ИИ продолжает преобразовывать творческие отрасли, VFusion3D от Meta демонстрирует, как умные подходы к генерации данных могут открыть новые горизонты в машинном обучении. При дальнейшем совершенствовании эта технология может предоставить мощные инструменты для создания 3D-объектов в руки дизайнеров, разработчиков и художников по всему миру.

Исследовательская работа, описывающая VFusion3D, была принята на Европейской конференции по компьютерному зрению (ECCV) 2024, а код был опубликован на GitHub, что позволяет другим исследователям развивать эту работу. Поскольку эта технология продолжает развиваться, она обещает переопределить границы возможного в создании 3D-контента, потенциально преобразуя отрасли и открывая новые сферы творческого самовыражения.