Исследователи Apple представляют «Keyframer»: инструмент на основе искусственного интеллекта, который анимирует неподвижные изображения с помощью LLM


Исследователи Apple представили новый инструмент искусственного интеллекта под названием «Keyframer», который использует возможности больших языковых моделей (LLM) для анимации статических изображений с помощью подсказок на естественном языке.

Это новое приложение, подробно описанное в новой исследовательской статье, опубликованной на сайте arxiv.org, представляет собой гигантский скачок в интеграции искусственного интеллекта в творческий процесс, а также может намекать на то, что нас ждет в новых поколениях продуктов Apple, таких как iPad Pro и Vision Pro.

 

В исследовательской работе под названием «Keyframer: расширение возможностей анимационного дизайна с использованием больших языковых моделей» исследуется неизведанная территория в применении LLM в индустрии анимации, а также рассматриваются уникальные проблемы, такие как эффективное описание движения на естественном языке.

Представьте себе: вы аниматор с идеей, которую вы хотите исследовать. У вас есть статичные изображения и история, которую нужно рассказать, но мысль о бесчисленных часах, проведенных над iPad, чтобы вдохнуть жизнь в ваши творения, ну, утомительна. Введите Keyframer. Всего несколько предложений, и эти изображения могут начать танцевать на экране, как будто они прочитали ваши мысли. Или, скорее, как будто это сделали большие языковые модели Apple (LLM).

кредит. arxiv.org

Как «Keyframer» улучшает процесс анимации с помощью отзывов пользователей

Keyframer работает на основе большой языковой модели (в исследовании они используют GPT-4), которая может генерировать код анимации CSS из статического изображения SVG и подсказки. «Большие языковые модели имеют потенциал для влияния на широкий спектр творческих областей, но применение LLM к анимации недостаточно изучено и представляет новые проблемы, такие как то, как пользователи могут эффективно описывать движение на естественном языке», — объясняют исследователи.

Чтобы создать анимацию, пользователь загружает изображение SVG, вводит текстовую подсказку, например «Заставьте облака медленно дрейфовать влево», и Keyframer сгенерирует код, чтобы эта анимация произошла. Затем пользователи могут улучшить анимацию, напрямую редактируя код CSS или добавляя новые подсказки на естественном языке.

Согласно статье, «Keyframer поддерживает исследование и совершенствование анимаций посредством сочетания подсказок и прямого редактирования сгенерированного вывода». Этот ориентированный на пользователя подход был разработан на основе нескольких интервью с профессиональными дизайнерами и инженерами анимации, которые предоставили отзывы об исследовательском инструменте, и все они подчеркивали итеративный дизайн и креативность.

«Я думаю, это было намного быстрее, чем многое из того, что я делал раньше… Я думаю, что раньше на выполнение чего-то подобного ушло бы несколько часов», — сказал один из участников исследования, опрошенный для статьи.

Расширение горизонтов больших языковых моделей

Исследователи обнаружили, что большинство пользователей использовали итеративный, «разложенный» подход к дизайну подсказок, добавляя новые подсказки для анимации отдельных элементов по одной. Это позволило им постепенно адаптировать свои цели в ответ на вывод ИИ.

«Keyframer позволил пользователям итеративно совершенствовать свои проекты с помощью последовательных подсказок, вместо того, чтобы заранее продумывать весь дизайн», — объясняют исследователи в статье. Функции прямого редактирования кода также обеспечили детальный творческий контроль.

Хотя инструменты анимации ИИ имеют потенциал для демократизации дизайна, исследователи признают опасения по поводу потери творческого контроля и удовлетворения. Но, объединяя подсказки с редактированием, Keyframer стремится обеспечить доступное прототипирование, сохраняя при этом свободу действий пользователя.

«Благодаря этой работе мы надеемся вдохновить на создание будущих инструментов дизайна анимации, которые объединят мощные генеративные возможности LLM для ускорения создания прототипов дизайна с динамическими редакторами, позволяющими создателям сохранять творческий контроль», — заключают исследователи.

Более широкое влияние «Keyframer» на творческие индустрии

Keyframer обещает преобразовать ландшафт анимации, сделав его более доступным для широкого круга создателей. В том, что рассматривается как значительное выравнивание игрового поля, Keyframer предлагает неспециалистам возможность воплощать истории в жизнь с помощью анимации — задача, которая когда-то требовала значительных технических навыков и ресурсов. Это свидетельство растущей роли ИИ как силы сотрудничества в творческом процессе, предполагающее изменение в том, как технологии используются в различных секторах.

Последствия Keyframer простираются до ожидаемого культурного сдвига, где ИИ становится более интуитивной и неотъемлемой частью человеческого творческого опыта. Это не просто технологический скачок, но и потенциальный катализатор переосмысления самой ткани нашего взаимодействия с цифровой сферой. Шаг Apple с Keyframer вполне может стать предвестником новой эры, где границы между создателем и творением становятся все более текучими, направляемые невидимой рукой искусственного интеллекта.