Gemini Omni: революция в генерации видео с помощью ИИ от Google

Google представила новое семейство генеративных моделей искусственного интеллекта — Gemini Omni, которое способно создавать контент из любых типов входных данных. Первым продуктом линейки стала нейросеть Gemini Omni Flash, которая генерирует видеоролики на основе текста, фотографий, аудио и других видеозаписей. Эта технология объединяет мультимодальные возможности с глубоким пониманием физических законов и реального мира. В статье мы расскажем, как работает Gemini Omni, какие возможности она предлагает и как это изменит подход к созданию контента.

Что такое Gemini Omni Flash?

Мультимодальная генерация видео

Gemini Omni Flash способна создавать видеоролики продолжительностью до 10 секунд, используя текст, фото, аудио или видео как исходные данные. Ключевая особенность — возможность редактировать исходные кадры с помощью естественного языка, сохраняя логику сцены и последовательность действий персонажей.

Глубокое понимание реального мира

Модель опирается на обширную базу знаний экосистемы Gemini, что позволяет ей учитывать исторический и научный контекст, а также точно воспроизводить физические явления, такие как гравитация или динамика жидкостей.

Возможности Gemini Omni Flash

Создание цифровых аватаров

Пользователи могут сгенерировать собственный цифровой аватар и озвучить его своим голосом. Эта функция уже пользовалась огромным спросом в прошлогодней модели Nano Banana, с помощью которой было создано более 50 миллиардов изображений.

Безопасность и проверка подлинности

Все сгенерированные ролики автоматически помечаются невидимым цифровым водяным знаком SynthID для проверки подлинности контента. Также алгоритм ограничен в возможности изменять чужую речь на видео.

Доступность и планы на будущее

Глобальный запуск

Gemini Omni Flash уже доступна для подписчиков тарифов Google AI Plus, Pro и Ultra через приложение Gemini и сервис Google Flow. С этой недели бесплатный доступ открывается для пользователей в приложениях YouTube Shorts и YouTube Create App.

Будущие улучшения

Разработчики планируют добавить поддержку вывода аудио и статических изображений, а также увеличить продолжительность генерируемых роликов.

«Новая технология обладает гораздо большей информацией об устройстве мира, чем предыдущие разработки», — подчеркнул Корай Кавукчуоглу, технический директор Google DeepMind.

Gemini Omni Flash — это шаг в будущее генерации контента, который открывает новые возможности для творчества и упрощает процесс создания видео. Следите за обновлениями и пробуйте новую технологию уже сегодня!

«`