Услышьте свое воображение: ElevenLabs запустит ИИ для звуковых эффектов

Подпишитесь на наши ежедневные и еженедельные рассылки, чтобы получать последние обновления и эксклюзивный контент о ведущих в отрасли материалах об ИИ. Узнать больше


ElevenLabs, двухлетний стартап в области искусственного интеллекта, основанный бывшими сотрудниками Google и Palantir, освоив искусство клонирования и синтеза голоса на основе машинного обучения, расширяет свое портфолио новой моделью преобразования текста в звук.

Несколько часов назад нам намекнули, что ИИ позволит создателям создавать звуковые эффекты, просто описывая свое воображение словами. Ожидается, что он обогатит контент новым способом в эпоху цифровых впечатлений, управляемых ИИ.

Модель недоступна для общественности, но ElevenLabs продемонстрировала ее возможности, выпустив минутный тизер с видеороликами, созданными новой Sora от OpenAI и дополненными собственными звуками ИИ. Компания также создала страницу регистрации и призывает потенциальных пользователей присоединиться к списку ожидания раннего доступа к модели.

Выход за рамки голоса с помощью звуковых эффектов ИИ

Основанная в 2022 году, компания ElevenLabs занимается исследованием ИИ, чтобы сделать аудио- и видеоконтент — от фильмов до подкастов — доступным на разных языках и в разных регионах. Компания представила ряд предложений для дальнейшего развития, включая модели преобразования текста в речь и речи в речь, которые могут создавать речь ИИ из заданного фрагмента контента (текста/аудио/видео) на 29 разных языках, при этом передавая естественный голос и эмоции (исходный голос говорящего в преобразовании речи в речь).

Хотя оба эти инструмента продолжают широко использоваться предприятиями и отдельными лицами, которые производят контент, также наблюдается рост контента, полностью сгенерированного ИИ, благодаря таким инструментам, как Runway, Pika и совсем недавно OpenAI (с Sora). Эти продукты генерируют реалистичные видео ИИ из простых текстовых подсказок, но им не хватает звука по умолчанию. Вот где появится новая модель ElevenLabs, позволяющая пользователям создавать звуковые эффекты для своего контента, описывая то, что они хотят.

При использовании это предложение может легко позволить создателям ИИ улучшить свою работу фоновыми звуками, которые должны естественным образом сопровождать ее. Звуковой эффект может быть любым: от щебетания птиц до движущихся транспортных средств и гудков. Это могут быть даже разговоры людей, еда или ходьба по оживленной улице.

«В ElevenLabs мы демонстрировали публике только наши модели преобразования текста в речь. Однако у нас в разработке находится гораздо больше. И когда OpenAI анонсировала свою модель Sora, которая генерирует невероятные видео, но без звука, мы решили показать краткий обзор нашей новой линейки продуктов», — написал Люк Харрис, отвечающий за рост в ElevenLabs, во время перепоста поста X, в котором была представлена ​​куча видео, созданных Sora и дополненных звуковыми эффектами ИИ из модели компании.

Помимо контента, сгенерированного ИИ, звуки, производимые новой моделью, могут быть применены даже к простой речи, произведенной из текста или любого другого видео — клипа Instagram, рекламы или трейлера видеоигры — которому требуется немного фонового звука. Еще предстоит увидеть, как это будет использоваться и какое качество оно обеспечит.

Зарегистрируйтесь для раннего доступа

Хотя ElevenLabs не поделилась датой публичного запуска модели, компания открыла регистрацию для раннего доступа. Заинтересованные пользователи могут перейти на эту страницу и зарегистрироваться, указав свое имя и адрес электронной почты, описав, для чего им нужны звуковые эффекты. ElevenLabs также просит ранних добровольцев написать пример подсказки для звукового эффекта ИИ, потенциально для оптимизации ответов модели.

После завершения регистрации пользователь включается в список ожидания и получит доступ, когда модель станет доступной. Однако сроки на данном этапе остаются неопределенными.

Новая технология преобразования текста в звук может дать ElevenLabs преимущество первопроходца, но важно отметить, что несколько других компаний, которые работают в сфере речевого ИИ, также имеют потенциал для выхода в этот сегмент. Сюда входят такие известные игроки, как MURF.AI, Play.ht и WellSaid Labs.

По данным Market US, объем мирового рынка таких инструментов в 2022 году составил 1,2 млрд долларов США, а к 2032 году, по оценкам, достигнет почти 5 млрд долларов США, а среднегодовой темп роста составит чуть более 15,40%.