Veo 3 научилась генерировать видео с озвучкой прямо внутри Gemini API - Главные новости нейросетей

Veo 3 научилась генерировать видео с озвучкой прямо внутри Gemini API

admin


Google расширила возможности своей модели Veo 3: теперь она умеет не только генерировать реалистичное видео, но и озвучивать его прямо в процессе создания. Разработчики получили долгожданную функцию — синхронную генерацию изображения и звука без необходимости покидать API Gemini.

Veo 3 научилась генерировать видео с озвучкой прямо внутри Gemini API

Сегодня компания Google AI объявила о важном обновлении модели Veo 3 — теперь генерация видео сопровождается синхронным созданием речи, звуковых эффектов и музыкального сопровождения. Новая функция уже доступна в платном предварительном доступе через Gemini API и Vertex AI.

Как отметили в Google, это обновление стало ответом на многочисленные просьбы разработчиков, которым требовалось удобное решение для объединения визуального и звукового контента в одном рабочем процессе.

«Мы услышали вас — теперь с помощью встроенной поддержки аудио в Veo 3 вы можете создавать реалистичные видео со звуком, не покидая Gemini API»,

— сообщили представители Google AI в X.

Что изменилось

Ранее Veo 3 уже позволяла создавать реалистичные восьмисекундные видео на основе текстовых описаний или изображений. Однако для озвучивания или добавления звуков приходилось использовать сторонние инструменты. Теперь же весь процесс полностью автоматизирован и централизован в одном API.

Встроенная поддержка аудио включает:

  • генерацию синхронизированной речи,
  • наложение звуковых эффектов,
  • добавление фоновой музыки.

Благодаря этому упрощается производство коротких видео для маркетинга, соцсетей, образовательных материалов и креативных проектов.

Примеры запросов

Официальные демонстрации показывают, насколько реалистичными стали новые видео:

Запрос Результат
Перо, танцующее на ветру, застревает в паутине Тонкие звуки ветра, лёгкое шуршание пера и естественные амбиентные эффекты
Футуристический город, камера скользит к улью Звуки города, эхо машин, механические жужжания внутри роботизированного улья
Бумажная лодочка в ливневой канаве Плеск воды, капли дождя, глухой гул водостока, создающие атмосферу путешествия

Возможности и интеграция

Обновлённая Veo 3 стала частью единой мультимедийной экосистемы Google, в которую также входят:

  • Imagen 4 — генерация изображений,
  • Lyria 2 — генерация музыки,
  • Flow — инструмент для редактирования видео.

Таким образом, теперь разработчики могут не только создать видео, но и озвучить его, смонтировать и адаптировать без выхода за пределы инфраструктуры Google.

Этические вопросы и прозрачность

Появление высокореалистичных видео со звуком усилило обеспокоенность в профессиональном сообществе. Специалисты предупреждают о возможных рисках создания убедительных фейковых видео. Чтобы предотвратить злоупотребления, Google применяет двойную защиту:

  • водяные знаки, видимые зрителю,
  • встроенные метки SynthID, обнаруживаемые специальными средствами.

Обновление делает Veo 3 мощным инструментом для тех, кто работает с коротким видеоконтентом. Это особенно актуально для разработчиков, медиа-компаний и маркетологов. В перспективе ожидается, что Google откроет доступ к аудиофункциям более широкой аудитории и интегрирует их в мобильные решения.



Источник

Вам также может понравиться

Оставить комментарий

Главные новости нейросетей.