
Сегодня компания Google AI объявила о важном обновлении модели Veo 3 — теперь генерация видео сопровождается синхронным созданием речи, звуковых эффектов и музыкального сопровождения. Новая функция уже доступна в платном предварительном доступе через Gemini API и Vertex AI.
Как отметили в Google, это обновление стало ответом на многочисленные просьбы разработчиков, которым требовалось удобное решение для объединения визуального и звукового контента в одном рабочем процессе.
«Мы услышали вас — теперь с помощью встроенной поддержки аудио в Veo 3 вы можете создавать реалистичные видео со звуком, не покидая Gemini API»,
— сообщили представители Google AI в X.
Что изменилось
Ранее Veo 3 уже позволяла создавать реалистичные восьмисекундные видео на основе текстовых описаний или изображений. Однако для озвучивания или добавления звуков приходилось использовать сторонние инструменты. Теперь же весь процесс полностью автоматизирован и централизован в одном API.
Встроенная поддержка аудио включает:
- генерацию синхронизированной речи,
- наложение звуковых эффектов,
- добавление фоновой музыки.
Благодаря этому упрощается производство коротких видео для маркетинга, соцсетей, образовательных материалов и креативных проектов.
Примеры запросов
Официальные демонстрации показывают, насколько реалистичными стали новые видео:
| Запрос | Результат |
|---|---|
| Перо, танцующее на ветру, застревает в паутине | Тонкие звуки ветра, лёгкое шуршание пера и естественные амбиентные эффекты |
| Футуристический город, камера скользит к улью | Звуки города, эхо машин, механические жужжания внутри роботизированного улья |
| Бумажная лодочка в ливневой канаве | Плеск воды, капли дождя, глухой гул водостока, создающие атмосферу путешествия |
Возможности и интеграция
Обновлённая Veo 3 стала частью единой мультимедийной экосистемы Google, в которую также входят:
- Imagen 4 — генерация изображений,
- Lyria 2 — генерация музыки,
- Flow — инструмент для редактирования видео.
Таким образом, теперь разработчики могут не только создать видео, но и озвучить его, смонтировать и адаптировать без выхода за пределы инфраструктуры Google.
Этические вопросы и прозрачность
Появление высокореалистичных видео со звуком усилило обеспокоенность в профессиональном сообществе. Специалисты предупреждают о возможных рисках создания убедительных фейковых видео. Чтобы предотвратить злоупотребления, Google применяет двойную защиту:
- водяные знаки, видимые зрителю,
- встроенные метки SynthID, обнаруживаемые специальными средствами.
Обновление делает Veo 3 мощным инструментом для тех, кто работает с коротким видеоконтентом. Это особенно актуально для разработчиков, медиа-компаний и маркетологов. В перспективе ожидается, что Google откроет доступ к аудиофункциям более широкой аудитории и интегрирует их в мобильные решения.