大模型动态

谷歌发布Veo 3视频生成模型，支持语音和音乐同步生成

发布时间：2026年06月28日 10:00:00

6月28日，谷歌正式发布Veo 3视频生成模型，实现视频、语音和音乐的同步生成。

6月28日，谷歌正式发布Veo 3视频生成模型，这是Veo系列的重大升级版本，首次实现视频画面、语音对话和背景音乐的同步生成，开创AI视频创作新范式。

核心能力

多模态生成

视频画面自动生成
语音对话同步生成
背景音乐自动配乐

生成质量

1080P高清视频输出
60fps流畅帧率
专业级视觉质量

控制能力

文本描述精确控制
参考图像风格迁移
视频时长灵活控制

技术创新

生成架构

自研VideoPoet架构
多模态注意力机制
时序一致性优化

音频同步

唇形同步技术
情感语音合成
多音轨混音能力

应用场景

内容创作

短视频自动生成
影视预告片制作
广告创意快速迭代

教育培训

教学视频自动生成
虚拟教师形象
多语言教学内容

来源：谷歌官方、The Verge、TechCrunch