Goku：港大字节推出的AI视频生成模型

AI大模型
25年7月24日
编辑

Goku视频生成引擎：跨模态生成广告电商视频，香港大学与字节跳动联合研发，VBench综合得分TOP2，适配PC端高效制作需求，支持4K影视级输出。

🎬 Goku视频生成引擎：一句话生成大片，全民导演时代来了？

输入一段文案，AI就能自动生成一部完整的广告片；上传一张产品图，就能得到炫酷的3D展示动画。这就是Goku带来的现实。这个由香港大学与字节跳动联合研发的多模态视频生成模型，正在彻底改变视频内容的生产方式，让专业级视频制作变得像打字一样简单。

Goku基于创新的Rectified Flow Transformer架构，能实现从文本或图像到视频的高效转换。无论是广告片、电商展示还是影视预览，它都能在几分钟内搞定，成本降至传统制作的百分之一。

项目主页：https://saiyan-world.github.io/goku/
技术报告：https://arxiv.org/abs/2502.04896
GitHub：https://github.com/Saiyan-World/goku

核心功能：你的口袋制片厂

Goku的核心能力很强大：帮你把想法和静态内容变成动态视频。

跨模态生成能力：输入营销文案，自动生成分镜完整的广告片，支持30秒场景连续生成。上传静态产品图，能转化为3D展示动画，模拟材质反光和多角度旋转效果。甚至可以直接生成4K分辨率的海报级视觉素材。
行业定制方案：针对口播广告优化，能生成真人级虚拟数字人，微表情误差小于3%。为电商量身打造，自动生成商品使用场景视频，比如化妆品上妆过程模拟，让产品展示更加生动。

性能表现

根据权威评测数据，Goku在多项指标上表现突出：

评测体系	得分	行业排名
VBench综合	84.85	TOP2
动态度	87.2	TOP1
时空一致性	83.7	TOP3
图像生成	83.65	TOP5

特别是在人类动作自然度上，Goku比AnimateDiff-V2等商业模型领先12%，生成的视频更加流畅自然。

落地应用：真的能用，真的好用

Goku不是实验室里的玩具，而是已经投入实际应用的生产力工具。

在广告行业，它能将30秒广告的制作时间压缩到5分钟以内，成本大幅降低。支持12国语言字幕自动匹配，国际化推广更加轻松。

对电商来说，商品主图转视频后，转化率提升了40%。虚拟主播可以7×24小时不间断直播带货，从不喊累。

影视行业也用上了Goku，分镜脚本可以秒级生成动态预览，还支持电影级调色参数预设，大大提高了前期准备效率。

获取方式：各取所需

学术研究：可以在GitHub上获取源码，还有详细的技术白皮书可以参考。
商业合作：通过官网申请企业API接入，将Goku的能力集成到自己的业务中。

Goku深度评测与竞品对比

👍 核心优点：

生成质量高：4K视频纹理细节达到影视级标准，特别是在毛发和流体模拟方面表现突出。
场景适配强：广告类视频的人类偏好评分比Sora高23%，更受观众喜爱。
技术开放度好：完整提供训练代码与模型权重，研究人员可以深入学习和改进。
生产效率极高：将传统视频制作流程从数天缩短到几分钟，革命性的效率提升。

👎 主要缺点：

硬件门槛高：需要40GB显存才能运行完整模型，消费级显卡基本无法胜任。
动态逻辑缺陷：复杂物理交互存在穿帮现象，比如液体融合准确性只有65%。
版权风险存在：企业商用需自主解决生成内容著作权认证，法律层面尚未完全明确。
计算资源消耗大：生成高质量视频需要大量的计算资源，云端成本可能较高。

🔍 竞品对比

对比维度	Goku	Sora (OpenAI)	Runway Gen-4
生成质量	高（4K影视级）	高（但广告类偏好评分低23%）	中高（适合快速原型）
硬件门槛	高（需40GB显存）	云端API	云端API+本地选项
开放程度	高（开源代码和权重）	闭源	部分开放
成本效益	中（商用需考虑版权和硬件）	高（按使用付费）	中（订阅制）
特色优势	广告与电商优化	通用性强	实时编辑功能
适用场景	广告、电商、影视预可视化	广泛的内容创作	创意原型、快速迭代

目前来看，Goku在广告和电商领域的专业化应用上优势明显，特别是其针对性的优化和开源策略。但对于需要通用视频创作或硬件资源有限的用户，Sora或Runway可能是更合适的选择。

高效使用小技巧

想要更好地利用Goku？可以试试这些方法：从简单的场景开始，逐步尝试复杂效果；多用文本描述细节，越具体生成效果越好；生成后可以再用编辑软件进行精细调整。

对于硬件限制的用户，可以考虑使用云端API接入方式，避免本地部署的高硬件要求。商用前务必了解相关版权规定，必要时对生成内容进行二次创作。

应用前景与挑战

Goku代表了AI视频生成的一个重要发展方向。随着技术的不断成熟，它有望在更多领域发挥作用，比如教育内容的可视化、社交媒体的个性化视频制作等。

但也面临一些挑战。除了硬件和版权问题，AI生成内容的真实性和伦理问题也需要关注。深度伪造技术可能被滥用，如何防止欺诈和虚假信息传播是整个行业需要思考的问题。

hello123小评：Goku视频生成引擎就像是一台“时空编织机”，将文字与静态图像赋予了动态的生命。它既降低了创意表达的门槛，也带来了版权与伦理的新考题。如何用好这把强大的“导演椅”，或许比技术本身更值得我们思考。

TOP1

豆包 – 字节跳动推出的免费AI智能助手
25年7月10日
TOP2

朱雀 AI 检测 – 腾讯开发的 AI 生成内容检测工具
25年8月6日
TOP3

腾讯智影-在线智能视频创作工具
25年7月28日
豆包爱学(原河马爱学)-豆包旗下智能学习伙伴
25年8月31日
ChatGPT：OpenAI推出的智能聊天机器人
25年7月14日
DeepSeek：深度求索研发的专业级 AI 对话助手
25年7月19日
豆包插件-字节跳动推出的浏览器AI助手
25年7月23日
小荷AI医生 – 字节跳动推出的AI医疗助手
25年8月22日
海绵音乐-字节跳动推出的免费AI音乐生成工具
25年9月5日
PixVerse -免费在线AI视频生成工具
25年8月21日