Goku是香港大学与字节跳动合作开发的视频生成模型,基于Rectified Flow Transformer架构,能够从文本、图像或图文输入生成高质量的视频。
Goku:下一代视频生成引擎
Goku是由香港大学与字节跳动联合研发的多模态视频生成模型,基于创新的Rectified Flow Transformer架构,实现文本/图像到视频的高效转换。该技术显著降低专业级视频制作门槛,特别在广告与电商领域引发生产力革新。
核心功能矩阵
❶ 跨模态生成能力
- 文本→视频:输入营销文案自动生成分镜完整的广告片(支持30秒场景连续生成)
- 图像→视频:静态产品图转3D展示动画(可模拟材质反光/多角度旋转)
- 文本→图像:即时生成海报级视觉素材(分辨率支持4K)
❷ 行业定制方案
- Goku+广告套件:专为口播广告优化,生成真人级虚拟数字人(微表情误差<3%)
- 电商动态展示:自动生成商品使用场景视频(如化妆品上妆过程模拟)
性能实测数据
评测体系 | 得分 | 行业排名 |
---|---|---|
VBench综合 | 84.85 | TOP2 |
动态度 | 87.2 | TOP1 |
时空一致性 | 83.7 | TOP3 |
图像生成(DPG) | 83.65 | TOP5 |
超越AnimateDiff-V2等商业模型,在人类动作自然度上领先12%
落地应用场景
▸ 广告工业化生产
- 成本降至传统制作的1/100,30秒广告生成<5分钟
- 支持多语言字幕自动匹配(已覆盖12国语言)
▸ 电商视觉革命
- 商品主图→3D展示视频转化率提升40%
- 虚拟主播7×24小时直播带货
▸ 影视预可视化
- 分镜脚本秒级生成动态预览
- 支持电影级调色参数预设
获取体验途径
- 学术研究:
- GitHub源码库:https://github.com/Saiyan-World/goku
- 技术白皮书:https://arxiv.org/abs/2502.04896
- 商业合作:
- 通过官网申请企业API接入
深度产品评测
✅ 颠覆性优势
- 生成质量:4K视频纹理细节达影视级标准(毛发/流体模拟尤为突出)
- 场景适配:广告类视频人类偏好评分超Sora 23%
- 技术开放:完整提供训练代码与模型权重
⚠️ 核心局限
- 硬件门槛:需40GB显存才能运行完整模型(消费级显卡受限)
- 动态逻辑缺陷:复杂物理交互存在穿帮(如液体融合准确性仅65%)
- 版权风险:企业商用需自主解决生成内容著作权认证
💡 适用建议
现阶段最适合:广告公司批量制作口播视频、电商平台商品动态化
慎用场景:科学可视化、精密工业仿真