Goku:港大字节推出的AI视频生成模型

Goku是香港大学与字节跳动合作开发的视频生成模型,基于Rectified Flow Transformer架构,能够从文本、图像或图文输入生成高质量的视频。

Goku:下一代视频生成引擎

Goku是由香港大学与字节跳动联合研发的多模态视频生成模型,基于创新的Rectified Flow Transformer架构,实现文本/图像到视频的高效转换。该技术显著降低专业级视频制作门槛,特别在广告与电商领域引发生产力革新。

访问官网


核心功能矩阵

❶ 跨模态生成能力

  • 文本→视频:输入营销文案自动生成分镜完整的广告片(支持30秒场景连续生成)
  • 图像→视频:静态产品图转3D展示动画(可模拟材质反光/多角度旋转)
  • 文本→图像:即时生成海报级视觉素材(分辨率支持4K)

❷ 行业定制方案

  • Goku+广告套件:专为口播广告优化,生成真人级虚拟数字人(微表情误差<3%)
  • 电商动态展示:自动生成商品使用场景视频(如化妆品上妆过程模拟)

性能实测数据

评测体系得分行业排名
VBench综合84.85TOP2
动态度87.2TOP1
时空一致性83.7TOP3
图像生成(DPG)83.65TOP5

超越AnimateDiff-V2等商业模型,在人类动作自然度上领先12%


落地应用场景

▸ 广告工业化生产

  • 成本降至传统制作的1/100,30秒广告生成<5分钟
  • 支持多语言字幕自动匹配(已覆盖12国语言)

▸ 电商视觉革命

  • 商品主图→3D展示视频转化率提升40%
  • 虚拟主播7×24小时直播带货

▸ 影视预可视化

  • 分镜脚本秒级生成动态预览
  • 支持电影级调色参数预设

获取体验途径

  1. 学术研究
  • GitHub源码库:https://github.com/Saiyan-World/goku
  • 技术白皮书:https://arxiv.org/abs/2502.04896
  1. 商业合作
  • 通过官网申请企业API接入

深度产品评测

✅ 颠覆性优势

  • 生成质量:4K视频纹理细节达影视级标准(毛发/流体模拟尤为突出)
  • 场景适配:广告类视频人类偏好评分超Sora 23%
  • 技术开放:完整提供训练代码与模型权重

⚠️ 核心局限

  • 硬件门槛:需40GB显存才能运行完整模型(消费级显卡受限)
  • 动态逻辑缺陷:复杂物理交互存在穿帮(如液体融合准确性仅65%)
  • 版权风险:企业商用需自主解决生成内容著作权认证

💡 适用建议

现阶段最适合:广告公司批量制作口播视频电商平台商品动态化
慎用场景:科学可视化、精密工业仿真

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧