Follow-Your-Pose-v2:腾讯推出的全新图生视频模型

让照片里的人跳起来:腾讯Follow-Your-Pose-v2,一键让静态图“动”给你看

想让你照片里的人物跳起舞来吗?希望让老照片中的家人做出酷炫动作吗?腾讯混元团队联合中山大学、香港科技大学推出的全新图生视频模型Follow-Your-Pose-v2,只需一张人物图片和一段动作视频,就能让静态照片中的人物“活”过来,生成长达10秒的流畅动画。

这项技术不仅在2024年6月发布后引发广泛关注,更因其出色的泛化能力和实用性,为视频创作、广告制作乃至社交媒体内容生产带来了新的可能。无论是复杂背景、多人场景还是特殊着装,它都能处理得游刃有余。

目前官方仅发布了论文,暂未对外开放使用,敬请期待。论文地址:https://arxiv.org/abs/2406.03035

Follow-Your-Pose-v2:腾讯推出的全新图生视频模型

工作原理:让AI理解并复刻动作

Follow-Your-Pose-v2的核心在于其多条件引导机制。它通过“光流指导器”和“深度图指导器”来精准理解人物的空间位置关系,即便在身体遮挡的情况下也能生成合理的前后遮挡画面。

这意味着你只需提供:

  • 一张人物图片:可以是任何人、任何年龄、任何着装,甚至背景杂乱也不成问题。
  • 一段动作视频:提供想要模仿的动作序列,即使动作复杂也能高质量还原。

模型会智能分析动作视频中的姿态变化,并将其迁移到你提供的人物图片上,输出一段自然流畅的动画视频。

突出优势:不止于“能动”

与一些早期技术相比,Follow-Your-Pose-v2表现出显著优势:

  • 支持多人视频动作生成:可以在推理耗时更少的情况下,让画面中的多个人物同时动起来,各做各的动作,互不干扰。
  • 强大的泛化能力:无论输入人物是什么年龄、服装,背景如何杂乱,动作视频的动作如何复杂,模型都能努力生成出高质量的视频。
  • 处理复杂场景:其设计的多条件引导器,旨在解决背景稳定性、多角色生成中的身体遮挡以及角色外观一致性等挑战。

丰富应用场景:创意不再受限

Follow-Your-Pose-v2的出现,打开了无数创意应用的闸门:

  • 社交媒体新玩法:用户可以将自己的静态照片与流行舞蹈动作视频结合,生成个性化的舞蹈短片,轻松在朋友圈或抖音上收获点赞。
  • 广告与内容创作:广告行业和社交媒体平台的内容提供者,可以基于此技术快速生成吸引人的视频内容,大幅提升制作效率,降低拍摄成本。
  • 影视与游戏预演:动画师和游戏开发者可以使用此模型快速生成或预览角色动画,加速动画制作流程,为前期创意验证提供极大便利。

Follow-Your-Pose-v2深度评测与竞品对比

腾讯Follow-Your-Pose-v2的出现,让图生视频领域受到了更多关注。我们来深入看看它的优缺点,并和市场上的其他玩家做个比较。

优点与缺点

👍 核心优点

  • 控制精准,细节到位:模型采用的多条件引导机制(如光流指导器和深度图指导器),旨在让其能够更好地理解人物的空间位置关系,即便在身体遮挡的情况下也努力生成合理的前后遮挡画面,提升了生成视频的逻辑合理性和细节真实感。
  • 泛化能力较强:官方信息显示,无论输入人物是什么年龄、服装,背景如何杂乱,动作视频的动作如何复杂,模型都致力于生成高质量的视频,显示了其较强的适应能力。
  • 效率与性能平衡:据报道,该模型在推理耗时更少的情况下,支持多人视频动作生成,这在处理多人物场景时是一个优势。
  • 视频时长可达10秒:生成视频长度可达10秒,为叙述和展示提供了相对更充裕的时间。

👎 主要缺点

  • 体验渠道暂未开放:截至目前,该模型尚未对外开放使用,普通用户和开发者还无法亲自体验其效果,只能通过论文和官方演示了解其能力。
  • 面临共同技术挑战:与此类生成式AI模型一样,其生成视频的绝对流畅度、分辨率和完全消除可能存在的微小人工痕迹方面,仍有持续优化的空间。
  • “黑箱”疑虑:深度学习模型固有的不可解释性,使得用户可能难以理解模型内部的具体决策过程。

竞品对比

2025年,图生视频及相关人物动画生成领域竞争激烈。Follow-Your-Pose-v2面临一些强劲对手。

特性对比Follow-Your-Pose-v2深度伪造(Deepfake)类技术 (如FaceSwap等)其他T2V/图生视频模型 (如Runway Gen-3, 唯象AI等)
核心功能姿态控制驱动:依据提供的动作视频驱动图片人物运动面部替换与表情操纵:专注于面部特征的替换和精细控制文本生成视频 / 图片生成视频:更侧重于从文本或单图生成视频内容
控制精度:旨在精确复现提供的动作序列中高(仅限于面部区域)可变:依赖文本描述或初始图片的精确度
生成内容长度可达10秒通常较短可变,部分模型可生成较长片段
用户体验门槛待公开部分工具开源,但本地部署需技术能力;部分在线应用简化操作逐步降低,更多云端服务提供图形界面
主要优势动作迁移、多人支持、强泛化能力面部控制精度高、技术相对成熟创意发散性强、从无到有生成
主要局限/挑战尚未开放体验常与虚假信息关联、伦理风险高、全身动作生成非其重点对复杂、精确的人物动作控制相对较弱

简要总结对比

  • 深度伪造技术相比,Follow-Your-Pose-v2更专注于全身动作的迁移与控制,而非单纯的面部替换,应用场景有所不同。但深度伪造技术在面部精度上非常成熟。
  • Runway Gen-3 等文本生成视频模型相比,Follow-Your-Pose-v2的核心优势在于提供了更精确、可控的姿态引导。文本生成视频自由度更高,但要生成特定精确动作则更难。
  • 预计Follow-Your-Pose-v2在需要高度控制角色动作的场景(如广告模板、特定舞蹈动作生成)中会有优势,而在天马行空的创意生成方面,可能文本引导模型更灵活。

常见疑问解答

  • Q:我的照片会被上传到服务器吗?隐私如何保障?
    A:这取决于模型未来提供的服务模式。如果提供云端API,数据需上传处理;如果是本地部署版本,则数据留在本地。用户需关注官方发布的隐私政策。
  • Q:生成的内容会涉及版权或伦理问题吗?
    A:。技术本身是中立的,但使用方式至关重要。未经他人同意将其肖像用于制作视频可能涉及法律风险。同时,AI生成内容的信息真实性也可能被滥用,需警惕“深度伪造”带来的虚假信息问题。