En3D: 通过文本或图片生成3D人物模型

En3D是由阿里巴巴智能计算研究所和北京大学合作开发的一个项目,它使用人工智能(AI)来从二维(2D)图片创造出三维(3D)的人物模型。它的核心创新在于,它不需要依赖现有的3D模型或真实的2D图片作为起点。相反,它通过分析和学习成千上万的合成2D图片,来理解和重建3D人物的形状和外观。

技术定义

En3D是由阿里巴巴智能计算研究院与北京大学联合研发的人工智能项目,专注于从单张2D图像生成高质量3D人体模型。其创新性在于无需依赖现有3D模板或真实照片数据,而是通过分析合成2D图像库,自主重建人物的三维结构与外观细节。

https://menyifang.github.io/projects/En3D/index.html


核心原理

  1. 三维生成建模(3DGM)
    基于合成图像库学习人体三维特征,结合精准相机参数构建三平面架构,实现可泛化的3D人体生成。
  2. 几何雕刻(GS)
    通过多角度法线约束优化模型表面,增强肌肉线条、衣物褶皱等微观几何精度。
  3. 显式纹理(ET)
    采用UV分割与可微光栅化技术,生成高保真UV贴图,确保多视角渲染一致性。

工作原理如下:

En3D: 通过文本或图片生成3D人物模型

核心功能

  • 文本生成模型:输入描述性文本(如“穿西装的短发女性”),自动生成对应3D人物
  • 图像驱动建模:上传单张人物照片,输出可旋转的3D模型
  • 局部实时编辑:支持调整服装款式、面部特征、体型参数等细节

适用场景

领域应用场景示例
游戏开发快速生成NPC角色模型库
动画制作创建影视级虚拟角色
数字艺术设计元宇宙虚拟人定制
学术研究3D生成式AI技术实验平台

产品深度评测

En3D核心优势
零样本生成:不依赖真实人体扫描数据,突破传统3D建模数据限制
细节还原度:在发丝、织物纹理等复杂结构上超越同类工具
开源可扩展:提供完整代码框架(GitHub开源),支持二次开发

现存局限性
❌ 硬件要求较高:需RTX 3080及以上显卡实现实时渲染
❌ 动态表情支持弱:尚未实现精细面部动作捕捉
❌ 商业化程度低:暂未提供云服务平台,本地部署门槛较高


竞品横向对比

产品开发方输入方式生成质量细节编辑部署难度
En3D阿里+北大单图/文本★★★★☆★★★★
GET3DNVIDIA多视图图像★★★★★★★★☆极高
PIFuHD南加州大学单图+蒙版★★★☆★★☆
Make-A-V3DSnap Research文本描述★★★☆★★★

关键差异点

  • 数据依赖性:En3D独有合成数据训练架构,规避隐私合规风险
  • 几何精度:GET3D在工业级应用中更成熟,但En3D在学术创新性领先
  • 应用门槛:Make-A-V3D提供在线服务,适合非技术用户快速体验

扩展资源:
论文全文:http://arxiv.org/abs/2401.01173
代码仓库:https://github.com/menyifang/En3D

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧