Amphion-香港中文大学开源的音频、音乐和语音生成工具包

12月18日,香港中文大学(深圳)武执政副教授带领的团队联合上海AI实验室等开源了音频、音乐和语音生成工具包Amphion v0.1版本。

Amphion音频生成工具包解析

由香港中文大学(深圳)与上海AI实验室联合研发的Amphion v0.1,是一款集成声音转换、歌声合成及文本生成音频的多功能开源工具包,支持跨歌手音色转换与高保真音乐创作。

官网链接:Amphion HuggingFace体验空间


核心技术亮点

1. 多模态歌声转换

  • 明星音色克隆:支持迈克尔·杰克逊、王菲等歌手声线迁移,保留原唱情感起伏与呼吸节奏
  • 多特征融合:联合WeNet语音识别、Whisper多语种解析、ContentVec音色编码,提升发音准确度与情感还原度

2. 全链路音频生成

  • 文本到音乐:输入歌词自动生成编曲+演唱(支持流行/摇滚/古风等风格)
  • 声码器适配:集成VITS、Vall-E等6种声码器,平衡合成速度与音质

3. 开源生态优势

  • 预训练模型开源,支持本地部署(最低配置:GTX 1660/4GB显存)
  • 模块化设计,可替换DiffSinger等第三方组件

竞品横向评测

Amphion核心优势
跨任务整合:唯一同时覆盖语音转换+音乐合成的工具包(竞品仅专注单一领域)
多语言优化:中文咬字准确率达95%(超越so-vits-svc的89%)
开源深度:提供完整训练代码与多场景数据集(竞品多闭源核心模块)

待优化方向
⚠️ 实时性不足:单次转换需25秒(Seed-VC仅需8秒)
⚠️ 操作门槛:需基础Python知识(对比RVC的图形界面)
⚠️ 明星版权风险:未内置音色授权检测(商业使用需谨慎)

能力Amphionso-vits-svc 4.0Seed-VCRVC-GUI
音色保真度9.1/108.7/108.3/108.5/10
训练效率6小时/1小时数据4小时/1小时数据无需训练3小时/1小时数据
零样本支持××
图形界面×△(第三方工具)●●●●●
多语种适配中/英/日中/英英语优先中/英

差异化价值

  • 科研价值:公开多特征融合白皮书,推动合成技术突破
  • 创作自由度:支持自定义情感强度参数(欢快/悲伤/激昂)
  • 行业适配:影视配音/虚拟偶像等专业场景专用优化

实战操作指南

1. 在线体验

  1. 访问HuggingFace空间
  2. 上传干声音频(建议16bit/44.1kHz WAV)
  3. 选择目标歌手(例:”王菲”)
  4. 调整参数:
   情感强度:0.8(强烈)  
   呼吸声保留:开启  
   音高修正:±3半音  
  1. 生成并下载结果

2. 本地部署
“`bash

安装依赖

git clone https://github.com/open-mmlab/Amphion
cd Amphion
conda create -n amphion python=3.10
conda activate amphion
pip install -r requirements.txt

下载预训练模型

wget -P pretrained/ https://huggingface.co/amphion/svc_models/resolve/main/FayeWong_G.pth

运行转换

python tools/svc/inference.py \
–config configs/svc/faye_wong.json \
–input raw/song.wav \
–output results/song_converted.wav
“`


应用场景案例

虚拟偶像演唱会

输入:虚拟歌手干声 + “泰勒·斯威夫特”音色参数
输出:保留虚拟角色音色的”流行唱腔优化版”演唱

影视配音修复

老电影音频降噪 → 匹配新生代演员声线 → 自动对口型时间轴

跨语种音乐创作

日语歌曲 → 转换为那英音色 → 自动重填词生成中文版


法律与伦理规范

  1. 音色授权
  • 公众人物音色需获法律授权(参考2023年AI翻唱侵权案)
  • 个人音色转换需签署书面许可
  1. 内容合规
  • 禁止生成政治/宗教敏感内容
  • 商业用途需声明”AI合成”标识
  1. 学术使用
  • 引用论文:
    @article{amphion2023, title={Amphion: A Unified Toolkit for Audio, Music, and Speech Generation}, author={Wu, Zhizheng and others}, journal={arXiv:2312.09911}, year={2023} }

提示:建议创作者使用自主训练音色库规避风险,技术文档详见GitHub仓库

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧