M2UGen是一个多模态音乐理解和生成模型的项目。该项目利用大型语言模型的能力,结合MU-LLaMA模型、MosaicML的MPT-7B-Chat模型、BLIP图像字幕模型和VideoMAE字幕模型,生成音乐相关的数据集,并使用M2UGen模型进行音乐生成和理解。
核心功能解析(2025最新版)
文字→音乐
输入“赛博朋克雨夜”等描述,20秒生成带鼓点、合成器的电子乐,支持MP3/WAV格式下载。
图片→音乐
上传风景照自动生成氛围音乐,山水图匹配古筝笛声,城市夜景触发电子律动。
视频→配乐
分析视频内容生成适配BGM,如战斗场景生成急促鼓点,浪漫片段生成钢琴旋律。
智能音乐编辑
一键移除人声、替换乐器(如吉他转琵琶)、调整节奏(80BPM→120BPM)。
官网体验入口(开放商用权限):
https://www.tencent-m2ugen.com
四类创作者实测收益
▎短视频博主
- 美食视频自动生成轻快背景乐,完播率提升35%(案例@吃货小鹿)
- 技巧:输入“治愈系咖啡制作”+上传咖啡拉花图
▎游戏开发者
- RPG游戏场景音乐批量生成,3小时产出10首战斗BGM,成本仅为外包1%
- 实测支持Unity/Wwise引擎直接导入
▎广告公司
- 汽车广告视频同步生成引擎轰鸣+电子乐,客户修改效率提升6倍
- 避坑:避免抽象词如“高级感”,改用“低沉贝斯+金属打击音效”
▎音乐教育者
- 用古诗词生成对应曲调(如《静夜思》→ 古筝慢板),学生理解率提升50%
新手三步上手教程
- 选择输入模式
- 文字:建议包含“风格+情绪+乐器”(例:“摇滚 激昂 电吉他鼓点”)
- 图片/视频:上传参考素材提升匹配精度
- AI编辑技巧
• 风格切换:流行⇄古风⇄电子一键切换
• 精细调整:滑动条调节节奏/音高(80-160BPM)
• 人声分离:清除翻唱歌曲原唱保留伴奏 - 导出场景推荐
用途 推荐格式 音质 版权费用
短视频平台 MP3 128kbps 免费(带水印)
商业广告 WAV 320kbps ¥299/首
游戏影视 FLAC 无损 ¥899买断 真实用户评测 ✅ 突出优势- 中文提示优化:准确理解“江湖气息”“赛博朋克”等本土化表述
- 多模态联动:视频画面与音乐情绪匹配度达92%(第三方测试)
- 成本革命:商业配乐单价从¥3000降至¥299
- 复杂编曲需人工优化(如交响乐声部平衡)
- 生成时长超90秒时结构松散(建议分段生成)
- 英文提示效果优于中文(部分古风词需中英混合)
- 免费版输出含Tencent AI水印,商用需购买授权(某网红因未购权被索赔12万)
- 避免输入明星歌曲片段——可能触发版权过滤
- 关键词公式:风格+乐器+节奏+情绪(例:“国风 古筝琵琶 慢板 忧伤”)
- 混合生成:文字描述+参考音频上传,控制细节更精准
- 批量制作:Excel导入100条指令自动生成音乐库(适合游戏公司)
https://m2ugen.tencent.com/prompt-guide