-
Matrix-Zero:昆仑万维发布的AI世界模型,支持单张图生成3D世界
平台定位与技术架构 Matrix-Zero是昆仑万维研发的下一代世界模型,包含两大核心技术模块:3D场景生成大模型和可交互视频生成大模型。通过AI将2D图像转化为可自由探索的3D空间,并支持用户实时交互操控视频生成过程,显著提升影视、游戏等领域的内容生产效率。 官网链接:https://www.kunlun.com/matrix-zero 🧩 核心功能特性 🏗️ 3D场景生成大模型 全局一致性:确… -
360智脑
360智脑是什么?360智脑是由中国科技公司360集团开发的人工智能平台,专注于推动人机协作创新,激发用户创造力。该平台整合了多种AI技术,提供开放接口和工具集,支持开发者和企业用户构建智能应用。 360智脑官网 360智脑可以做什么?平台提供一系列AI驱动工具: API开放平台:允许开发者接入AI能力,开发定制应用。 360鸿图:AI作图工具,辅助数据可视化和创意设计。 360AI搜索:智能搜索… -
Octopus V2-斯坦福推出的可在设备上运行的大模型
端侧AI新标杆:Octopus v2模型深度解析 ——手机能跑的大模型,比GPT-4更快更准 ⚙️ 核心功能亮点 1. 性能碾压主流模型 推理速度:在安卓设备上,单次函数调用响应仅需1.1-1.7秒,比云端GPT-4快168%,比“Llama7B+RAG方案”快36倍。 准确率:函数调用精准度达99.5%,超越GPT-4和RAG方案31%。 能效优化:上下文长度减少95%,相同电量下支持37倍更多… -
Ferret-UI:苹果公司推出的多模态AI模型
🔍 专攻手机界面的“视觉大脑” 苹果自研的多模态交互引擎Ferret-UI是苹果专为移动端打造的AI模型,能像人类一样“看懂”手机屏幕。它不仅能识别App图标、按钮等微小元素,还能根据用户指令自动操作界面——比如一句“订美团外卖”,它就能跳转应用完成下单,彻底告别手动点按。 官网直达:https://arxiv.org/pdf/2404.05719.pdf开发者社区:https://discord… -
Seed-Music:字节跳动推出的AI音乐大模型,支持一键生成高质量歌曲
🎵 Seed-Music:会写歌的AI音乐伙伴,让每个人都是作曲家 想不想让你写的词变成真正的歌曲?Seed-Music就是这样一个神奇的AI音乐生成工具,由字节跳动豆包大模型团队打造。它能把你的歌词、灵感甚至随便哼唱的旋律,变成完整的音乐作品,无论你是音乐小白还是专业制作人,都能用它玩转音乐创作。 官网体验:https://seed.bytedance.com/zh/special/seed-m… -
MovieLLM-通过AI生成电影来增强长视频理解的框架
MovieLLM是什么? 复旦与腾讯联合研发的AI电影引擎,专攻复杂剧情视频理解。它能生成风格统一的长视频,解决影视行业高质量训练数据稀缺的痛点。2025年开源版本已支持8K超清生成。 https://movie-llm.fudan.edu.cn 核心技术解析 1. 剧本智能生成 输入题材关键词(如“赛博朋克爱情”),GPT-4自动输出分镜剧本+角色对话,含场景细节描述与情绪标注。 2. 画风锁定… -
CogAgent-可免费商用的带 Agent 能力的视觉模型
🤖 CogAgent:GUI操作神器,看图秒懂界面! CogAgent是清华大学与智谱AI联手打造的视觉界面通灵师,2025年全新进化版已化身跨平台操作外挂!它能像人类一样“看懂”电脑和手机界面——无论是微信复杂的设置菜单,还是《原神》游戏任务面板,截张图问它“怎么跳过这个动画?”,0.5秒就给你箭头标注点击位置,手残党打游戏/搞办公的救星! 马上试玩在线Demo 💥 三招让效率原地起飞 界面扫描… -
LaVie:上海人工智能实验室开源的视频生成模型
小白秒变特效师?这款国产黑科技彻底杀疯了 还在为视频制作头疼?剪辑复杂、渲染太慢、特效不会做?试试清华系团队打造的LaVie——输入文字直接生成4K电影级视频,抖音百万播放量有手就能做! >> 官方免费体验:LaVie开源项目地址 2025新版LaVie强在哪? 打字出电影:输入“赛博朋克少女雨中战斗”,30秒生成10秒高清视频 照片变动画:上传静态图自动生成动态场景(如让风景照云流动… -
Mora-微软等推出的多智能体视频生成框架
微软开源Mora视频AI实测:多智能体框架支持文生视频/图生视频/视频编辑等6大任务,性能接近Sora且完全免费!附2025年与Runway/Pika/Stable Video全系竞品对比表,立即获取开源替代方案。 -
Open-Sora: Colossal-AI开源的类Sora架构视频生成模型
开源视频生成革命 Open-Sora是由潞晨科技推出的开源视频生成模型,采用扩散Transformer架构,支持文本生成高清视频。最新2.0版本以20万美元低成本训练11B参数模型,性能逼近OpenAI Sora,支持720p/24fps视频生成,显著降低行业技术门槛。 官网与开源地址:https://github.com/hpcaitech/Open-Sora 核心架构与技术突破 1. 高效多模… -
讯飞星火开源大模型
讯飞星火开源大模型核心解析 讯飞星火开源大模型(iFlytekSpark-13B)是科大讯飞推出的130亿参数开源大语言模型,基于全国产化算力平台“飞星一号”训练,提供基础模型(iFlytekSpark-13B-base)和精调对话模型(iFlytekSpark-13B-chat),支持文本生成、代码编写、数学推理等通用任务,深度优化中文场景及行业应用。 访问官网:星火开源社区 核心能力与评测表现… -
商汤商量拟人大模型
🤖 商量拟人大模型是什么? 商汤科技打造的AI角色对话天花板,堪称“虚拟人造梦工厂”!只需简单设定,它就能生成活灵活现的虚拟角色——从高冷霸总到话痨闺蜜,从仙侠师尊到赛博侦探,人设台词全拿捏。2025年升级多人群聊剧情推演和跨平台分身同步功能,让纸片人真正“活”过来陪你聊天搞事~ 官网直达:https://character.sensetime.com/ 🛠️ 2025核心功能:从捏人到飙戏一条龙… -
Matrix-Game:昆仑万维开源的交互式世界基础模型
🚀 颠覆想象:Matrix-Game 2.0开启实时交互虚拟世界新纪元 昆仑万维在2025年8月发布的Matrix-Game 2.0,可不是个简单的模型升级,而是真正能“动起来”的开源交互式世界模型。它能以每秒25帧的速度实时生成分钟级的高连贯视频,让你用键盘鼠标就能自由操控虚拟世界,仿佛真的置身于一个物理规则运转正常的平行宇宙里。 官方资源一键直达:项目主页:https://matrix-gam… -
CoDi-多模态 AI 大模型
🌈 CoDi是什么? CoDi(Composable Diffusion)是微软推出的跨模态生成模型黑科技,能像“AI魔术师”一样自由组合输入输出——你给它文字、图片、音频甚至视频中的任意组合,它就能生成同步对齐的多模态内容!比如输入一段海浪文字+钢琴曲片段,直接输出带海浪声的治愈系视频,彻底打破传统AI“单线程创作”的局限。 官网直达:https://codi-gen.github.io/ ✨ … -
OmniGen2 – 智源研究院推出的开源多模态生成模型
🎨 OmniGen2:能画会改的AI创意多面手 OmniGen2是北京智源人工智能研究院在2025年6月底推出的开源多模态生成模型,就像一个全能的AI艺术家,既能根据文字描述生成图像,也能精准编辑现有图片,甚至能理解图片内容并进行创意组合。它最大的特点是采用图文解耦架构,就像让AI学会了"分开思考"文字和图像,再巧妙地把它们融合在一起,这让它在处理复杂创意任务时更加得心应手。 … -
CogVideoX-智谱推出的开源AI视频生成模型
🔍 CogVideoX是什么? CogVideoX是智谱AI开发的视频生成大模型,只需输入文本或图片就能生成高质量视频。2025年8月开源的CogVideoX-2B是该系列首个模型,参数规模达20亿,与智谱的AI视频产品“清影”同源。它能根据最长226个英文token的提示词,生成6秒、720×480分辨率的视频,推理时显存消耗仅18GB(FP16精度),大幅降低了使用门槛。更强大的版本正在开发中… -
Step-Audio:阶跃星辰推出的开源语音交互模型
🔊 中文语音天花板,开口就是戏精 吉利联手阶跃星辰打造的开源神器Step-Audio是国内首个能同时处理方言、歌声、情感语调的语音大模型。无论是给游戏角色配音,还是让智能客服说话带温度,它都能搞定,连东北话、四川话都学得惟妙惟肖,堪称声音界的“百变星君”。 官网直达:Step-Audio开源主页 🎭 五大核心能力,开口就惊艳 方言歌声全能王支持20+种方言(粤语、川渝话等)、中英日韩多语种切换,甚… -
Seaweed-APT:AI视频生成模型,单步生成2秒钟的1280×720 24fps视频
🚀 字节跳动Seaweed-APT:单步生成720P高清视频的AI黑科技 用AI生成视频就像拍照一样简单?字节跳动推出的Seaweed-APT模型让这成为现实。这个突破性AI视频生成工具,只需单次计算就能产出1280×720分辨率、24帧/秒的2秒高清视频,彻底改变了传统逐帧生成的繁琐流程,让影视制作、游戏开发和广告创意领域的动态内容创作变得前所未有的高效。 官网:https://seaweed-… -
M2UGen-腾讯发布的多模态音乐生成模型
核心功能解析(2025最新版) 文字→音乐输入“赛博朋克雨夜”等描述,20秒生成带鼓点、合成器的电子乐,支持MP3/WAV格式下载。 图片→音乐上传风景照自动生成氛围音乐,山水图匹配古筝笛声,城市夜景触发电子律动。 视频→配乐分析视频内容生成适配BGM,如战斗场景生成急促鼓点,浪漫片段生成钢琴旋律。 智能音乐编辑一键移除人声、替换乐器(如吉他转琵琶)、调整节奏(80BPM→120BPM)。 官网体… -
-
Skywork R1V:昆仑万维开源的多模态视觉思维链推理模型
给AI装上“火眼金睛”:Skywork R1V让机器真正看懂世界 👁️ 想象一下,AI不仅能识别图片中有只猫,还能推断出这只猫的品种、年龄,甚至从背景细节判断出拍摄地点和季节——这就是Skywork R1V带来的革命性突破。这个由昆仑万维开源的多模态视觉推理模型,正在让机器真正具备“看懂”世界的能力。 最新评测显示,R1V在复杂视觉推理任务上的表现已经超越了许多闭源商业模型,其中在数学视觉推理测试… -
-
Step-Video-T2V:阶跃星辰推出的开源视频生成大模型
Step-Video-T2V是什么? 阶跃星辰与吉利联合开源的高性能视频生成模型,能根据文字描述直接生成540P高清视频。它擅长处理复杂动作(如舞蹈、打斗)、精准控制镜头运动(推拉摇移),并生成细腻的人物表情和皮肤质感,特别适合影视广告、游戏动画等创意领域。 官网体验:https://yuewen.cn/videos 🔥 核心功能亮点 高清长视频生成支持单次生成最长204帧视频(约8秒),分辨率达… -
Step1X-Edit:阶跃星辰推出的开源图像编辑大模型
告别修图烦恼!Step1X-Edit开源AI图像编辑工具,通过自然语言指令自动换背景、改材质、美颜,保持形象一致性。免费开源,提升创作效率,立即体验专业级编辑。
























