-
ThinkSound – 阿里通义开源的AI音频生成模型
🔍 ThinkSound是什么? ThinkSound是阿里巴巴通义实验室在2025年7月正式开源的音频生成模型,它不仅是阿里在音频AI领域的一次重大突破,更是全球首个将思维链(CoT)技术应用于音频生成的开源模型。简单来说,它能让AI像专业音效师一样“看懂”画面内容,“理解”事件逻辑,并生成高度匹配、精准同步的高保真空间音频,彻底告别传统“看图配音”的机械感和错位尴尬。 ThinkSound的官… -
OmniGen2 – 智源研究院推出的开源多模态生成模型
🎨 OmniGen2:能画会改的AI创意多面手 OmniGen2是北京智源人工智能研究院在2025年6月底推出的开源多模态生成模型,就像一个全能的AI艺术家,既能根据文字描述生成图像,也能精准编辑现有图片,甚至能理解图片内容并进行创意组合。它最大的特点是采用图文解耦架构,就像让AI学会了"分开思考"文字和图像,再巧妙地把它们融合在一起,这让它在处理复杂创意任务时更加得心应手。 … -
Stable Virtual Camera:Stability AI等推出的AI模型 ,2D图像轻松转3D视频
✨ Stable Virtual Camera:让图片动起来的3D视频魔法 Stable Virtual Camera是Stability AI公司推出的一个AI视频生成模型,它能把普通的2D静态图片变成带有逼真3D效果和深度感的动态视频。你只需要提供一张或几张照片,它就能模拟出相机在不同角度移动的效果,生成看起来非常专业的3D视频。 官网地址:https://stable-virtual-cam… -
京东言犀大模型
京东言犀大模型:产业智能化的新引擎 京东言犀大模型深度融合供应链与产业场景,专为零售、物流、金融等高知识密度领域打造。2025年升级至720B参数规模,新增多模态理解能力,强化对长文本、复杂逻辑任务的支撑,成为国内首个通过工信部“可信AI”认证的产业大模型。 官网直达:https://yanxi.jd.com 一、技术架构:全栈工具链支撑 1. 数据融合引擎 供应链知识增强:30%独家数据来自京东… -
混元TurboS:腾讯混元推出的新一代快思考模型
AI响应太慢?腾讯混元TurboS:毫秒级推理引擎,首字延迟220ms,成本仅GPT-4-turbo的1/4。支持高并发处理,提升代码生成与智能客服效率。企业级应用首选,立即体验极致速度与性价比。 -
通义万相Wan2.2- 阿里推出的开源视频生成大模型
🎬 视频制作迎来"自动驾驶"时代!这个AI模型让好莱坞级特效触手可及 做视频最头疼什么?特效制作绝对排第一。阿里推出的通义万相Wan2.2正在改变这个现状,这个开源视频生成大模型能让普通人也能做出专业级视频。只需要输入文字或图片,它就能生成物理效果逼真、电影质感十足的视频内容,最关键的是完全开源免费,让每个人都能享受视频创作的乐趣。 在线体验:https://tongyi.al… -
Ferret:苹果发布的多模态大语言模型
🚀 Ferret是什么? Ferret是苹果憋了三年放出的“读图界福尔摩斯”——能揪着你的文字描述,在图片里精准定位任何形状的物体!不管是“左下角咬了一口的草莓”还是“窗帘后露出的猫尾巴”,它都能瞬间圈出来。2025年已塞进iOS 18.5系统,7B迷你版跑在iPhone上不卡顿,13B专业版在Mac Studio上玩转设计全流程! GitHub直达:https://github.com/appl… -
Step-3:阶跃星辰推出的千亿参数多模态大模型
开篇:国产大模型的新突破 AI大模型领域又添新成员。Step-3是阶跃星辰推出的千亿参数多模态大模型,能同时处理文字、图片、视频等多种信息。这款国产AI在逻辑推理和长文本处理方面表现突出,旨在推动各行业智能化升级。 官网链接:https://platform.stepfun.com 🚀 产品定位与核心价值 Step-3不是单一功能的AI工具。它集成了理解、分析、创作等多种能力,像一个全能的智能助手… -
CogView4 – 智谱推出的开源文生图模型,让文字秒变高清大图
不会设计也能做海报?智谱CogView4开源文生图模型:精准生成汉字,免费商用,支持中英文双语描述与任意分辨率输出。立即了解,轻松生成高清海报/插画/配图。 -
gpt-realtime – OpenAI最新推出的语音模型
OpenAI GPT-Realtime语音AI:实现自然实时对话,支持情感识别和多语言无缝切换。提升智能客服与语言学习体验,立即了解革命性语音技术。 -
Seele AI- 全球首个AI生成3D游戏多模态大模型
不会编程也能做3D游戏?这款AI工具让你用文字描述就能创造世界 想做游戏但被编程和建模劝退?有绝妙的游戏创意却苦于没有技术能力实现?现在,只需用文字描述你的想法,AI就能自动生成完整的3D游戏世界——这就是Seele带来的革命性体验。无论是角色设计、场景构建还是玩法机制,统统可以用自然语言搞定,游戏开发从未如此简单。 https://www.seeles.ai 核心功能:一句话生成完整3D游戏 S… -
Matrix-Zero:昆仑万维发布的AI世界模型,支持单张图生成3D世界
平台定位与技术架构 Matrix-Zero是昆仑万维研发的下一代世界模型,包含两大核心技术模块:3D场景生成大模型和可交互视频生成大模型。通过AI将2D图像转化为可自由探索的3D空间,并支持用户实时交互操控视频生成过程,显著提升影视、游戏等领域的内容生产效率。 官网链接:https://www.kunlun.com/matrix-zero 🧩 核心功能特性 🏗️ 3D场景生成大模型 全局一致性:确… -
MatterGen:微软推出的无机材料设计AI模型,辅助生成新材料
🔬 材料研发迎来"ChatGPT时刻"!AI三天搞定传统三年实验 还在用"炒菜式"试错法研发新材料?微软研究院推出的MatterGen正在彻底改变游戏规则。这个基于扩散架构的生成式AI模型,能够根据目标属性直接生成新型无机材料结构,把传统需要3年的研发周期压缩到3天。从新能源电池到航空航天材料,它正在颠覆整个材料研发行业。 官方博客:https://www.… -
-
-
Matrix-Game:昆仑万维开源的交互式世界基础模型
🚀 颠覆想象:Matrix-Game 2.0开启实时交互虚拟世界新纪元 昆仑万维在2025年8月发布的Matrix-Game 2.0,可不是个简单的模型升级,而是真正能“动起来”的开源交互式世界模型。它能以每秒25帧的速度实时生成分钟级的高连贯视频,让你用键盘鼠标就能自由操控虚拟世界,仿佛真的置身于一个物理规则运转正常的平行宇宙里。 官方资源一键直达:项目主页:https://matrix-gam… -
讯飞星火开源大模型
讯飞星火开源大模型核心解析 讯飞星火开源大模型(iFlytekSpark-13B)是科大讯飞推出的130亿参数开源大语言模型,基于全国产化算力平台“飞星一号”训练,提供基础模型(iFlytekSpark-13B-base)和精调对话模型(iFlytekSpark-13B-chat),支持文本生成、代码编写、数学推理等通用任务,深度优化中文场景及行业应用。 访问官网:星火开源社区 核心能力与评测表现… -
腾讯混元大模型
🌟 腾讯混元大模型:你的全场景AI助手 还在为复杂工作头疼?腾讯混元大模型可能就是你的救星。作为腾讯全链路自研的万亿级参数模型,它不仅能陪你聊天、帮你写文案,还能直接生成视频和图片,更厉害的是深度整合了微信、QQ整个生态圈。无论是个人用户还是企业客户,都能在这个AI底座上找到适合自己的智能解决方案。 官网入口:https://hunyuan.tencent.com/ # 🚀 核心能力:四大亮点撑起… -
Seed-Music:字节跳动推出的AI音乐大模型,支持一键生成高质量歌曲
🎵 Seed-Music:会写歌的AI音乐伙伴,让每个人都是作曲家 想不想让你写的词变成真正的歌曲?Seed-Music就是这样一个神奇的AI音乐生成工具,由字节跳动豆包大模型团队打造。它能把你的歌词、灵感甚至随便哼唱的旋律,变成完整的音乐作品,无论你是音乐小白还是专业制作人,都能用它玩转音乐创作。 官网体验:https://seed.bytedance.com/zh/special/seed-m… -
Step1X-3D:阶跃星辰开源的3D大模型,支持生成高保真可控的3D内容
不会3D建模?用嘴「说」出一个3D模型!这款国产AI工具让创作像说话一样简单 想为游戏设计一个角色却不会建模?需要产品原型但被复杂软件劝退?Step1X-3D的出现,彻底降低了3D创作的门槛。这是阶跃星辰在2025年推出的开源3D生成大模型,只需输入文字描述,几分钟内就能获得高质量3D模型,让每个人都能成为3D创作者。 官网地址:https://github.com/stepfun-ai/Step… -
Genesis:生成式物理引擎,一句话生成完整精确的模拟物理世界
Genesis生成式物理引擎:顶尖机构联研,支持多物理耦合仿真与语言驱动场景生成,单卡4300万帧/秒性能突破,适配科研级精度需求,经百度算法认证赋能工业机器人训练场景。 -
CogVideoX-智谱推出的开源AI视频生成模型
🔍 CogVideoX是什么? CogVideoX是智谱AI开发的视频生成大模型,只需输入文本或图片就能生成高质量视频。2025年8月开源的CogVideoX-2B是该系列首个模型,参数规模达20亿,与智谱的AI视频产品“清影”同源。它能根据最长226个英文token的提示词,生成6秒、720×480分辨率的视频,推理时显存消耗仅18GB(FP16精度),大幅降低了使用门槛。更强大的版本正在开发中… -
Codestral 25.01:Mistral AI最新推出的AI编程模型,编程速度提高2倍
Codestral 25.01:AI编程效率革新者 Codestral 25.01是Mistral AI推出的高性能代码生成模型,通过架构优化与分词器升级,实现代码生成速度较前代提升约2倍,并支持80+编程语言(如Python、SQL、Java),特别擅长代码填充(FIM)、测试生成与错误修正任务。 官网链接:访问Codestral 25.01详情页 核心功能 🚀 极速智能编程 双倍效率提升:新型… -
LivePhoto:图片生成动态视频模型
🎬 想让照片动起来?LivePhoto让静态图片秒变动态视频 LivePhoto是一款由阿里巴巴、香港大学和蚂蚁集团联合研发的图片转视频AI模型,基于先进的Stable Diffusion架构,创新性地融合了运动控制技术。它能够将静态图像转换为生动的动态视频,用户只需通过文字指令就能精准控制画面中元素的运动,让照片真正"活"起来。 官网链接:https://xavierchen…
























