全部标签

AI大模型

最新最多浏览

ThinkSound – 阿里通义开源的AI音频生成模型

🔍 ThinkSound是什么？ ThinkSound是阿里巴巴通义实验室在2025年7月正式开源的音频生成模型，它不仅是阿里在音频AI领域的一次重大突破，更是全球首个将思维链（CoT）技术应用于音频生成的开源模型。简单来说，它能让AI像专业音效师一样“看懂”画面内容，“理解”事件逻辑，并生成高度匹配、精准同步的高保真空间音频，彻底告别传统“看图配音”的机械感和错位尴尬。 ThinkSound的官…
OmniGen2 – 智源研究院推出的开源多模态生成模型

🎨 OmniGen2：能画会改的AI创意多面手 OmniGen2是北京智源人工智能研究院在2025年6月底推出的开源多模态生成模型，就像一个全能的AI艺术家，既能根据文字描述生成图像，也能精准编辑现有图片，甚至能理解图片内容并进行创意组合。它最大的特点是采用图文解耦架构，就像让AI学会了"分开思考"文字和图像，再巧妙地把它们融合在一起，这让它在处理复杂创意任务时更加得心应手。 …
Stable Virtual Camera：Stability AI等推出的AI模型，2D图像轻松转3D视频

✨ Stable Virtual Camera：让图片动起来的3D视频魔法 Stable Virtual Camera是Stability AI公司推出的一个AI视频生成模型，它能把普通的2D静态图片变成带有逼真3D效果和深度感的动态视频。你只需要提供一张或几张照片，它就能模拟出相机在不同角度移动的效果，生成看起来非常专业的3D视频。官网地址：https://stable-virtual-cam…
京东言犀大模型

京东言犀大模型：产业智能化的新引擎京东言犀大模型深度融合供应链与产业场景，专为零售、物流、金融等高知识密度领域打造。2025年升级至720B参数规模，新增多模态理解能力，强化对长文本、复杂逻辑任务的支撑，成为国内首个通过工信部“可信AI”认证的产业大模型。官网直达：https://yanxi.jd.com 一、技术架构：全栈工具链支撑 1. 数据融合引擎供应链知识增强：30%独家数据来自京东…
混元TurboS：腾讯混元推出的新一代快思考模型

AI响应太慢？腾讯混元TurboS：毫秒级推理引擎，首字延迟220ms，成本仅GPT-4-turbo的1/4。支持高并发处理，提升代码生成与智能客服效率。企业级应用首选，立即体验极致速度与性价比。
通义万相Wan2.2- 阿里推出的开源视频生成大模型

🎬 视频制作迎来"自动驾驶"时代！这个AI模型让好莱坞级特效触手可及做视频最头疼什么？特效制作绝对排第一。阿里推出的通义万相Wan2.2正在改变这个现状，这个开源视频生成大模型能让普通人也能做出专业级视频。只需要输入文字或图片，它就能生成物理效果逼真、电影质感十足的视频内容，最关键的是完全开源免费，让每个人都能享受视频创作的乐趣。在线体验：https://tongyi.al…
Ferret：苹果发布的多模态大语言模型

🚀 Ferret是什么？ Ferret是苹果憋了三年放出的“读图界福尔摩斯”——能揪着你的文字描述，在图片里精准定位任何形状的物体！不管是“左下角咬了一口的草莓”还是“窗帘后露出的猫尾巴”，它都能瞬间圈出来。2025年已塞进iOS 18.5系统，7B迷你版跑在iPhone上不卡顿，13B专业版在Mac Studio上玩转设计全流程！ GitHub直达：https://github.com/appl…
Step-3：阶跃星辰推出的千亿参数多模态大模型

开篇：国产大模型的新突破 AI大模型领域又添新成员。Step-3是阶跃星辰推出的千亿参数多模态大模型，能同时处理文字、图片、视频等多种信息。这款国产AI在逻辑推理和长文本处理方面表现突出，旨在推动各行业智能化升级。官网链接：https://platform.stepfun.com 🚀 产品定位与核心价值 Step-3不是单一功能的AI工具。它集成了理解、分析、创作等多种能力，像一个全能的智能助手…
CogView4 – 智谱推出的开源文生图模型，让文字秒变高清大图

不会设计也能做海报？智谱CogView4开源文生图模型：精准生成汉字，免费商用，支持中英文双语描述与任意分辨率输出。立即了解，轻松生成高清海报/插画/配图。
gpt-realtime – OpenAI最新推出的语音模型

OpenAI GPT-Realtime语音AI：实现自然实时对话，支持情感识别和多语言无缝切换。提升智能客服与语言学习体验，立即了解革命性语音技术。
Seele AI- 全球首个AI生成3D游戏多模态大模型

不会编程也能做3D游戏？这款AI工具让你用文字描述就能创造世界想做游戏但被编程和建模劝退？有绝妙的游戏创意却苦于没有技术能力实现？现在，只需用文字描述你的想法，AI就能自动生成完整的3D游戏世界——这就是Seele带来的革命性体验。无论是角色设计、场景构建还是玩法机制，统统可以用自然语言搞定，游戏开发从未如此简单。 https://www.seeles.ai 核心功能：一句话生成完整3D游戏 S…
Matrix-Zero：昆仑万维发布的AI世界模型，支持单张图生成3D世界

平台定位与技术架构 Matrix-Zero是昆仑万维研发的下一代世界模型，包含两大核心技术模块：3D场景生成大模型和可交互视频生成大模型。通过AI将2D图像转化为可自由探索的3D空间，并支持用户实时交互操控视频生成过程，显著提升影视、游戏等领域的内容生产效率。官网链接：https://www.kunlun.com/matrix-zero 🧩 核心功能特性 🏗️ 3D场景生成大模型全局一致性：确…
MatterGen：微软推出的无机材料设计AI模型，辅助生成新材料

🔬 材料研发迎来"ChatGPT时刻"！AI三天搞定传统三年实验还在用"炒菜式"试错法研发新材料？微软研究院推出的MatterGen正在彻底改变游戏规则。这个基于扩散架构的生成式AI模型，能够根据目标属性直接生成新型无机材料结构，把传统需要3年的研发周期压缩到3天。从新能源电池到航空航天材料，它正在颠覆整个材料研发行业。官方博客：https://www.…
QVQ-Max：阿里通义推出的视觉推理模型，能分析图片和视频内容

阿里巴巴QVQ-Max：视觉推理大模型，精准理解图像视频，解决数学编程难题。免费体验多模态AI，提升工作效率与创造力。
混元图生视频模型 – 腾讯开源的AI视频生成模型

腾讯混元开源图生视频模型：输入静态图像生成5秒动态视频，支持多模态控制和主体一致性。适用于电商展示/数字人直播等场景，立即体验高效视频创作。
Matrix-Game：昆仑万维开源的交互式世界基础模型

🚀 颠覆想象：Matrix-Game 2.0开启实时交互虚拟世界新纪元昆仑万维在2025年8月发布的Matrix-Game 2.0，可不是个简单的模型升级，而是真正能“动起来”的开源交互式世界模型。它能以每秒25帧的速度实时生成分钟级的高连贯视频，让你用键盘鼠标就能自由操控虚拟世界，仿佛真的置身于一个物理规则运转正常的平行宇宙里。官方资源一键直达：项目主页：https://matrix-gam…
讯飞星火开源大模型

讯飞星火开源大模型核心解析讯飞星火开源大模型（iFlytekSpark-13B）是科大讯飞推出的130亿参数开源大语言模型，基于全国产化算力平台“飞星一号”训练，提供基础模型（iFlytekSpark-13B-base）和精调对话模型（iFlytekSpark-13B-chat），支持文本生成、代码编写、数学推理等通用任务，深度优化中文场景及行业应用。访问官网：星火开源社区核心能力与评测表现…
腾讯混元大模型

🌟 腾讯混元大模型：你的全场景AI助手还在为复杂工作头疼？腾讯混元大模型可能就是你的救星。作为腾讯全链路自研的万亿级参数模型，它不仅能陪你聊天、帮你写文案，还能直接生成视频和图片，更厉害的是深度整合了微信、QQ整个生态圈。无论是个人用户还是企业客户，都能在这个AI底座上找到适合自己的智能解决方案。官网入口：https://hunyuan.tencent.com/ # 🚀 核心能力：四大亮点撑起…
Seed-Music：字节跳动推出的AI音乐大模型，支持一键生成高质量歌曲

🎵 Seed-Music：会写歌的AI音乐伙伴，让每个人都是作曲家想不想让你写的词变成真正的歌曲？Seed-Music就是这样一个神奇的AI音乐生成工具，由字节跳动豆包大模型团队打造。它能把你的歌词、灵感甚至随便哼唱的旋律，变成完整的音乐作品，无论你是音乐小白还是专业制作人，都能用它玩转音乐创作。官网体验：https://seed.bytedance.com/zh/special/seed-m…
Step1X-3D：阶跃星辰开源的3D大模型，支持生成高保真可控的3D内容

不会3D建模？用嘴「说」出一个3D模型！这款国产AI工具让创作像说话一样简单想为游戏设计一个角色却不会建模？需要产品原型但被复杂软件劝退？Step1X-3D的出现，彻底降低了3D创作的门槛。这是阶跃星辰在2025年推出的开源3D生成大模型，只需输入文字描述，几分钟内就能获得高质量3D模型，让每个人都能成为3D创作者。官网地址：https://github.com/stepfun-ai/Step…
Genesis：生成式物理引擎，一句话生成完整精确的模拟物理世界

Genesis生成式物理引擎：顶尖机构联研，支持多物理耦合仿真与语言驱动场景生成，单卡4300万帧/秒性能突破，适配科研级精度需求，经百度算法认证赋能工业机器人训练场景。
CogVideoX-智谱推出的开源AI视频生成模型

🔍 CogVideoX是什么？ CogVideoX是智谱AI开发的视频生成大模型，只需输入文本或图片就能生成高质量视频。2025年8月开源的CogVideoX-2B是该系列首个模型，参数规模达20亿，与智谱的AI视频产品“清影”同源。它能根据最长226个英文token的提示词，生成6秒、720×480分辨率的视频，推理时显存消耗仅18GB（FP16精度），大幅降低了使用门槛。更强大的版本正在开发中…
Codestral 25.01：Mistral AI最新推出的AI编程模型，编程速度提高2倍

Codestral 25.01：AI编程效率革新者 Codestral 25.01是Mistral AI推出的高性能代码生成模型，通过架构优化与分词器升级，实现代码生成速度较前代提升约2倍，并支持80+编程语言（如Python、SQL、Java），特别擅长代码填充（FIM）、测试生成与错误修正任务。官网链接：访问Codestral 25.01详情页核心功能 🚀 极速智能编程双倍效率提升：新型…
LivePhoto：图片生成动态视频模型

🎬 想让照片动起来？LivePhoto让静态图片秒变动态视频 LivePhoto是一款由阿里巴巴、香港大学和蚂蚁集团联合研发的图片转视频AI模型，基于先进的Stable Diffusion架构，创新性地融合了运动控制技术。它能够将静态图像转换为生动的动态视频，用户只需通过文字指令就能精准控制画面中元素的运动，让照片真正"活"起来。官网链接：https://xavierchen…