-
MatterGen:微软推出的无机材料设计AI模型,辅助生成新材料
🔬 材料研发迎来"ChatGPT时刻"!AI三天搞定传统三年实验 还在用"炒菜式"试错法研发新材料?微软研究院推出的MatterGen正在彻底改变游戏规则。这个基于扩散架构的生成式AI模型,能够根据目标属性直接生成新型无机材料结构,把传统需要3年的研发周期压缩到3天。从新能源电池到航空航天材料,它正在颠覆整个材料研发行业。 官方博客:https://www.… -
gpt-realtime – OpenAI最新推出的语音模型
OpenAI GPT-Realtime语音AI:实现自然实时对话,支持情感识别和多语言无缝切换。提升智能客服与语言学习体验,立即了解革命性语音技术。 -
Skywork R1V:昆仑万维开源的多模态视觉思维链推理模型
给AI装上“火眼金睛”:Skywork R1V让机器真正看懂世界 👁️ 想象一下,AI不仅能识别图片中有只猫,还能推断出这只猫的品种、年龄,甚至从背景细节判断出拍摄地点和季节——这就是Skywork R1V带来的革命性突破。这个由昆仑万维开源的多模态视觉推理模型,正在让机器真正具备“看懂”世界的能力。 最新评测显示,R1V在复杂视觉推理任务上的表现已经超越了许多闭源商业模型,其中在数学视觉推理测试… -
Hyper-SD:字节跳动推出的基于SD的图像生成框架
🚀 Hyper-SD:字节跳动的AI图像加速王,1步出大片! Hyper-SD是字节跳动2025年推出的AI图像生成核武器,专治“出图慢如龟”“显卡烧冒烟”的痛点!它用轨迹分段蒸馏+人类审美驯化黑科技,把Stable Diffusion繁琐的20步生成压榨到1-8步搞定——输入“赛博猫咪”,1秒输出带机械义耳的光污染神图,速度碾压传统模型3倍,电费省下80%! 项目主页:https://hyper… -
Open-Sora: Colossal-AI开源的类Sora架构视频生成模型
开源视频生成革命 Open-Sora是由潞晨科技推出的开源视频生成模型,采用扩散Transformer架构,支持文本生成高清视频。最新2.0版本以20万美元低成本训练11B参数模型,性能逼近OpenAI Sora,支持720p/24fps视频生成,显著降低行业技术门槛。 官网与开源地址:https://github.com/hpcaitech/Open-Sora 核心架构与技术突破 1. 高效多模… -
讯飞星火开源大模型
讯飞星火开源大模型核心解析 讯飞星火开源大模型(iFlytekSpark-13B)是科大讯飞推出的130亿参数开源大语言模型,基于全国产化算力平台“飞星一号”训练,提供基础模型(iFlytekSpark-13B-base)和精调对话模型(iFlytekSpark-13B-chat),支持文本生成、代码编写、数学推理等通用任务,深度优化中文场景及行业应用。 访问官网:星火开源社区 核心能力与评测表现… -
混元TurboS:腾讯混元推出的新一代快思考模型
AI响应太慢?腾讯混元TurboS:毫秒级推理引擎,首字延迟220ms,成本仅GPT-4-turbo的1/4。支持高并发处理,提升代码生成与智能客服效率。企业级应用首选,立即体验极致速度与性价比。 -
商汤商量拟人大模型
🤖 商量拟人大模型是什么? 商汤科技打造的AI角色对话天花板,堪称“虚拟人造梦工厂”!只需简单设定,它就能生成活灵活现的虚拟角色——从高冷霸总到话痨闺蜜,从仙侠师尊到赛博侦探,人设台词全拿捏。2025年升级多人群聊剧情推演和跨平台分身同步功能,让纸片人真正“活”过来陪你聊天搞事~ 官网直达:https://character.sensetime.com/ 🛠️ 2025核心功能:从捏人到飙戏一条龙… -
Octopus V2-斯坦福推出的可在设备上运行的大模型
端侧AI新标杆:Octopus v2模型深度解析 ——手机能跑的大模型,比GPT-4更快更准 ⚙️ 核心功能亮点 1. 性能碾压主流模型 推理速度:在安卓设备上,单次函数调用响应仅需1.1-1.7秒,比云端GPT-4快168%,比“Llama7B+RAG方案”快36倍。 准确率:函数调用精准度达99.5%,超越GPT-4和RAG方案31%。 能效优化:上下文长度减少95%,相同电量下支持37倍更多… -
Ferret-UI:苹果公司推出的多模态AI模型
🔍 专攻手机界面的“视觉大脑” 苹果自研的多模态交互引擎Ferret-UI是苹果专为移动端打造的AI模型,能像人类一样“看懂”手机屏幕。它不仅能识别App图标、按钮等微小元素,还能根据用户指令自动操作界面——比如一句“订美团外卖”,它就能跳转应用完成下单,彻底告别手动点按。 官网直达:https://arxiv.org/pdf/2404.05719.pdf开发者社区:https://discord… -
Seed-Music:字节跳动推出的AI音乐大模型,支持一键生成高质量歌曲
🎵 Seed-Music:会写歌的AI音乐伙伴,让每个人都是作曲家 想不想让你写的词变成真正的歌曲?Seed-Music就是这样一个神奇的AI音乐生成工具,由字节跳动豆包大模型团队打造。它能把你的歌词、灵感甚至随便哼唱的旋律,变成完整的音乐作品,无论你是音乐小白还是专业制作人,都能用它玩转音乐创作。 官网体验:https://seed.bytedance.com/zh/special/seed-m… -
MovieLLM-通过AI生成电影来增强长视频理解的框架
MovieLLM是什么? 复旦与腾讯联合研发的AI电影引擎,专攻复杂剧情视频理解。它能生成风格统一的长视频,解决影视行业高质量训练数据稀缺的痛点。2025年开源版本已支持8K超清生成。 https://movie-llm.fudan.edu.cn 核心技术解析 1. 剧本智能生成 输入题材关键词(如“赛博朋克爱情”),GPT-4自动输出分镜剧本+角色对话,含场景细节描述与情绪标注。 2. 画风锁定… -
CogAgent-可免费商用的带 Agent 能力的视觉模型
🤖 CogAgent:GUI操作神器,看图秒懂界面! CogAgent是清华大学与智谱AI联手打造的视觉界面通灵师,2025年全新进化版已化身跨平台操作外挂!它能像人类一样“看懂”电脑和手机界面——无论是微信复杂的设置菜单,还是《原神》游戏任务面板,截张图问它“怎么跳过这个动画?”,0.5秒就给你箭头标注点击位置,手残党打游戏/搞办公的救星! 马上试玩在线Demo 💥 三招让效率原地起飞 界面扫描… -
LaVie:上海人工智能实验室开源的视频生成模型
小白秒变特效师?这款国产黑科技彻底杀疯了 还在为视频制作头疼?剪辑复杂、渲染太慢、特效不会做?试试清华系团队打造的LaVie——输入文字直接生成4K电影级视频,抖音百万播放量有手就能做! >> 官方免费体验:LaVie开源项目地址 2025新版LaVie强在哪? 打字出电影:输入“赛博朋克少女雨中战斗”,30秒生成10秒高清视频 照片变动画:上传静态图自动生成动态场景(如让风景照云流动… -
Mora-微软等推出的多智能体视频生成框架
微软开源Mora视频AI实测:多智能体框架支持文生视频/图生视频/视频编辑等6大任务,性能接近Sora且完全免费!附2025年与Runway/Pika/Stable Video全系竞品对比表,立即获取开源替代方案。 -
Step1X-Edit:阶跃星辰推出的开源图像编辑大模型
告别修图烦恼!Step1X-Edit开源AI图像编辑工具,通过自然语言指令自动换背景、改材质、美颜,保持形象一致性。免费开源,提升创作效率,立即体验专业级编辑。 -
Gemma 3-谷歌发布的开源AI模型,小尺寸可商用
Gemma 3:谷歌开源多模态AI模型,支持128K长文本处理,适配PC/移动端,经LMArena评测STEM准确率提升35%,适合科研与多语言场景。 -
k0-math:月之暗面推出的新一代数学推理模型
🧠 k0-math:月之暗面推出的数学AI,解题能力超乎想象 k0-math是月之暗面(Moonshot AI)公司推出的一个专攻数学推理的新一代AI模型。它不像普通的聊天AI,而是更像一个专门的“数学大脑”,背后用上了全新的强化学习和思维链推理技术,专门模拟人脑在解数学题时一步步思考、甚至解完还会“检查一遍”的反思过程。这就让它处理复杂数学难题的能力大幅提升,不管是考试题还是竞赛题,都能帮你搞定… -
ChatGLM:智谱 AI 发布的中英双语千亿对话模型
🤖 ChatGLM是什么? ChatGLM是智谱AI打造的中英双语千亿级对话大模型,2025年已升级为全栈开源家族!最新推出的GLM-4-32B推理模型仅用320亿参数就媲美671B参数的顶级模型,更以200 tokens/秒的推理速度登顶国内商业模型效率榜首,价格却只有竞品DeepSeek-R1的1/30,堪称“性价比屠夫”💥。 https://z.ai ✨ 五大超能力,打工人直呼真香 逻辑推理… -
GLM-Realtime:智谱最新推出的端到端AI模型,支持2分钟记忆和清唱功能
GLM-Realtime:智谱AI端到端多模态模型,支持清唱与毫秒级响应,适配智能硬件/教育/医疗场景,经评测响应速度领先,提升实时交互体验。 -
昆仑大模型:中国石油等联合发布的能源行业大模型
昆仑大模型是什么? 专为能源行业打造的大型AI系统,由中国石油、中国移动、华为和科大讯飞联合研发。它像“能源行业超级大脑”,能处理地质勘探、设备管理、客户营销等专业任务,推动油田、炼化等场景的智能化升级。 官网:https://www.kunlunai.com 🔧 核心能力拆解 分层架构精准适配 专业层:地震解释、测井分析等垂直模型,直接服务地质工程师(如自动解析地下岩层数据) 行业层:油气知识库… -
Genesis:生成式物理引擎,一句话生成完整精确的模拟物理世界
Genesis生成式物理引擎:顶尖机构联研,支持多物理耦合仿真与语言驱动场景生成,单卡4300万帧/秒性能突破,适配科研级精度需求,经百度算法认证赋能工业机器人训练场景。 -
Qwen2-Audio:阿里推出的开源音频语言大模型
Qwen2-Audio是什么? 阿里通义开源的智能音频大模型,能直接“听懂”人声、音乐、环境音,并给出文字回答或分析报告。比如你说一段话,它能帮你总结重点;录一段雨声,它能判断是否伴随雷电。无需文字转写,跨语言交流也支持。 Qwen2-Audio团队在 Hugging Face 和 ModelScope 上开源了 Qwen2-Audio-7B 以及 Qwen2-Audio-7B-Instruct,… -
BenTsao本草-中文医学大模型
🏥 BenTsao本草:更懂中文医学的AI大模型 BenTsao本草(原名华佗-Llama-Med-Chinese)是一个专门针对中文医学领域优化的开源大语言模型。它基于LLaMA架构,通过海量医学知识图谱和GPT-3.5生成的指令数据进行微调,显著提升了在医疗问答、诊断推理和医学知识检索方面的准确性和可靠性。简单说,它就是一位「AI医学助手」,能理解专业术语、回答健康咨询、辅助医生进行文献分析,…
























