-
Ferret-UI:苹果公司推出的多模态AI模型
🔍 专攻手机界面的“视觉大脑” 苹果自研的多模态交互引擎Ferret-UI是苹果专为移动端打造的AI模型,能像人类一样“看懂”手机屏幕。它不仅能识别App图标、按钮等微小元素,还能根据用户指令自动操作界面——比如一句“订美团外卖”,它就能跳转应用完成下单,彻底告别手动点按。 官网直达:https://arxiv.org/pdf/2404.05719.pdf开发者社区:https://discord… -
Matrix-Game:昆仑万维开源的交互式世界基础模型
🚀 颠覆想象:Matrix-Game 2.0开启实时交互虚拟世界新纪元 昆仑万维在2025年8月发布的Matrix-Game 2.0,可不是个简单的模型升级,而是真正能“动起来”的开源交互式世界模型。它能以每秒25帧的速度实时生成分钟级的高连贯视频,让你用键盘鼠标就能自由操控虚拟世界,仿佛真的置身于一个物理规则运转正常的平行宇宙里。 官方资源一键直达:项目主页:https://matrix-gam… -
Step-3:阶跃星辰推出的千亿参数多模态大模型
千亿参数多模态大模型 Step-3 是由阶跃星辰研发的通用人工智能大模型,具备文本、图像、视频等多模态理解与生成能力。通过千亿级参数规模与自主推理架构,在逻辑分析、长文本处理及跨模态创作领域实现突破,驱动产业智能化升级。 官网链接:https://platform.stepfun.com 核心能力解析 多模态融合引擎 支持图像/视频/文本跨模态联合分析,实现场景深度理解(如医学影像结合报告生成诊断… -
-
OmniGen2 – 智源研究院推出的开源多模态生成模型
🎨 OmniGen2:能画会改的AI创意多面手 OmniGen2是北京智源人工智能研究院在2025年6月底推出的开源多模态生成模型,就像一个全能的AI艺术家,既能根据文字描述生成图像,也能精准编辑现有图片,甚至能理解图片内容并进行创意组合。它最大的特点是采用图文解耦架构,就像让AI学会了"分开思考"文字和图像,再巧妙地把它们融合在一起,这让它在处理复杂创意任务时更加得心应手。 … -
SkyReels-V1:昆仑万维开源的AI短剧创作视频生成模型
🎬 SkyReels-V1是什么? 昆仑万维开源的中国首个AI短剧生成神器,专攻影视级人物表演!它能精准操控角色口型、表情和动作,自带33种微表情和400+自然动作库,连“不屑挑眉”“绝望瘫坐”这种细节都能拿捏。更绝的是支持图生视频——上传一张汉服少女草图,直接输出竹林舞剑的动态片段,好莱坞级光影质感拉满。 官网直达(2025开源免费版):skyreels.ai 🚀 核心功能:让普通人秒变AI导演… -
Skywork R1V:昆仑万维开源的多模态视觉思维链推理模型
给AI装上“火眼金睛”:Skywork R1V让机器真正看懂世界 👁️ 想象一下,AI不仅能识别图片中有只猫,还能推断出这只猫的品种、年龄,甚至从背景细节判断出拍摄地点和季节——这就是Skywork R1V带来的革命性突破。这个由昆仑万维开源的多模态视觉推理模型,正在让机器真正具备“看懂”世界的能力。 最新评测显示,R1V在复杂视觉推理任务上的表现已经超越了许多闭源商业模型,其中在数学视觉推理测试… -
-
TransGPT:国内首个综合交通大模型
核心定位与技术架构 TransGPT 是由北京交通大学联合中国计算机学会智慧交通分会等机构研发的开源交通大模型,基于70亿参数规模(TransGPT-7B),融合34.6万条行业文本与5.8万条对话数据进行训练,专注解决道路工程、运输管理、交通安全等领域的专业问题,支持学术与商业场景免费应用。 官网链接:https://github.com/DUOMO/TransGPT 核心功能详解 1. 交通管… -
LaVie:上海人工智能实验室开源的视频生成模型
小白秒变特效师?这款国产黑科技彻底杀疯了 还在为视频制作头疼?剪辑复杂、渲染太慢、特效不会做?试试清华系团队打造的LaVie——输入文字直接生成4K电影级视频,抖音百万播放量有手就能做! >> 官方免费体验:LaVie开源项目地址 2025新版LaVie强在哪? 打字出电影:输入“赛博朋克少女雨中战斗”,30秒生成10秒高清视频 照片变动画:上传静态图自动生成动态场景(如让风景照云流动… -
-
Hyper-SD:字节跳动推出的基于SD的图像生成框架
🚀 Hyper-SD:字节跳动的AI图像加速王,1步出大片! Hyper-SD是字节跳动2025年推出的AI图像生成核武器,专治“出图慢如龟”“显卡烧冒烟”的痛点!它用轨迹分段蒸馏+人类审美驯化黑科技,把Stable Diffusion繁琐的20步生成压榨到1-8步搞定——输入“赛博猫咪”,1秒输出带机械义耳的光污染神图,速度碾压传统模型3倍,电费省下80%! 项目主页:https://hyper… -
Hailuo 02:MiniMax最新推出的AI视频生成模型
🌊 Hailuo 02:一键生成高清视频的AI魔法师 Hailuo 02(海螺02)是上海人工智能企业MiniMax(稀宇科技)在2025年6月18日推出的新一代AI视频生成模型,被誉为"全球首个能生成体操等高度复杂场景的视频大模型"。它不仅能根据文字描述生成1080P高清视频,还能处理极端复杂的物理场景,让普通人也能轻松制作专业级视频内容,真正实现了"人人都是导演&… -
Seaweed-APT:AI视频生成模型,单步生成2秒钟的1280×720 24fps视频
🚀 字节跳动Seaweed-APT:单步生成720P高清视频的AI黑科技 用AI生成视频就像拍照一样简单?字节跳动推出的Seaweed-APT模型让这成为现实。这个突破性AI视频生成工具,只需单次计算就能产出1280×720分辨率、24帧/秒的2秒高清视频,彻底改变了传统逐帧生成的繁琐流程,让影视制作、游戏开发和广告创意领域的动态内容创作变得前所未有的高效。 官网:https://seaweed-… -
Step-Video-T2V:阶跃星辰推出的开源视频生成大模型
Step-Video-T2V是什么? 阶跃星辰与吉利联合开源的高性能视频生成模型,能根据文字描述直接生成540P高清视频。它擅长处理复杂动作(如舞蹈、打斗)、精准控制镜头运动(推拉摇移),并生成细腻的人物表情和皮肤质感,特别适合影视广告、游戏动画等创意领域。 官网体验:https://yuewen.cn/videos 🔥 核心功能亮点 高清长视频生成支持单次生成最长204帧视频(约8秒),分辨率达… -
Grok 3:马斯克旗下XAI发布的新一代AI大模型
🚀 马斯克的最新AI神器来了!Grok 3能否挑战ChatGPT? 听说过能解数学题、写代码、还能做科学研究的AI吗?埃隆·马斯克旗下的xAI团队刚刚发布了Grok 3,这个被称为"最强大脑"的新一代语言模型,正在科技圈掀起一阵风暴。它用了10万张英伟达H100显卡进行训练,总算力消耗高达2亿GPU小时,相当于一台普通电脑不停运转2万多年! 官网体验:https://grok.… -
火山方舟-一站式大模型服务平台
火山方舟官网地址 🔍 平台定位与核心能力 火山方舟是字节跳动火山引擎推出的一站式AI大模型服务平台,专注于提供模型训练、推理、评测、精调等全栈功能。平台通过安全沙箱、硬件加密和联邦学习技术保障模型与数据安全,并集成多家顶尖机构的大模型(如百川智能、复旦大学MOSS等),为企业提供开箱即用的AI基础设施。 ⚙️ 核心功能详解 模型广场与体验 多模型集成:预置多个优质大模型,支持实时体验语言、图像生成… -
SkySense-蚂蚁集团开发的多模态遥感基础模型
SkySense++全景解读 遥感大模型的最新进化 2025年8月,武汉大学与蚂蚁集团联合推出新一代语义增强遥感大模型SkySense++,相关成果发表于国际顶级期刊《自然·机器智能》。此次升级旨在攻克遥感技术在动态地球观测中的三大瓶颈:多模态数据融合效率低、下游任务依赖大量微调数据、语义信息挖掘不足。 新模型基于11个卫星载荷的2700万组多模态遥感影像,创新采用两阶段渐进式学习策略:第一阶段通… -
Mora-微软等推出的多智能体视频生成框架
微软开源Mora视频AI实测:多智能体框架支持文生视频/图生视频/视频编辑等6大任务,性能接近Sora且完全免费!附2025年与Runway/Pika/Stable Video全系竞品对比表,立即获取开源替代方案。 -
-
Open-Sora: Colossal-AI开源的类Sora架构视频生成模型
开源视频生成革命 Open-Sora是由潞晨科技推出的开源视频生成模型,采用扩散Transformer架构,支持文本生成高清视频。最新2.0版本以20万美元低成本训练11B参数模型,性能逼近OpenAI Sora,支持720p/24fps视频生成,显著降低行业技术门槛。 官网与开源地址:https://github.com/hpcaitech/Open-Sora 核心架构与技术突破 1. 高效多模… -
猎户星空大模型
🚀 猎户星空大模型是什么? 猎户星空大模型(Orion-14B)是专为企业级场景打造的多语言AI模型,2025年最新升级版已支持320K超长上下文和多模态输入。它用2.5万亿token训练出的140亿参数“小巨人”,在千元显卡(如RTX 3060)上每秒能处理50个汉字,被网友称为“平民企业AI神器”! https://www.orionstar.com/llm.html 🔧 六大模型全家桶,按需… -
Step1X-Edit:阶跃星辰推出的开源图像编辑大模型
告别修图烦恼!Step1X-Edit开源AI图像编辑工具,通过自然语言指令自动换背景、改材质、美颜,保持形象一致性。免费开源,提升创作效率,立即体验专业级编辑。 -
AniSora – Bilibili开源的动漫视频生成模型,一键生成多种风格动漫视频镜头
🎬 AniSora:一键生成动漫视频的AI魔法工具箱 AniSora是哔哩哔哩(B站)推出的开源动漫视频生成模型,专门为二次元内容创作量身定制。它能够根据文本描述或单张图片,一键生成多种风格的高质量动漫视频,包括番剧片段、国创动画、漫画改编、VTuber内容和鬼畜动画等。这个模型代表了2025年动漫视频生成领域的最新技术突破,让每个人都能轻松成为动画导演。 访问AniSora官方GitHub仓库,…