全部标签

AI大模型

最新最多浏览

Ferret：苹果发布的多模态大语言模型

🚀 Ferret是什么？ Ferret是苹果憋了三年放出的“读图界福尔摩斯”——能揪着你的文字描述，在图片里精准定位任何形状的物体！不管是“左下角咬了一口的草莓”还是“窗帘后露出的猫尾巴”，它都能瞬间圈出来。2025年已塞进iOS 18.5系统，7B迷你版跑在iPhone上不卡顿，13B专业版在Mac Studio上玩转设计全流程！ GitHub直达：https://github.com/appl…
新壹视频大模型

🎬 剪视频剪到头疼？这款国产AI让你一句话生成专业视频还在为视频制作熬夜秃头吗？新壹视频大模型来拯救你了！作为国内首个专注视频内容生成的行业大模型，它深度融合文本理解与多模态处理技术，提供视频摘要生成、语义分析、脚本创作等核心能力。依托海量视频数据训练，精准适配短视频、直播、影视等垂直场景需求，让你用文字就能操控视频。官网链接：https://yizhenai.com/ai/index.htm…
MatterGen：微软推出的无机材料设计AI模型，辅助生成新材料

🔬 材料研发迎来"ChatGPT时刻"！AI三天搞定传统三年实验还在用"炒菜式"试错法研发新材料？微软研究院推出的MatterGen正在彻底改变游戏规则。这个基于扩散架构的生成式AI模型，能够根据目标属性直接生成新型无机材料结构，把传统需要3年的研发周期压缩到3天。从新能源电池到航空航天材料，它正在颠覆整个材料研发行业。官方博客：https://www.…
Skywork R1V：昆仑万维开源的多模态视觉思维链推理模型

给AI装上“火眼金睛”：Skywork R1V让机器真正看懂世界 👁️ 想象一下，AI不仅能识别图片中有只猫，还能推断出这只猫的品种、年龄，甚至从背景细节判断出拍摄地点和季节——这就是Skywork R1V带来的革命性突破。这个由昆仑万维开源的多模态视觉推理模型，正在让机器真正具备“看懂”世界的能力。最新评测显示，R1V在复杂视觉推理任务上的表现已经超越了许多闭源商业模型，其中在数学视觉推理测试…
讯飞星火开源大模型

讯飞星火开源大模型核心解析讯飞星火开源大模型（iFlytekSpark-13B）是科大讯飞推出的130亿参数开源大语言模型，基于全国产化算力平台“飞星一号”训练，提供基础模型（iFlytekSpark-13B-base）和精调对话模型（iFlytekSpark-13B-chat），支持文本生成、代码编写、数学推理等通用任务，深度优化中文场景及行业应用。访问官网：星火开源社区核心能力与评测表现…
华为-盘古AI大模型

华为盘古大模型系列已全面上线，包含自然语言处理（NLP）、计算机视觉（CV）及气象科学计算三大核心模型，推动AI技术在各行业落地应用。该系列通过千亿级参数规模与深度学习方法，显著提升中文理解、图像分析和气象预测能力。官网链接：华为云盘古大模型官网一、核心模型与技术亮点 NLP大模型能力：业界最接近人类中文理解水平的AI模型，支持文本生成、分类、问答等任务。创新点：采用Encoder-Deco…
阿里达摩院遥感 AI 大模型

遥感AI大模型AIE-SEG：PC端15万字长文本分析工具，适配多模态交互与全要素提取，经阿里达摩院认证，支持农业监测与灾害防治场景，实现零样本学习与高效变化检测。
FLUX.1 Kontext [dev]：Black Forest Labs开源的图像编辑模型

🎨 修图只会用PS？这款AI工具让你用文字就能精准编辑图片还在为修改图片中的某个细节而头疼吗？FLUX.1 Kontext [dev]正在重新定义图像编辑的方式！这款由Black Forest Labs研发的开源图像编辑模型，基于Flow Transformer架构实现精准的局部修改与多轮迭代。只需要用自然语言描述你想修改的内容，比如"给人物添加牛仔帽"或"将背景替…
混元图生视频模型 – 腾讯开源的AI视频生成模型

腾讯混元开源图生视频模型：输入静态图像生成5秒动态视频，支持多模态控制和主体一致性。适用于电商展示/数字人直播等场景，立即体验高效视频创作。
BangChat-创业邦推出的创投大模型

💡 BangChat：创投圈的"智能军师"，让创业找钱不再难！创业找投资像大海捞针？看不懂市场趋势？BangChat这款由创业邦打造的创投领域智能决策引擎，可能就是你的"创业外脑"。它基于16年创投数据积累，深度融合睿兽分析数据库与AI技术，能帮你智能问答、分析趋势、对接资源——从发现机会到落地执行，全程为你保驾护航。访问BangChat官网 ✨ 核心功…
VideoWorld：豆包等推出的开源视频生成模型，从无标签视频中学习知识

VideoWorld：豆包团队研发纯视觉模型，支持工业自动化与医疗培训，学习效率提升300%，开源生态完善，适配PC端长文本处理及移动端快速决策场景。
GitAgent-面壁智能联合清华大学发布的大模型智能体应用框架

🔍 GitAgent 框架：大模型智能体的工具箱革命 GitAgent 是由面壁智能与清华大学自然语言处理实验室联合研发的创新型框架，旨在解决大模型智能体在复杂任务中的工具扩展瓶颈。其核心突破在于赋予智能体自主从 GitHub 挖掘、配置并应用工具的能力，通过四阶段流程动态扩展工具箱，显著提升任务解决效率。 🔧 四阶段工具箱扩展流程智能搜索阶段系统基于用户需求，在 GitHub 海量仓库中精准筛…
OmniGen2 – 智源研究院推出的开源多模态生成模型

🎨 OmniGen2：能画会改的AI创意多面手 OmniGen2是北京智源人工智能研究院在2025年6月底推出的开源多模态生成模型，就像一个全能的AI艺术家，既能根据文字描述生成图像，也能精准编辑现有图片，甚至能理解图片内容并进行创意组合。它最大的特点是采用图文解耦架构，就像让AI学会了"分开思考"文字和图像，再巧妙地把它们融合在一起，这让它在处理复杂创意任务时更加得心应手。 …
MiniMax-M1：MiniMax开源的大规模混合架构推理模型

🚀 MiniMax-M1：全球首个开源混合架构推理模型，百万级上下文处理能力颠覆行业 MiniMax-M1是上海稀宇科技在2025年6月推出的全球首个开源大规模混合架构推理模型，这家伙可不是普通的AI模型，它专门擅长“动脑筋”解决复杂问题。最厉害的是它能处理高达100万token的超长文本，相当于一次性能读完好几本长篇小说的内容，并且还能生成8万token的深度推理结果，在数学推理、代码生成和长文…
dots.llm1：小红书开源的 MoE 架构大语言模型

✨ dots.llm1：小红书出品的高效AI语言模型 dots.llm1是小红书旗下人文智能实验室（hi lab）在2025年6月开源的一款大型语言模型。它采用了先进的MoE（混合专家）架构，虽然模型总参数量高达1420亿，但在实际推理时每次只激活140亿参数。这种设计让它既能保持强大的性能，又显著降低了计算成本和响应时间，是一个非常“聪明”且“经济”的AI模型。它基于11.2万亿高质量的真实…
CogVideoX-智谱推出的开源AI视频生成模型

🔍 CogVideoX是什么？ CogVideoX是智谱AI开发的视频生成大模型，只需输入文本或图片就能生成高质量视频。2025年8月开源的CogVideoX-2B是该系列首个模型，参数规模达20亿，与智谱的AI视频产品“清影”同源。它能根据最长226个英文token的提示词，生成6秒、720×480分辨率的视频，推理时显存消耗仅18GB（FP16精度），大幅降低了使用门槛。更强大的版本正在开发中…
Hyper-SD：字节跳动推出的基于SD的图像生成框架

🚀 Hyper-SD：字节跳动的AI图像加速王，1步出大片！ Hyper-SD是字节跳动2025年推出的AI图像生成核武器，专治“出图慢如龟”“显卡烧冒烟”的痛点！它用轨迹分段蒸馏+人类审美驯化黑科技，把Stable Diffusion繁琐的20步生成压榨到1-8步搞定——输入“赛博猫咪”，1秒输出带机械义耳的光污染神图，速度碾压传统模型3倍，电费省下80%！项目主页：https://hyper…
猎户星空大模型

🚀 猎户星空大模型是什么？猎户星空大模型（Orion-14B）是专为企业级场景打造的多语言AI模型，2025年最新升级版已支持320K超长上下文和多模态输入。它用2.5万亿token训练出的140亿参数“小巨人”，在千元显卡（如RTX 3060）上每秒能处理50个汉字，被网友称为“平民企业AI神器”！ https://www.orionstar.com/llm.html 🔧 六大模型全家桶，按需…
Lumiere-谷歌发布的AI视频生成模型

🎬 用文字生成流畅视频！谷歌Lumiere重新定义AI视频创作还在为视频制作的复杂流程头疼吗？谷歌推出的Lumiere空间-时间视频生成框架，只需输入一段文字描述，就能一次性生成全局连贯、动作流畅的5秒短视频。这项技术突破了传统AI视频逐帧合成导致的卡顿问题，让视频创作变得像打字一样简单，堪称AI视频生成领域的重大飞跃。项目官网：https://lumiere-video.github.io …
Matrix-Zero：昆仑万维发布的AI世界模型，支持单张图生成3D世界

平台定位与技术架构 Matrix-Zero是昆仑万维研发的下一代世界模型，包含两大核心技术模块：3D场景生成大模型和可交互视频生成大模型。通过AI将2D图像转化为可自由探索的3D空间，并支持用户实时交互操控视频生成过程，显著提升影视、游戏等领域的内容生产效率。官网链接：https://www.kunlun.com/matrix-zero 🧩 核心功能特性 🏗️ 3D场景生成大模型全局一致性：确…
Step-Video-T2V：阶跃星辰推出的开源视频生成大模型

Step-Video-T2V是什么？阶跃星辰与吉利联合开源的高性能视频生成模型，能根据文字描述直接生成540P高清视频。它擅长处理复杂动作（如舞蹈、打斗）、精准控制镜头运动（推拉摇移），并生成细腻的人物表情和皮肤质感，特别适合影视广告、游戏动画等创意领域。官网体验：https://yuewen.cn/videos 🔥 核心功能亮点高清长视频生成支持单次生成最长204帧视频（约8秒），分辨率达…
Mora-微软等推出的多智能体视频生成框架

微软开源Mora视频AI实测：多智能体框架支持文生视频/图生视频/视频编辑等6大任务，性能接近Sora且完全免费！附2025年与Runway/Pika/Stable Video全系竞品对比表，立即获取开源替代方案。
M2UGen-腾讯发布的多模态音乐生成模型

核心功能解析（2025最新版）文字→音乐输入“赛博朋克雨夜”等描述，20秒生成带鼓点、合成器的电子乐，支持MP3/WAV格式下载。图片→音乐上传风景照自动生成氛围音乐，山水图匹配古筝笛声，城市夜景触发电子律动。视频→配乐分析视频内容生成适配BGM，如战斗场景生成急促鼓点，浪漫片段生成钢琴旋律。智能音乐编辑一键移除人声、替换乐器（如吉他转琵琶）、调整节奏（80BPM→120BPM）。官网体…
Step1X-Edit：阶跃星辰推出的开源图像编辑大模型

告别修图烦恼！Step1X-Edit开源AI图像编辑工具，通过自然语言指令自动换背景、改材质、美颜，保持形象一致性。免费开源，提升创作效率，立即体验专业级编辑。