全部标签

AI大模型

最新最多浏览

Mora-微软等推出的多智能体视频生成框架

微软开源Mora视频AI实测：多智能体框架支持文生视频/图生视频/视频编辑等6大任务，性能接近Sora且完全免费！附2025年与Runway/Pika/Stable Video全系竞品对比表，立即获取开源替代方案。
Step-Audio：阶跃星辰推出的开源语音交互模型

🔊 中文语音天花板，开口就是戏精吉利联手阶跃星辰打造的开源神器Step-Audio是国内首个能同时处理方言、歌声、情感语调的语音大模型。无论是给游戏角色配音，还是让智能客服说话带温度，它都能搞定，连东北话、四川话都学得惟妙惟肖，堪称声音界的“百变星君”。官网直达：Step-Audio开源主页 🎭 五大核心能力，开口就惊艳方言歌声全能王支持20+种方言（粤语、川渝话等）、中英日韩多语种切换，甚…
CogAgent-可免费商用的带 Agent 能力的视觉模型

🤖 CogAgent：GUI操作神器，看图秒懂界面！ CogAgent是清华大学与智谱AI联手打造的视觉界面通灵师，2025年全新进化版已化身跨平台操作外挂！它能像人类一样“看懂”电脑和手机界面——无论是微信复杂的设置菜单，还是《原神》游戏任务面板，截张图问它“怎么跳过这个动画？”，0.5秒就给你箭头标注点击位置，手残党打游戏/搞办公的救星！马上试玩在线Demo 💥 三招让效率原地起飞界面扫描…
BangChat-创业邦推出的创投大模型

💡 BangChat：创投圈的"智能军师"，让创业找钱不再难！创业找投资像大海捞针？看不懂市场趋势？BangChat这款由创业邦打造的创投领域智能决策引擎，可能就是你的"创业外脑"。它基于16年创投数据积累，深度融合睿兽分析数据库与AI技术，能帮你智能问答、分析趋势、对接资源——从发现机会到落地执行，全程为你保驾护航。访问BangChat官网 ✨ 核心功…
MusicGen-简单可控的音乐生成模型

MusicGen：AI音乐生成工具，文字描述30秒生成原创音乐，免费开源适配视频配乐、游戏BGM场景，经研究验证生成质量优秀，满足专业级创作需求。
M2UGen-腾讯发布的多模态音乐生成模型

核心功能解析（2025最新版）文字→音乐输入“赛博朋克雨夜”等描述，20秒生成带鼓点、合成器的电子乐，支持MP3/WAV格式下载。图片→音乐上传风景照自动生成氛围音乐，山水图匹配古筝笛声，城市夜景触发电子律动。视频→配乐分析视频内容生成适配BGM，如战斗场景生成急促鼓点，浪漫片段生成钢琴旋律。智能音乐编辑一键移除人声、替换乐器（如吉他转琵琶）、调整节奏（80BPM→120BPM）。官网体…
Skywork R1V：昆仑万维开源的多模态视觉思维链推理模型

给AI装上“火眼金睛”：Skywork R1V让机器真正看懂世界 👁️ 想象一下，AI不仅能识别图片中有只猫，还能推断出这只猫的品种、年龄，甚至从背景细节判断出拍摄地点和季节——这就是Skywork R1V带来的革命性突破。这个由昆仑万维开源的多模态视觉推理模型，正在让机器真正具备“看懂”世界的能力。最新评测显示，R1V在复杂视觉推理任务上的表现已经超越了许多闭源商业模型，其中在数学视觉推理测试…
Goku：港大字节推出的AI视频生成模型

Goku视频生成引擎：跨模态生成广告电商视频，香港大学与字节跳动联合研发，VBench综合得分TOP2，适配PC端高效制作需求，支持4K影视级输出。
Gemma 3-谷歌发布的开源AI模型，小尺寸可商用

Gemma 3：谷歌开源多模态AI模型，支持128K长文本处理，适配PC/移动端，经LMArena评测STEM准确率提升35%，适合科研与多语言场景。
MovieLLM-通过AI生成电影来增强长视频理解的框架

MovieLLM是什么？复旦与腾讯联合研发的AI电影引擎，专攻复杂剧情视频理解。它能生成风格统一的长视频，解决影视行业高质量训练数据稀缺的痛点。2025年开源版本已支持8K超清生成。 https://movie-llm.fudan.edu.cn 核心技术解析 1. 剧本智能生成输入题材关键词（如“赛博朋克爱情”），GPT-4自动输出分镜剧本+角色对话，含场景细节描述与情绪标注。 2. 画风锁定…
Seaweed-APT：AI视频生成模型，单步生成2秒钟的1280×720 24fps视频

🚀 字节跳动Seaweed-APT：单步生成720P高清视频的AI黑科技用AI生成视频就像拍照一样简单？字节跳动推出的Seaweed-APT模型让这成为现实。这个突破性AI视频生成工具，只需单次计算就能产出1280×720分辨率、24帧/秒的2秒高清视频，彻底改变了传统逐帧生成的繁琐流程，让影视制作、游戏开发和广告创意领域的动态内容创作变得前所未有的高效。官网：https://seaweed-…
Step1X-Edit：阶跃星辰推出的开源图像编辑大模型

告别修图烦恼！Step1X-Edit开源AI图像编辑工具，通过自然语言指令自动换背景、改材质、美颜，保持形象一致性。免费开源，提升创作效率，立即体验专业级编辑。
dots.llm1：小红书开源的 MoE 架构大语言模型

✨ dots.llm1：小红书出品的高效AI语言模型 dots.llm1是小红书旗下人文智能实验室（hi lab）在2025年6月开源的一款大型语言模型。它采用了先进的MoE（混合专家）架构，虽然模型总参数量高达1420亿，但在实际推理时每次只激活140亿参数。这种设计让它既能保持强大的性能，又显著降低了计算成本和响应时间，是一个非常“聪明”且“经济”的AI模型。它基于11.2万亿高质量的真实…
360智脑

360智脑是什么？360智脑是由中国科技公司360集团开发的人工智能平台，专注于推动人机协作创新，激发用户创造力。该平台整合了多种AI技术，提供开放接口和工具集，支持开发者和企业用户构建智能应用。 360智脑官网 360智脑可以做什么？平台提供一系列AI驱动工具： API开放平台：允许开发者接入AI能力，开发定制应用。 360鸿图：AI作图工具，辅助数据可视化和创意设计。 360AI搜索：智能搜索…
华为-盘古AI大模型

华为盘古大模型系列已全面上线，包含自然语言处理（NLP）、计算机视觉（CV）及气象科学计算三大核心模型，推动AI技术在各行业落地应用。该系列通过千亿级参数规模与深度学习方法，显著提升中文理解、图像分析和气象预测能力。官网链接：华为云盘古大模型官网一、核心模型与技术亮点 NLP大模型能力：业界最接近人类中文理解水平的AI模型，支持文本生成、分类、问答等任务。创新点：采用Encoder-Deco…
Octopus V2-斯坦福推出的可在设备上运行的大模型

端侧AI新标杆：Octopus v2模型深度解析 ——手机能跑的大模型，比GPT-4更快更准 ⚙️ 核心功能亮点 1. 性能碾压主流模型推理速度：在安卓设备上，单次函数调用响应仅需1.1-1.7秒，比云端GPT-4快168%，比“Llama7B+RAG方案”快36倍。准确率：函数调用精准度达99.5%，超越GPT-4和RAG方案31%。能效优化：上下文长度减少95%，相同电量下支持37倍更多…
LaVie：上海人工智能实验室开源的视频生成模型

小白秒变特效师？这款国产黑科技彻底杀疯了还在为视频制作头疼？剪辑复杂、渲染太慢、特效不会做？试试清华系团队打造的LaVie——输入文字直接生成4K电影级视频，抖音百万播放量有手就能做！ >> 官方免费体验：LaVie开源项目地址 2025新版LaVie强在哪？打字出电影：输入“赛博朋克少女雨中战斗”，30秒生成10秒高清视频照片变动画：上传静态图自动生成动态场景（如让风景照云流动…
通义千问-阿里云推出的AI大语言模型

🤖 通义千问是什么？通义千问是阿里云打造的超能AI助手，2025年已升级至Qwen1.5-72B千亿级大模型，不仅能聊天、写文案、解题辅导，还能处理200万字长文档、自动生成代码！最牛的是——它刚刚宣布720亿参数模型免费开源，企业商用零成本，连小学生都能用它搞定奥数题。官网链接：通义千问官网入口：https://qianwen.aliyun.com 🚀 通义千问能做什么？ 💡 创意爆炸机写情…
Gemini 3 – 谷歌推出的新一代多模态理解与推理AI模型

Gemini 3：谷歌的“全能型”AI助手来了谷歌最新推出了Gemini 3多模态AI模型，这款被誉为“全能型选手”的人工智能不仅能理解文字，还能看懂图片、视频，甚至能像真人一样进行复杂推理。它已经在多个专业测试中刷新记录，成为目前最强大的AI模型之一。无论是学习新知识、辅助编程，还是处理日常工作，Gemini 3都能提供智能帮助。官网链接：https://deepmind.google/mo…
探迹SalesGPT

🔥 探迹SalesGPT：重新定义智能销售的AI黑科技探迹SalesGPT是探迹科技推出的国内首个销售大模型SaaS产品，专为ToB销售场景打造。它通过AI大模型技术，彻底革新了企业从线索挖掘到客户管理的全流程，让复杂销售工作变得高效又简单！2025年8月，探迹科技还携手讯通展览，用AI赋能大湾区工博会，推动工业供需生态升级。官网直达：https://www.tungee.com/ 💡 202…
B站推出bilibili index大模型，为“搜索AI助手”功能提供技术支持

🔥 B站放大招！bilibili index大模型+搜索AI助手内测，Z世代狂欢新玩具哔哩哔哩重磅推出自研bilibili index大模型，首秀搭载「搜索AI助手」功能，专治“关键词搜不到”“弹幕问不出”的痛点！现在搜“如何用Pr剪出电影感vlog？”，AI直接甩你分镜头脚本+调色参数+对应宝藏UP主教程，追新番查攻略效率翻倍～点我抢内测资格 💡 三招解锁次世代搜索弹幕级精准：输入“?…
LongCat-Flash-Chat：美团推出的开源大语言模型

美团开源LongCat大模型：5600亿参数MoE架构，支持128K上下文和智能体任务，免费商用。性能媲美Claude4，适合开发者和企业高效AI应用。立即体验开源模型优势。
Gemini 2.5 Flash Image – 谷歌推出的AI图像生成和编辑模型

💫 Gemini 2.5 Flash：一句话生成图片的AI画师 Gemini 2.5 Flash是谷歌推出的AI图像生成与编辑工具，只需用文字描述就能创建和修改图片。无论是给照片换个背景，还是将脑海中的创意变成视觉现实，这个代号"Nano Banana"的AI模型都能快速搞定，让每个人都能轻松成为数字艺术家。在线体验：进入 Google AI Studio，选择图像编辑即可使…
Sora2：OpenAI 发布的新一代AI音视频生成模型

Sora 2震撼登场：打开AI视频创作的「ChatGPT时刻」 2025年9月30日，OpenAI正式推出了新一代AI音视频生成模型Sora 2，以及搭载该模型的同名社交应用Sora App。这次发布不仅是一次技术升级，更是AI视频领域的一次革命性突破。Sora 2首次实现了音视频同步生成，能一次性创建带有精准口型对话、背景音乐和环境声的完整短片，彻底结束了AI视频的"无声时代"…