全部标签

AI大模型

最新最多浏览

MusicGen-简单可控的音乐生成模型

MusicGen：AI音乐生成工具，文字描述30秒生成原创音乐，免费开源适配视频配乐、游戏BGM场景，经研究验证生成质量优秀，满足专业级创作需求。
LivePhoto：图片生成动态视频模型

🎬 想让照片动起来？LivePhoto让静态图片秒变动态视频 LivePhoto是一款由阿里巴巴、香港大学和蚂蚁集团联合研发的图片转视频AI模型，基于先进的Stable Diffusion架构，创新性地融合了运动控制技术。它能够将静态图像转换为生动的动态视频，用户只需通过文字指令就能精准控制画面中元素的运动，让照片真正"活"起来。官网链接：https://xavierchen…
CogAgent-可免费商用的带 Agent 能力的视觉模型

🤖 CogAgent：GUI操作神器，看图秒懂界面！ CogAgent是清华大学与智谱AI联手打造的视觉界面通灵师，2025年全新进化版已化身跨平台操作外挂！它能像人类一样“看懂”电脑和手机界面——无论是微信复杂的设置菜单，还是《原神》游戏任务面板，截张图问它“怎么跳过这个动画？”，0.5秒就给你箭头标注点击位置，手残党打游戏/搞办公的救星！马上试玩在线Demo 💥 三招让效率原地起飞界面扫描…
Step1X-3D：阶跃星辰开源的3D大模型，支持生成高保真可控的3D内容

不会3D建模？用嘴「说」出一个3D模型！这款国产AI工具让创作像说话一样简单想为游戏设计一个角色却不会建模？需要产品原型但被复杂软件劝退？Step1X-3D的出现，彻底降低了3D创作的门槛。这是阶跃星辰在2025年推出的开源3D生成大模型，只需输入文字描述，几分钟内就能获得高质量3D模型，让每个人都能成为3D创作者。官网地址：https://github.com/stepfun-ai/Step…
协和·太初 – 北京协和医院和中科院联合推出的罕见病领域 AI 大模型，让生命不再被漏诊

罕见病诊断难？协和太初AI诊断系统：精准识别412种罕见病，准确率达92.7%，降低误诊率41%，缩短确诊周期2.8年。基层医院与患者必备，立即了解权威诊断方案。
Ovis-U1：阿里巴巴推出的统一的多模态理解与生成模型

🎨 Ovis-U1：能看懂会创作的AI多面手 Ovis-U1是阿里巴巴国际AI团队在2025年6月底推出的统一多模态大模型，虽然只有30亿参数，却同时具备了图像理解、文字生成图像和图像编辑三大核心能力。它就像一个真正的"AI全才"，既能准确描述图片内容，又能根据文字描述创作精美图像，还能按照指令精准修改现有图片，打破了传统AI模型"专精一门"的局限。访问O…
360智脑

360智脑是什么？360智脑是由中国科技公司360集团开发的人工智能平台，专注于推动人机协作创新，激发用户创造力。该平台整合了多种AI技术，提供开放接口和工具集，支持开发者和企业用户构建智能应用。 360智脑官网 360智脑可以做什么？平台提供一系列AI驱动工具： API开放平台：允许开发者接入AI能力，开发定制应用。 360鸿图：AI作图工具，辅助数据可视化和创意设计。 360AI搜索：智能搜索…
Codestral 25.01：Mistral AI最新推出的AI编程模型，编程速度提高2倍

Codestral 25.01：AI编程效率革新者 Codestral 25.01是Mistral AI推出的高性能代码生成模型，通过架构优化与分词器升级，实现代码生成速度较前代提升约2倍，并支持80+编程语言（如Python、SQL、Java），特别擅长代码填充（FIM）、测试生成与错误修正任务。官网链接：访问Codestral 25.01详情页核心功能 🚀 极速智能编程双倍效率提升：新型…
昆仑大模型：中国石油等联合发布的能源行业大模型

昆仑大模型是什么？专为能源行业打造的大型AI系统，由中国石油、中国移动、华为和科大讯飞联合研发。它像“能源行业超级大脑”，能处理地质勘探、设备管理、客户营销等专业任务，推动油田、炼化等场景的智能化升级。官网：https://www.kunlunai.com 🔧 核心能力拆解分层架构精准适配专业层：地震解释、测井分析等垂直模型，直接服务地质工程师（如自动解析地下岩层数据）行业层：油气知识库…
Gemma 3-谷歌发布的开源AI模型，小尺寸可商用

Gemma 3：谷歌开源多模态AI模型，支持128K长文本处理，适配PC/移动端，经LMArena评测STEM准确率提升35%，适合科研与多语言场景。
百度正式开源文心4.5系列模型

🚀 文心4.5重磅开源：百度10款大模型免费开放 2025年6月30日，百度正式宣布全面开源其文心一言4.5系列大模型，一次性释放了10款不同规格的模型，涵盖了从470亿参数到3亿参数的混合专家（MoE）模型，以及一个轻量级的3亿参数稠密模型。这次开源不仅包含了预训练权重，还提供了完整的推理代码，开发者可以轻松地在Hugging Face、GitHub以及飞桨星河社区获取这些资源，真正实现了“拿来…
LongCat-Flash-Chat：美团推出的开源大语言模型

美团开源LongCat大模型：5600亿参数MoE架构，支持128K上下文和智能体任务，免费商用。性能媲美Claude4，适合开发者和企业高效AI应用。立即体验开源模型优势。
Qwen VLo – 阿里推出的多模态统一理解与生成模型

🔍 Qwen VLo：从“看懂”图片到“创作”图片的AI多面手 Qwen VLo是阿里云通义千问团队在2025年6月推出的一款多模态生成式AI模型。它不仅能够像传统视觉模型那样“理解”图像内容，还能根据用户的自然语言指令进行高质量的图像生成与编辑，真正实现了从“感知”世界到“描绘”世界的跨越。这款模型支持图像生成、编辑、风格转换、视觉定位等多种任务，尤其擅长处理开放式的创作指令。你可以通过Qwe…
Goku：港大字节推出的AI视频生成模型

Goku视频生成引擎：跨模态生成广告电商视频，香港大学与字节跳动联合研发，VBench综合得分TOP2，适配PC端高效制作需求，支持4K影视级输出。
Ferret-UI：苹果公司推出的多模态AI模型

🔍 专攻手机界面的“视觉大脑” 苹果自研的多模态交互引擎Ferret-UI是苹果专为移动端打造的AI模型，能像人类一样“看懂”手机屏幕。它不仅能识别App图标、按钮等微小元素，还能根据用户指令自动操作界面——比如一句“订美团外卖”，它就能跳转应用完成下单，彻底告别手动点按。官网直达：https://arxiv.org/pdf/2404.05719.pdf开发者社区：https://discord…
百川大模型

百川AI Baichuan2-53B模型，中文基准测试超越LLaMA2，适配企业级AI集成场景，经顶尖团队研发，支持API开放赋能。
Gemini 2.5 Flash Image – 谷歌推出的AI图像生成和编辑模型

💫 Gemini 2.5 Flash：一句话生成图片的AI画师 Gemini 2.5 Flash是谷歌推出的AI图像生成与编辑工具，只需用文字描述就能创建和修改图片。无论是给照片换个背景，还是将脑海中的创意变成视觉现实，这个代号"Nano Banana"的AI模型都能快速搞定，让每个人都能轻松成为数字艺术家。在线体验：进入 Google AI Studio，选择图像编辑即可使…
Qwen2-Audio：阿里推出的开源音频语言大模型

Qwen2-Audio是什么？阿里通义开源的智能音频大模型，能直接“听懂”人声、音乐、环境音，并给出文字回答或分析报告。比如你说一段话，它能帮你总结重点；录一段雨声，它能判断是否伴随雷电。无需文字转写，跨语言交流也支持。 Qwen2-Audio团队在 Hugging Face 和 ModelScope 上开源了 Qwen2-Audio-7B 以及 Qwen2-Audio-7B-Instruct，…
k0-math：月之暗面推出的新一代数学推理模型

🧠 k0-math：月之暗面推出的数学AI，解题能力超乎想象 k0-math是月之暗面（Moonshot AI）公司推出的一个专攻数学推理的新一代AI模型。它不像普通的聊天AI，而是更像一个专门的“数学大脑”，背后用上了全新的强化学习和思维链推理技术，专门模拟人脑在解数学题时一步步思考、甚至解完还会“检查一遍”的反思过程。这就让它处理复杂数学难题的能力大幅提升，不管是考试题还是竞赛题，都能帮你搞定…
Step-Audio：阶跃星辰推出的开源语音交互模型

🔊 中文语音天花板，开口就是戏精吉利联手阶跃星辰打造的开源神器Step-Audio是国内首个能同时处理方言、歌声、情感语调的语音大模型。无论是给游戏角色配音，还是让智能客服说话带温度，它都能搞定，连东北话、四川话都学得惟妙惟肖，堪称声音界的“百变星君”。官网直达：Step-Audio开源主页 🎭 五大核心能力，开口就惊艳方言歌声全能王支持20+种方言（粤语、川渝话等）、中英日韩多语种切换，甚…
Gemini 3 – 谷歌推出的新一代多模态理解与推理AI模型

Gemini 3：谷歌的“全能型”AI助手来了谷歌最新推出了Gemini 3多模态AI模型，这款被誉为“全能型选手”的人工智能不仅能理解文字，还能看懂图片、视频，甚至能像真人一样进行复杂推理。它已经在多个专业测试中刷新记录，成为目前最强大的AI模型之一。无论是学习新知识、辅助编程，还是处理日常工作，Gemini 3都能提供智能帮助。官网链接：https://deepmind.google/mo…
Sora2：OpenAI 发布的新一代AI音视频生成模型

Sora 2震撼登场：打开AI视频创作的「ChatGPT时刻」 2025年9月30日，OpenAI正式推出了新一代AI音视频生成模型Sora 2，以及搭载该模型的同名社交应用Sora App。这次发布不仅是一次技术升级，更是AI视频领域的一次革命性突破。Sora 2首次实现了音视频同步生成，能一次性创建带有精准口型对话、背景音乐和环境声的完整短片，彻底结束了AI视频的"无声时代"…
探迹SalesGPT

🔥 探迹SalesGPT：重新定义智能销售的AI黑科技探迹SalesGPT是探迹科技推出的国内首个销售大模型SaaS产品，专为ToB销售场景打造。它通过AI大模型技术，彻底革新了企业从线索挖掘到客户管理的全流程，让复杂销售工作变得高效又简单！2025年8月，探迹科技还携手讯通展览，用AI赋能大湾区工博会，推动工业供需生态升级。官网直达：https://www.tungee.com/ 💡 202…
Octopus V2-斯坦福推出的可在设备上运行的大模型

端侧AI新标杆：Octopus v2模型深度解析 ——手机能跑的大模型，比GPT-4更快更准 ⚙️ 核心功能亮点 1. 性能碾压主流模型推理速度：在安卓设备上，单次函数调用响应仅需1.1-1.7秒，比云端GPT-4快168%，比“Llama7B+RAG方案”快36倍。准确率：函数调用精准度达99.5%，超越GPT-4和RAG方案31%。能效优化：上下文长度减少95%，相同电量下支持37倍更多…