-
-
LivePhoto:图片生成动态视频模型
🎬 想让照片动起来?LivePhoto让静态图片秒变动态视频 LivePhoto是一款由阿里巴巴、香港大学和蚂蚁集团联合研发的图片转视频AI模型,基于先进的Stable Diffusion架构,创新性地融合了运动控制技术。它能够将静态图像转换为生动的动态视频,用户只需通过文字指令就能精准控制画面中元素的运动,让照片真正"活"起来。 官网链接:https://xavierchen… -
CogAgent-可免费商用的带 Agent 能力的视觉模型
🤖 CogAgent:GUI操作神器,看图秒懂界面! CogAgent是清华大学与智谱AI联手打造的视觉界面通灵师,2025年全新进化版已化身跨平台操作外挂!它能像人类一样“看懂”电脑和手机界面——无论是微信复杂的设置菜单,还是《原神》游戏任务面板,截张图问它“怎么跳过这个动画?”,0.5秒就给你箭头标注点击位置,手残党打游戏/搞办公的救星! 马上试玩在线Demo 💥 三招让效率原地起飞 界面扫描… -
Step1X-3D:阶跃星辰开源的3D大模型,支持生成高保真可控的3D内容
不会3D建模?用嘴「说」出一个3D模型!这款国产AI工具让创作像说话一样简单 想为游戏设计一个角色却不会建模?需要产品原型但被复杂软件劝退?Step1X-3D的出现,彻底降低了3D创作的门槛。这是阶跃星辰在2025年推出的开源3D生成大模型,只需输入文字描述,几分钟内就能获得高质量3D模型,让每个人都能成为3D创作者。 官网地址:https://github.com/stepfun-ai/Step… -
协和·太初 – 北京协和医院和中科院联合推出的罕见病领域 AI 大模型,让生命不再被漏诊
罕见病诊断难?协和太初AI诊断系统:精准识别412种罕见病,准确率达92.7%,降低误诊率41%,缩短确诊周期2.8年。基层医院与患者必备,立即了解权威诊断方案。 -
Ovis-U1:阿里巴巴推出的统一的多模态理解与生成模型
🎨 Ovis-U1:能看懂会创作的AI多面手 Ovis-U1是阿里巴巴国际AI团队在2025年6月底推出的统一多模态大模型,虽然只有30亿参数,却同时具备了图像理解、文字生成图像和图像编辑三大核心能力。它就像一个真正的"AI全才",既能准确描述图片内容,又能根据文字描述创作精美图像,还能按照指令精准修改现有图片,打破了传统AI模型"专精一门"的局限。 访问O… -
360智脑
360智脑是什么?360智脑是由中国科技公司360集团开发的人工智能平台,专注于推动人机协作创新,激发用户创造力。该平台整合了多种AI技术,提供开放接口和工具集,支持开发者和企业用户构建智能应用。 360智脑官网 360智脑可以做什么?平台提供一系列AI驱动工具: API开放平台:允许开发者接入AI能力,开发定制应用。 360鸿图:AI作图工具,辅助数据可视化和创意设计。 360AI搜索:智能搜索… -
Codestral 25.01:Mistral AI最新推出的AI编程模型,编程速度提高2倍
Codestral 25.01:AI编程效率革新者 Codestral 25.01是Mistral AI推出的高性能代码生成模型,通过架构优化与分词器升级,实现代码生成速度较前代提升约2倍,并支持80+编程语言(如Python、SQL、Java),特别擅长代码填充(FIM)、测试生成与错误修正任务。 官网链接:访问Codestral 25.01详情页 核心功能 🚀 极速智能编程 双倍效率提升:新型… -
昆仑大模型:中国石油等联合发布的能源行业大模型
昆仑大模型是什么? 专为能源行业打造的大型AI系统,由中国石油、中国移动、华为和科大讯飞联合研发。它像“能源行业超级大脑”,能处理地质勘探、设备管理、客户营销等专业任务,推动油田、炼化等场景的智能化升级。 官网:https://www.kunlunai.com 🔧 核心能力拆解 分层架构精准适配 专业层:地震解释、测井分析等垂直模型,直接服务地质工程师(如自动解析地下岩层数据) 行业层:油气知识库… -
Gemma 3-谷歌发布的开源AI模型,小尺寸可商用
Gemma 3:谷歌开源多模态AI模型,支持128K长文本处理,适配PC/移动端,经LMArena评测STEM准确率提升35%,适合科研与多语言场景。 -
百度正式开源文心4.5系列模型
🚀 文心4.5重磅开源:百度10款大模型免费开放 2025年6月30日,百度正式宣布全面开源其文心一言4.5系列大模型,一次性释放了10款不同规格的模型,涵盖了从470亿参数到3亿参数的混合专家(MoE)模型,以及一个轻量级的3亿参数稠密模型。这次开源不仅包含了预训练权重,还提供了完整的推理代码,开发者可以轻松地在Hugging Face、GitHub以及飞桨星河社区获取这些资源,真正实现了“拿来… -
LongCat-Flash-Chat:美团推出的开源大语言模型
美团开源LongCat大模型:5600亿参数MoE架构,支持128K上下文和智能体任务,免费商用。性能媲美Claude4,适合开发者和企业高效AI应用。立即体验开源模型优势。 -
Qwen VLo – 阿里推出的多模态统一理解与生成模型
🔍 Qwen VLo:从“看懂”图片到“创作”图片的AI多面手 Qwen VLo是阿里云通义千问团队在2025年6月推出的一款多模态生成式AI模型。它不仅能够像传统视觉模型那样“理解”图像内容,还能根据用户的自然语言指令进行高质量的图像生成与编辑,真正实现了从“感知”世界到“描绘”世界的跨越。这款模型支持图像生成、编辑、风格转换、视觉定位等多种任务,尤其擅长处理开放式的创作指令。 你可以通过Qwe… -
-
Ferret-UI:苹果公司推出的多模态AI模型
🔍 专攻手机界面的“视觉大脑” 苹果自研的多模态交互引擎Ferret-UI是苹果专为移动端打造的AI模型,能像人类一样“看懂”手机屏幕。它不仅能识别App图标、按钮等微小元素,还能根据用户指令自动操作界面——比如一句“订美团外卖”,它就能跳转应用完成下单,彻底告别手动点按。 官网直达:https://arxiv.org/pdf/2404.05719.pdf开发者社区:https://discord… -
-
Gemini 2.5 Flash Image – 谷歌推出的AI图像生成和编辑模型
💫 Gemini 2.5 Flash:一句话生成图片的AI画师 Gemini 2.5 Flash是谷歌推出的AI图像生成与编辑工具,只需用文字描述就能创建和修改图片。无论是给照片换个背景,还是将脑海中的创意变成视觉现实,这个代号"Nano Banana"的AI模型都能快速搞定,让每个人都能轻松成为数字艺术家。 在线体验:进入 Google AI Studio,选择图像编辑即可使… -
Qwen2-Audio:阿里推出的开源音频语言大模型
Qwen2-Audio是什么? 阿里通义开源的智能音频大模型,能直接“听懂”人声、音乐、环境音,并给出文字回答或分析报告。比如你说一段话,它能帮你总结重点;录一段雨声,它能判断是否伴随雷电。无需文字转写,跨语言交流也支持。 Qwen2-Audio团队在 Hugging Face 和 ModelScope 上开源了 Qwen2-Audio-7B 以及 Qwen2-Audio-7B-Instruct,… -
k0-math:月之暗面推出的新一代数学推理模型
🧠 k0-math:月之暗面推出的数学AI,解题能力超乎想象 k0-math是月之暗面(Moonshot AI)公司推出的一个专攻数学推理的新一代AI模型。它不像普通的聊天AI,而是更像一个专门的“数学大脑”,背后用上了全新的强化学习和思维链推理技术,专门模拟人脑在解数学题时一步步思考、甚至解完还会“检查一遍”的反思过程。这就让它处理复杂数学难题的能力大幅提升,不管是考试题还是竞赛题,都能帮你搞定… -
Step-Audio:阶跃星辰推出的开源语音交互模型
🔊 中文语音天花板,开口就是戏精 吉利联手阶跃星辰打造的开源神器Step-Audio是国内首个能同时处理方言、歌声、情感语调的语音大模型。无论是给游戏角色配音,还是让智能客服说话带温度,它都能搞定,连东北话、四川话都学得惟妙惟肖,堪称声音界的“百变星君”。 官网直达:Step-Audio开源主页 🎭 五大核心能力,开口就惊艳 方言歌声全能王支持20+种方言(粤语、川渝话等)、中英日韩多语种切换,甚… -
Gemini 3 – 谷歌推出的新一代多模态理解与推理AI模型
Gemini 3:谷歌的“全能型”AI助手来了 谷歌最新推出了Gemini 3多模态AI模型,这款被誉为“全能型选手”的人工智能不仅能理解文字,还能看懂图片、视频,甚至能像真人一样进行复杂推理。它已经在多个专业测试中刷新记录,成为目前最强大的AI模型之一。无论是学习新知识、辅助编程,还是处理日常工作,Gemini 3都能提供智能帮助。 官网链接:https://deepmind.google/mo… -
Sora2:OpenAI 发布的新一代AI音视频生成模型
Sora 2震撼登场:打开AI视频创作的「ChatGPT时刻」 2025年9月30日,OpenAI正式推出了新一代AI音视频生成模型Sora 2,以及搭载该模型的同名社交应用Sora App。这次发布不仅是一次技术升级,更是AI视频领域的一次革命性突破。Sora 2首次实现了音视频同步生成,能一次性创建带有精准口型对话、背景音乐和环境声的完整短片,彻底结束了AI视频的"无声时代"… -
探迹SalesGPT
🔥 探迹SalesGPT:重新定义智能销售的AI黑科技 探迹SalesGPT是探迹科技推出的国内首个销售大模型SaaS产品,专为ToB销售场景打造。它通过AI大模型技术,彻底革新了企业从线索挖掘到客户管理的全流程,让复杂销售工作变得高效又简单!2025年8月,探迹科技还携手讯通展览,用AI赋能大湾区工博会,推动工业供需生态升级。 官网直达:https://www.tungee.com/ 💡 202… -
Octopus V2-斯坦福推出的可在设备上运行的大模型
端侧AI新标杆:Octopus v2模型深度解析 ——手机能跑的大模型,比GPT-4更快更准 ⚙️ 核心功能亮点 1. 性能碾压主流模型 推理速度:在安卓设备上,单次函数调用响应仅需1.1-1.7秒,比云端GPT-4快168%,比“Llama7B+RAG方案”快36倍。 准确率:函数调用精准度达99.5%,超越GPT-4和RAG方案31%。 能效优化:上下文长度减少95%,相同电量下支持37倍更多…
























