全部标签

AI大模型

最新最多浏览

混元DiT-腾讯最新开源的文生图AI模型

混元DiT：腾讯最新开源的文生图AI模型，让AI绘画更简单混元DiT是腾讯推出的开源文生图模型，基于扩散变换器架构开发，能够根据文字描述快速生成高质量图像。这个模型支持中英文提示词，在人物生成、场景构建等方面表现出色，为开发者和创作者提供了一个强大且易用的AI绘画工具。官网链接：https://hunyuan.tencent.com/ ✨ 核心功能亮点高质量图像生成：输入文字描述即可生成细节…
Qwen VLo – 阿里推出的多模态统一理解与生成模型

🔍 Qwen VLo：从“看懂”图片到“创作”图片的AI多面手 Qwen VLo是阿里云通义千问团队在2025年6月推出的一款多模态生成式AI模型。它不仅能够像传统视觉模型那样“理解”图像内容，还能根据用户的自然语言指令进行高质量的图像生成与编辑，真正实现了从“感知”世界到“描绘”世界的跨越。这款模型支持图像生成、编辑、风格转换、视觉定位等多种任务，尤其擅长处理开放式的创作指令。你可以通过Qwe…
新壹视频大模型

🎬 剪视频剪到头疼？这款国产AI让你一句话生成专业视频还在为视频制作熬夜秃头吗？新壹视频大模型来拯救你了！作为国内首个专注视频内容生成的行业大模型，它深度融合文本理解与多模态处理技术，提供视频摘要生成、语义分析、脚本创作等核心能力。依托海量视频数据训练，精准适配短视频、直播、影视等垂直场景需求，让你用文字就能操控视频。官网链接：https://yizhenai.com/ai/index.htm…
MiniMax-M1：MiniMax开源的大规模混合架构推理模型

🚀 MiniMax-M1：全球首个开源混合架构推理模型，百万级上下文处理能力颠覆行业 MiniMax-M1是上海稀宇科技在2025年6月推出的全球首个开源大规模混合架构推理模型，这家伙可不是普通的AI模型，它专门擅长“动脑筋”解决复杂问题。最厉害的是它能处理高达100万token的超长文本，相当于一次性能读完好几本长篇小说的内容，并且还能生成8万token的深度推理结果，在数学推理、代码生成和长文…
Lumiere-谷歌发布的AI视频生成模型

🎬 用文字生成流畅视频！谷歌Lumiere重新定义AI视频创作还在为视频制作的复杂流程头疼吗？谷歌推出的Lumiere空间-时间视频生成框架，只需输入一段文字描述，就能一次性生成全局连贯、动作流畅的5秒短视频。这项技术突破了传统AI视频逐帧合成导致的卡顿问题，让视频创作变得像打字一样简单，堪称AI视频生成领域的重大飞跃。项目官网：https://lumiere-video.github.io …
GitAgent-面壁智能联合清华大学发布的大模型智能体应用框架

🔍 GitAgent 框架：大模型智能体的工具箱革命 GitAgent 是由面壁智能与清华大学自然语言处理实验室联合研发的创新型框架，旨在解决大模型智能体在复杂任务中的工具扩展瓶颈。其核心突破在于赋予智能体自主从 GitHub 挖掘、配置并应用工具的能力，通过四阶段流程动态扩展工具箱，显著提升任务解决效率。 🔧 四阶段工具箱扩展流程智能搜索阶段系统基于用户需求，在 GitHub 海量仓库中精准筛…
灵医Bot：百度旗下医疗健康AI大模型

灵医Bot：百度推出的AI健康助手，能看病吗？灵医Bot是百度“灵医智惠”品牌推出的医疗健康大模型，它基于百度的文心大模型技术，并学习了全国800多家医院和4000多家基层医疗机构的真实诊疗经验。这款AI工具主要为医生和医疗机构提供临床辅助、患者服务和医疗管理等方面的智能支持，旨在提升医疗效率和质量，但它不能替代医生进行诊断。产品入口：https://01.baidu.com 🩺 核心功能：它…
Step-Video-T2V：阶跃星辰推出的开源视频生成大模型

Step-Video-T2V是什么？阶跃星辰与吉利联合开源的高性能视频生成模型，能根据文字描述直接生成540P高清视频。它擅长处理复杂动作（如舞蹈、打斗）、精准控制镜头运动（推拉摇移），并生成细腻的人物表情和皮肤质感，特别适合影视广告、游戏动画等创意领域。官网体验：https://yuewen.cn/videos 🔥 核心功能亮点高清长视频生成支持单次生成最长204帧视频（约8秒），分辨率达…
百度正式开源文心4.5系列模型

🚀 文心4.5重磅开源：百度10款大模型免费开放 2025年6月30日，百度正式宣布全面开源其文心一言4.5系列大模型，一次性释放了10款不同规格的模型，涵盖了从470亿参数到3亿参数的混合专家（MoE）模型，以及一个轻量级的3亿参数稠密模型。这次开源不仅包含了预训练权重，还提供了完整的推理代码，开发者可以轻松地在Hugging Face、GitHub以及飞桨星河社区获取这些资源，真正实现了“拿来…
彭博社-BloombergGPT金融大模型

金融分析效率低？BloombergGPT专为金融领域设计，基于彭博社40年数据训练，提供精准市场分析和风险预警。立即提升金融决策效率→
Ovis-U1：阿里巴巴推出的统一的多模态理解与生成模型

🎨 Ovis-U1：能看懂会创作的AI多面手 Ovis-U1是阿里巴巴国际AI团队在2025年6月底推出的统一多模态大模型，虽然只有30亿参数，却同时具备了图像理解、文字生成图像和图像编辑三大核心能力。它就像一个真正的"AI全才"，既能准确描述图片内容，又能根据文字描述创作精美图像，还能按照指令精准修改现有图片，打破了传统AI模型"专精一门"的局限。访问O…
昆仑大模型：中国石油等联合发布的能源行业大模型

昆仑大模型是什么？专为能源行业打造的大型AI系统，由中国石油、中国移动、华为和科大讯飞联合研发。它像“能源行业超级大脑”，能处理地质勘探、设备管理、客户营销等专业任务，推动油田、炼化等场景的智能化升级。官网：https://www.kunlunai.com 🔧 核心能力拆解分层架构精准适配专业层：地震解释、测井分析等垂直模型，直接服务地质工程师（如自动解析地下岩层数据）行业层：油气知识库…
Qwen2-Audio：阿里推出的开源音频语言大模型

Qwen2-Audio是什么？阿里通义开源的智能音频大模型，能直接“听懂”人声、音乐、环境音，并给出文字回答或分析报告。比如你说一段话，它能帮你总结重点；录一段雨声，它能判断是否伴随雷电。无需文字转写，跨语言交流也支持。 Qwen2-Audio团队在 Hugging Face 和 ModelScope 上开源了 Qwen2-Audio-7B 以及 Qwen2-Audio-7B-Instruct，…
Yi大模型-零一万物发布的开源大模型

🚀 Yi大模型：中英双语的AI全能手想让AI同时精通中文和英文？Yi大模型由李开复博士的零一万物打造，专为中英双语场景优化，理解力和逻辑推理都很强。零一万物官网：https://www.lingyiwanwu.com/yi Yi-34B相关资源：开源社区： Hugging Face ｜ ModelScope ｜GitHub Yi-6B相关资源：开源社区： Hugging Face ｜ Mo…
CoDi-多模态 AI 大模型

🌈 CoDi是什么？ CoDi（Composable Diffusion）是微软推出的跨模态生成模型黑科技，能像“AI魔术师”一样自由组合输入输出——你给它文字、图片、音频甚至视频中的任意组合，它就能生成同步对齐的多模态内容！比如输入一段海浪文字+钢琴曲片段，直接输出带海浪声的治愈系视频，彻底打破传统AI“单线程创作”的局限。官网直达：https://codi-gen.github.io/ ✨ …
k0-math：月之暗面推出的新一代数学推理模型

🧠 k0-math：月之暗面推出的数学AI，解题能力超乎想象 k0-math是月之暗面（Moonshot AI）公司推出的一个专攻数学推理的新一代AI模型。它不像普通的聊天AI，而是更像一个专门的“数学大脑”，背后用上了全新的强化学习和思维链推理技术，专门模拟人脑在解数学题时一步步思考、甚至解完还会“检查一遍”的反思过程。这就让它处理复杂数学难题的能力大幅提升，不管是考试题还是竞赛题，都能帮你搞定…
商汤商量拟人大模型

🤖 商量拟人大模型是什么？商汤科技打造的AI角色对话天花板，堪称“虚拟人造梦工厂”！只需简单设定，它就能生成活灵活现的虚拟角色——从高冷霸总到话痨闺蜜，从仙侠师尊到赛博侦探，人设台词全拿捏。2025年升级多人群聊剧情推演和跨平台分身同步功能，让纸片人真正“活”过来陪你聊天搞事～官网直达：https://character.sensetime.com/ 🛠️ 2025核心功能：从捏人到飙戏一条龙…
百川大模型

百川AI Baichuan2-53B模型，中文基准测试超越LLaMA2，适配企业级AI集成场景，经顶尖团队研发，支持API开放赋能。
GLM-Realtime：智谱最新推出的端到端AI模型，支持2分钟记忆和清唱功能

GLM-Realtime：智谱AI端到端多模态模型，支持清唱与毫秒级响应，适配智能硬件/教育/医疗场景，经评测响应速度领先，提升实时交互体验。
华知大模型-同方知网携手华为推出的中华知识大模型

华知大模型V5.0：专业领域知识处理工具，适配科研政务教育场景，经国家级安全认证，多模态学术图像解析准确率超GPT-4 Turbo 15%，支持长文本分析与私有化部署。
Ferret-UI：苹果公司推出的多模态AI模型

🔍 专攻手机界面的“视觉大脑” 苹果自研的多模态交互引擎Ferret-UI是苹果专为移动端打造的AI模型，能像人类一样“看懂”手机屏幕。它不仅能识别App图标、按钮等微小元素，还能根据用户指令自动操作界面——比如一句“订美团外卖”，它就能跳转应用完成下单，彻底告别手动点按。官网直达：https://arxiv.org/pdf/2404.05719.pdf开发者社区：https://discord…
Open-Sora: Colossal-AI开源的类Sora架构视频生成模型

开源视频生成革命 Open-Sora是由潞晨科技推出的开源视频生成模型，采用扩散Transformer架构，支持文本生成高清视频。最新2.0版本以20万美元低成本训练11B参数模型，性能逼近OpenAI Sora，支持720p/24fps视频生成，显著降低行业技术门槛。官网与开源地址：https://github.com/hpcaitech/Open-Sora 核心架构与技术突破 1. 高效多模…
协和·太初 – 北京协和医院和中科院联合推出的罕见病领域 AI 大模型，让生命不再被漏诊

罕见病诊断难？协和太初AI诊断系统：精准识别412种罕见病，准确率达92.7%，降低误诊率41%，缩短确诊周期2.8年。基层医院与患者必备，立即了解权威诊断方案。
Hyper-SD：字节跳动推出的基于SD的图像生成框架

🚀 Hyper-SD：字节跳动的AI图像加速王，1步出大片！ Hyper-SD是字节跳动2025年推出的AI图像生成核武器，专治“出图慢如龟”“显卡烧冒烟”的痛点！它用轨迹分段蒸馏+人类审美驯化黑科技，把Stable Diffusion繁琐的20步生成压榨到1-8步搞定——输入“赛博猫咪”，1秒输出带机械义耳的光污染神图，速度碾压传统模型3倍，电费省下80%！项目主页：https://hyper…