-
九章大模型MathGPT:好未来发布的国内首个数学大模型
核心定位 MathGPT是由好未来教育集团自主研发的数学领域千亿级大模型,专注于数学解题与讲题算法,服务于全球数学爱好者、学生及科研机构。作为国内首个数学垂直大模型,它通过对话式交互提供题目解答、思路分析和举一反三的指导,覆盖小学至高中全阶段数学题型(如计算题、应用题、代数题等),并支持中英文双语体验。 官网访问:https://www.mathgpt.com 核心功能 智能解题与讲题 文字/图片… -
通义万相Wan2.2- 阿里推出的开源视频生成大模型
🎬 视频制作迎来"自动驾驶"时代!这个AI模型让好莱坞级特效触手可及 做视频最头疼什么?特效制作绝对排第一。阿里推出的通义万相Wan2.2正在改变这个现状,这个开源视频生成大模型能让普通人也能做出专业级视频。只需要输入文字或图片,它就能生成物理效果逼真、电影质感十足的视频内容,最关键的是完全开源免费,让每个人都能享受视频创作的乐趣。 在线体验:https://tongyi.al… -
中科院自动化研究所-紫东太初大模型
跨模态通用人工智能平台 紫东太初是由中国科学院自动化研究所研发的全栈国产化多模态大模型,基于昇腾AI处理器与MindSpore框架构建,支持文本、图像、语音、视频、3D点云及传感信号的统一表征与联合学习,推动通用人工智能技术发展。 在线体验平台 技术突破 全球首个三模态融合架构 跨模态统一表示:通过语义关联技术实现视觉-文本-语音三模态数据深度融合 六模态扩展能力:新增视频理解、3D点云解析及物联… -
CogAgent-可免费商用的带 Agent 能力的视觉模型
🤖 CogAgent:GUI操作神器,看图秒懂界面! CogAgent是清华大学与智谱AI联手打造的视觉界面通灵师,2025年全新进化版已化身跨平台操作外挂!它能像人类一样“看懂”电脑和手机界面——无论是微信复杂的设置菜单,还是《原神》游戏任务面板,截张图问它“怎么跳过这个动画?”,0.5秒就给你箭头标注点击位置,手残党打游戏/搞办公的救星! 马上试玩在线Demo 💥 三招让效率原地起飞 界面扫描… -
京东言犀大模型
京东言犀大模型:产业智能化的新引擎 京东言犀大模型深度融合供应链与产业场景,专为零售、物流、金融等高知识密度领域打造。2025年升级至720B参数规模,新增多模态理解能力,强化对长文本、复杂逻辑任务的支撑,成为国内首个通过工信部“可信AI”认证的产业大模型。 官网直达:https://yanxi.jd.com 一、技术架构:全栈工具链支撑 1. 数据融合引擎 供应链知识增强:30%独家数据来自京东… -
Seed-Music:字节跳动推出的AI音乐大模型,支持一键生成高质量歌曲
🎵 Seed-Music:会写歌的AI音乐伙伴,让每个人都是作曲家 想不想让你写的词变成真正的歌曲?Seed-Music就是这样一个神奇的AI音乐生成工具,由字节跳动豆包大模型团队打造。它能把你的歌词、灵感甚至随便哼唱的旋律,变成完整的音乐作品,无论你是音乐小白还是专业制作人,都能用它玩转音乐创作。 官网体验:https://seed.bytedance.com/zh/special/seed-m… -
Ovis-U1:阿里巴巴推出的统一的多模态理解与生成模型
🎨 Ovis-U1:能看懂会创作的AI多面手 Ovis-U1是阿里巴巴国际AI团队在2025年6月底推出的统一多模态大模型,虽然只有30亿参数,却同时具备了图像理解、文字生成图像和图像编辑三大核心能力。它就像一个真正的"AI全才",既能准确描述图片内容,又能根据文字描述创作精美图像,还能按照指令精准修改现有图片,打破了传统AI模型"专精一门"的局限。 访问O… -
灵医Bot:百度旗下医疗健康AI大模型
智慧医疗大模型平台 灵医Bot是百度智慧医疗品牌"灵医智惠"推出的医疗健康大模型,基于文心大模型技术,深度融合全国800余家医院与4000多家基层机构的诊疗经验,为医疗行业提供精准高效的AI解决方案。 https://01.baidu.com 🏥 核心功能全景 1. 临床辅助决策 智能病历生成:语音转写问诊过程→自动生成结构化电子病历(准确率98.7%) 辅助诊断支持:输入症状… -
Qwen VLo – 阿里推出的多模态统一理解与生成模型
🔍 Qwen VLo:从“看懂”图片到“创作”图片的AI多面手 Qwen VLo是阿里云通义千问团队在2025年6月推出的一款多模态生成式AI模型。它不仅能够像传统视觉模型那样“理解”图像内容,还能根据用户的自然语言指令进行高质量的图像生成与编辑,真正实现了从“感知”世界到“描绘”世界的跨越。这款模型支持图像生成、编辑、风格转换、视觉定位等多种任务,尤其擅长处理开放式的创作指令。 你可以通过Qwe… -
Gemini-谷歌发布的多模态AI大模型
谷歌Gemini多模态AI:全能模型矩阵覆盖全场景,跨模态理解生成能力领先,开发者低门槛接入,性能超越GPT-4o。不点就亏!掌握三大版本核心功能,解锁科研生活新可能。 -
讯飞星火开源大模型
讯飞星火开源大模型核心解析 讯飞星火开源大模型(iFlytekSpark-13B)是科大讯飞推出的130亿参数开源大语言模型,基于全国产化算力平台“飞星一号”训练,提供基础模型(iFlytekSpark-13B-base)和精调对话模型(iFlytekSpark-13B-chat),支持文本生成、代码编写、数学推理等通用任务,深度优化中文场景及行业应用。 访问官网:星火开源社区 核心能力与评测表现… -
Yi大模型-零一万物发布的开源大模型
🚀 Yi大模型:中英双语的AI全能手 想让AI同时精通中文和英文?Yi大模型由李开复博士的零一万物打造,专为中英双语场景优化,理解力和逻辑推理都很强。 零一万物官网:https://www.lingyiwanwu.com/yi Yi-34B相关资源: 开源社区: Hugging Face | ModelScope |GitHub Yi-6B相关资源: 开源社区: Hugging Face | Mo… -
商汤商量拟人大模型
🤖 商量拟人大模型是什么? 商汤科技打造的AI角色对话天花板,堪称“虚拟人造梦工厂”!只需简单设定,它就能生成活灵活现的虚拟角色——从高冷霸总到话痨闺蜜,从仙侠师尊到赛博侦探,人设台词全拿捏。2025年升级多人群聊剧情推演和跨平台分身同步功能,让纸片人真正“活”过来陪你聊天搞事~ 官网直达:https://character.sensetime.com/ 🛠️ 2025核心功能:从捏人到飙戏一条龙… -
HunyuanCustom:腾讯混元开源的多模态定制化视频生成工具
视频制作不用摄像机?腾讯混元HunyuanCustom:AI视频生成工具,输入文本/图片即可生成4K视频,解决身份漂移难题,保真度达92%。电商与教育创作者必备,提升10倍制作效率,立即体验高效视频创作。 -
Stable Virtual Camera:Stability AI等推出的AI模型 ,2D图像轻松转3D视频
✨ Stable Virtual Camera:让图片动起来的3D视频魔法 Stable Virtual Camera是Stability AI公司推出的一个AI视频生成模型,它能把普通的2D静态图片变成带有逼真3D效果和深度感的动态视频。你只需要提供一张或几张照片,它就能模拟出相机在不同角度移动的效果,生成看起来非常专业的3D视频。 官网地址:https://stable-virtual-cam… -
-
Genie-谷歌发布的AI基础世界模型,一张图片生成交互世界
Genie模型概述 Genie是由Google DeepMind开发的AI基础世界模型,能够从文本、图像或草图生成可交互的3D虚拟环境。其最新版本Genie 2(2025年发布)基于Gemini架构,支持端到端的动态环境生成,涵盖物理模拟(重力、水流)、角色动画及多视角交互(第一人称/第三人称),适用于游戏开发、机器人训练等领域。 官网链接访问DeepMind官网了解详情:https://deep… -
Step-Video-TI2V:阶跃星辰开源的AI图生视频模型
🎬 Step-Video-TI2V:开源图生视频新王者,运动可控+102帧长视频生成 Step-Video-TI2V是阶跃星辰(StepFun)在2025年3月开源的一款重磅图生视频模型,它基于300亿参数的Step-Video-T2V训练而成。简单说,你给它一张图片和一段文字描述,它就能帮你生成一段最长102帧(约4-5秒)、540P分辨率的动态视频,而且你对视频里的“动感”程度和镜头运动方式还… -
ThinkSound – 阿里通义开源的AI音频生成模型
🔍 ThinkSound是什么? ThinkSound是阿里巴巴通义实验室在2025年7月正式开源的音频生成模型,它不仅是阿里在音频AI领域的一次重大突破,更是全球首个将思维链(CoT)技术应用于音频生成的开源模型。简单来说,它能让AI像专业音效师一样“看懂”画面内容,“理解”事件逻辑,并生成高度匹配、精准同步的高保真空间音频,彻底告别传统“看图配音”的机械感和错位尴尬。 ThinkSound的官… -
MovieLLM-通过AI生成电影来增强长视频理解的框架
MovieLLM是什么? 复旦与腾讯联合研发的AI电影引擎,专攻复杂剧情视频理解。它能生成风格统一的长视频,解决影视行业高质量训练数据稀缺的痛点。2025年开源版本已支持8K超清生成。 https://movie-llm.fudan.edu.cn 核心技术解析 1. 剧本智能生成 输入题材关键词(如“赛博朋克爱情”),GPT-4自动输出分镜剧本+角色对话,含场景细节描述与情绪标注。 2. 画风锁定… -
OmniGen2 – 智源研究院推出的开源多模态生成模型
🎨 OmniGen2:能画会改的AI创意多面手 OmniGen2是北京智源人工智能研究院在2025年6月底推出的开源多模态生成模型,就像一个全能的AI艺术家,既能根据文字描述生成图像,也能精准编辑现有图片,甚至能理解图片内容并进行创意组合。它最大的特点是采用图文解耦架构,就像让AI学会了"分开思考"文字和图像,再巧妙地把它们融合在一起,这让它在处理复杂创意任务时更加得心应手。 … -
SkyReels-V1:昆仑万维开源的AI短剧创作视频生成模型
🎬 SkyReels-V1是什么? 昆仑万维开源的中国首个AI短剧生成神器,专攻影视级人物表演!它能精准操控角色口型、表情和动作,自带33种微表情和400+自然动作库,连“不屑挑眉”“绝望瘫坐”这种细节都能拿捏。更绝的是支持图生视频——上传一张汉服少女草图,直接输出竹林舞剑的动态片段,好莱坞级光影质感拉满。 官网直达(2025开源免费版):skyreels.ai 🚀 核心功能:让普通人秒变AI导演… -
Skywork R1V:昆仑万维开源的多模态视觉思维链推理模型
给AI装上“火眼金睛”:Skywork R1V让机器真正看懂世界 👁️ 想象一下,AI不仅能识别图片中有只猫,还能推断出这只猫的品种、年龄,甚至从背景细节判断出拍摄地点和季节——这就是Skywork R1V带来的革命性突破。这个由昆仑万维开源的多模态视觉推理模型,正在让机器真正具备“看懂”世界的能力。 最新评测显示,R1V在复杂视觉推理任务上的表现已经超越了许多闭源商业模型,其中在数学视觉推理测试… -