-
CodeShell-北京大学开源的代码大模型
💻 CodeShell:北大与天府银行联合研发的代码大模型 写代码遇到瓶颈?CodeShell这个AI编程助手能让你的开发效率翻倍。由北京大学和天府银行联手打造的这款开源代码大模型,支持12种编程语言,不仅能自动补全代码,还能智能检测缺陷、生成测试用例。特别适合金融、制造等对代码质量要求高的行业,让编程就像有个资深工程师在身边指导一样简单。 官网链接:CodeShell GitHub ✨ 核心能力… -
-
gpt-realtime – OpenAI最新推出的语音模型
OpenAI GPT-Realtime语音AI:实现自然实时对话,支持情感识别和多语言无缝切换。提升智能客服与语言学习体验,立即了解革命性语音技术。 -
CoDi-多模态 AI 大模型
🌈 CoDi是什么? CoDi(Composable Diffusion)是微软推出的跨模态生成模型黑科技,能像“AI魔术师”一样自由组合输入输出——你给它文字、图片、音频甚至视频中的任意组合,它就能生成同步对齐的多模态内容!比如输入一段海浪文字+钢琴曲片段,直接输出带海浪声的治愈系视频,彻底打破传统AI“单线程创作”的局限。 官网直达:https://codi-gen.github.io/ ✨ … -
腾讯混元大模型
🌟 腾讯混元大模型:你的全场景AI助手 还在为复杂工作头疼?腾讯混元大模型可能就是你的救星。作为腾讯全链路自研的万亿级参数模型,它不仅能陪你聊天、帮你写文案,还能直接生成视频和图片,更厉害的是深度整合了微信、QQ整个生态圈。无论是个人用户还是企业客户,都能在这个AI底座上找到适合自己的智能解决方案。 官网入口:https://hunyuan.tencent.com/ # 🚀 核心能力:四大亮点撑起… -
GitAgent-面壁智能联合清华大学发布的大模型智能体应用框架
🔍 GitAgent 框架:大模型智能体的工具箱革命 GitAgent 是由面壁智能与清华大学自然语言处理实验室联合研发的创新型框架,旨在解决大模型智能体在复杂任务中的工具扩展瓶颈。其核心突破在于赋予智能体自主从 GitHub 挖掘、配置并应用工具的能力,通过四阶段流程动态扩展工具箱,显著提升任务解决效率。 🔧 四阶段工具箱扩展流程 智能搜索阶段系统基于用户需求,在 GitHub 海量仓库中精准筛… -
ALLaM – 专为阿拉伯语设计的AI大语言模型
阿拉伯语AI听不懂方言?ALLaM模型:专为阿拉伯语优化,精通沙特方言与文化适配,支持古籍数字化与智能客服。提升40%处理效率,开发者与企业首选。立即了解。 -
Monkey:华中科技大学开源的多模态大模型
核心创新与技术突破 Monkey多模态大模型由华中科技大学与金山软件联合研发,通过高分辨率图像处理与多级描述生成方法,显著提升了复杂场景的视觉细节理解能力。该模型于2024年被人工智能顶会CVPR接收,并在国际权威评测体系“司南”中位列开源模型榜首,性能仅次于GPT-4V、Gemini等闭源模型。其最新升级版TextMonkey专注于文档理解领域,在场景文字识别、数学问题解答、表格分析等12项文档… -
Octopus V2-斯坦福推出的可在设备上运行的大模型
端侧AI新标杆:Octopus v2模型深度解析 ——手机能跑的大模型,比GPT-4更快更准 ⚙️ 核心功能亮点 1. 性能碾压主流模型 推理速度:在安卓设备上,单次函数调用响应仅需1.1-1.7秒,比云端GPT-4快168%,比“Llama7B+RAG方案”快36倍。 准确率:函数调用精准度达99.5%,超越GPT-4和RAG方案31%。 能效优化:上下文长度减少95%,相同电量下支持37倍更多… -
VideoWorld:豆包等推出的开源视频生成模型,从无标签视频中学习知识
VideoWorld:豆包团队研发纯视觉模型,支持工业自动化与医疗培训,学习效率提升300%,开源生态完善,适配PC端长文本处理及移动端快速决策场景。 -
PixArt-华为发布的AI图像生成模型,支持生成4K图像
核心技术与创新突破 PixArt-Σ 的核心突破在于三项技术创新: 高效 Token 压缩注意力机制通过局部聚合 Key 和 Value 的组卷积操作,将高分辨率图像生成的计算量减少 34%,同时保留 Query 的完整细节以维持像素级精度。这一设计显著优化了 4K 图像生成的效率。 弱到强训练策略采用分阶段渐进式训练: 第一阶段:256×256 分辨率训练 80K 步,建立文本-图像基础对齐; … -
CogVideoX-智谱推出的开源AI视频生成模型
🔍 CogVideoX是什么? CogVideoX是智谱AI开发的视频生成大模型,只需输入文本或图片就能生成高质量视频。2025年8月开源的CogVideoX-2B是该系列首个模型,参数规模达20亿,与智谱的AI视频产品“清影”同源。它能根据最长226个英文token的提示词,生成6秒、720×480分辨率的视频,推理时显存消耗仅18GB(FP16精度),大幅降低了使用门槛。更强大的版本正在开发中… -
Gen-4:Runway推出的新一代AI视频生成模型
想快速制作专业视频?Runway Gen-4:AI视频生成模型,支持文本/图像生成影视级内容,精准动态控制与200+风格。提升广告片、特效制作效率,降低90%成本。立即了解,实现高质量视频创作。 -
MatterGen:微软推出的无机材料设计AI模型,辅助生成新材料
🔬 材料研发迎来"ChatGPT时刻"!AI三天搞定传统三年实验 还在用"炒菜式"试错法研发新材料?微软研究院推出的MatterGen正在彻底改变游戏规则。这个基于扩散架构的生成式AI模型,能够根据目标属性直接生成新型无机材料结构,把传统需要3年的研发周期压缩到3天。从新能源电池到航空航天材料,它正在颠覆整个材料研发行业。 官方博客:https://www.… -
Step-Audio:阶跃星辰推出的开源语音交互模型
🔊 中文语音天花板,开口就是戏精 吉利联手阶跃星辰打造的开源神器Step-Audio是国内首个能同时处理方言、歌声、情感语调的语音大模型。无论是给游戏角色配音,还是让智能客服说话带温度,它都能搞定,连东北话、四川话都学得惟妙惟肖,堪称声音界的“百变星君”。 官网直达:Step-Audio开源主页 🎭 五大核心能力,开口就惊艳 方言歌声全能王支持20+种方言(粤语、川渝话等)、中英日韩多语种切换,甚… -
Champ-基于3D的人物图像到动画视频生成框架
🤖 Champ是什么? 阿里+南大+复旦联手打造的虚拟人动作黑科技!Champ可不是普通动画工具,它能把你随手拍的小视频变成专业级3D动画——无论跳舞、打拳还是走猫步,AI都能精准捕捉每个关节运动,连头发丝飘动都真实到离谱!最绝的是还能玩“灵魂转移”:把A的舞姿完美复制到B身上,网红拍同款神舞再也不用苦练啦~ 👉 官网直达:https://fudan-generative-vision.githu… -
MiniMax-M1:MiniMax开源的大规模混合架构推理模型
🚀 MiniMax-M1:全球首个开源混合架构推理模型,百万级上下文处理能力颠覆行业 MiniMax-M1是上海稀宇科技在2025年6月推出的全球首个开源大规模混合架构推理模型,这家伙可不是普通的AI模型,它专门擅长“动脑筋”解决复杂问题。最厉害的是它能处理高达100万token的超长文本,相当于一次性能读完好几本长篇小说的内容,并且还能生成8万token的深度推理结果,在数学推理、代码生成和长文… -
昆仑万维-天工AI大模型
天工AI:国产双千亿级大语言模型 天工AI是由昆仑万维与奇点智源联合研发的国产双千亿级大语言模型,具备自然语言处理、多模态交互与深度推理能力,支持智能问答、代码生成、学术研究等场景,技术性能对标OpenAI ChatGPT-4级别模型。 访问天工AI官网 核心能力与技术架构 六大核心功能 生成创作:支持小说、策划案、学术论文等文本生成,提供改写、扩写等辅助工具。 逻辑推理:突破性强化数学与代码能力… -
M2UGen-腾讯发布的多模态音乐生成模型
核心功能解析(2025最新版) 文字→音乐输入“赛博朋克雨夜”等描述,20秒生成带鼓点、合成器的电子乐,支持MP3/WAV格式下载。 图片→音乐上传风景照自动生成氛围音乐,山水图匹配古筝笛声,城市夜景触发电子律动。 视频→配乐分析视频内容生成适配BGM,如战斗场景生成急促鼓点,浪漫片段生成钢琴旋律。 智能音乐编辑一键移除人声、替换乐器(如吉他转琵琶)、调整节奏(80BPM→120BPM)。 官网体… -
华知大模型-同方知网携手华为推出的中华知识大模型
华知大模型V5.0:专业领域知识处理工具,适配科研政务教育场景,经国家级安全认证,多模态学术图像解析准确率超GPT-4 Turbo 15%,支持长文本分析与私有化部署。 -
Ferret-UI:苹果公司推出的多模态AI模型
🔍 专攻手机界面的“视觉大脑” 苹果自研的多模态交互引擎Ferret-UI是苹果专为移动端打造的AI模型,能像人类一样“看懂”手机屏幕。它不仅能识别App图标、按钮等微小元素,还能根据用户指令自动操作界面——比如一句“订美团外卖”,它就能跳转应用完成下单,彻底告别手动点按。 官网直达:https://arxiv.org/pdf/2404.05719.pdf开发者社区:https://discord… -
Matrix-Game:昆仑万维开源的交互式世界基础模型
🚀 颠覆想象:Matrix-Game 2.0开启实时交互虚拟世界新纪元 昆仑万维在2025年8月发布的Matrix-Game 2.0,可不是个简单的模型升级,而是真正能“动起来”的开源交互式世界模型。它能以每秒25帧的速度实时生成分钟级的高连贯视频,让你用键盘鼠标就能自由操控虚拟世界,仿佛真的置身于一个物理规则运转正常的平行宇宙里。 官方资源一键直达:项目主页:https://matrix-gam… -
Step-3:阶跃星辰推出的千亿参数多模态大模型
千亿参数多模态大模型 Step-3 是由阶跃星辰研发的通用人工智能大模型,具备文本、图像、视频等多模态理解与生成能力。通过千亿级参数规模与自主推理架构,在逻辑分析、长文本处理及跨模态创作领域实现突破,驱动产业智能化升级。 官网链接:https://platform.stepfun.com 核心能力解析 多模态融合引擎 支持图像/视频/文本跨模态联合分析,实现场景深度理解(如医学影像结合报告生成诊断… -