-
Gemma 3:Google 推出的轻量级高性能开源模型,支持单个GPU运行
Gemma 3 是 Google 推出的轻量级、高性能开源模型,支持多种尺寸(1B、4B、12B 和 27B),专为单 GPU 或 TPU 设计。它支持 140 多种语言,具备高级文本和视觉推理能力,配备 128k-token 上下文窗口和函数调用功能,支持复杂任务处理。Gemma 3 提供量化版本,优化性能,降低计算需求,并配备安全特性。它无缝集成多种开发工具,支持灵活部署,助力开发者快速构建高…- 0
- 0
-
Qwen2-VL:阿里最新开源的视觉多模态大语言模型
Qwen2-VL是由阿里巴巴最新开源的视觉多模态大语言模型系列,专注于视觉语言的理解和处理。该模型能够处理不同分辨率和比例的图像,并具备对20分钟以上视频内容的理解能力。测试数据显示,其72B模型在大多数指标上超过了OpenAI的GPT-4o和Anthropic的Claude3.5-Sonnet等知名闭源模型,成为目前最强的多模态模型之一。- 100
- 0
-
Stable Diffusion 3.5:Stability AI 开源的新一代AI图像生成模型
Stable Diffusion 3.5 是由 Stability AI 推出的最新一代图像生成模型,专为提供更高质量、快速生成、多样化输出的图像生成体验而设计。- 100
- 0
-
QwQ-32B:阿里云开源的最新AI推理模型,更小尺寸,消费级显卡即可部署
QwQ-32B 是阿里云开源的320亿参数推理模型,具备强大的数学、代码和通用推理能力,性能比肩全球顶尖开源模型。它支持消费级显卡部署,降低硬件门槛,同时集成智能体能力,可灵活调整推理过程。采用Apache 2.0协议开源,用户可免费下载、商用和定制化开发,推动AI技术的广泛应用。- 100
- 0
-
FLUX.1:Stable Diffusion原班人马推出的开源AI图像生成模型
FLUX.1是由Stable Diffusion原班人马推出的开源图像生成模型,在文字生成、复杂指令遵循和人手生成上具备优势。FLUX.1包含专业版、开发者版、快速版三种模型,其中前两款模型击败SD3-Ultra等主流模型,较小规模的FLUX.1[schnell]也超越了Midjourney v6.0、DALL·E 3等更大的模型。- 100
- 0
-
Grok-1:马斯克xAI发布的开源AI大模型,可商用
Grok-1是Elon Musk旗下AI公司xAI发布的开源AI大模型,具有3140 亿个参数,由 8 专家组成(2 活跃状态)86B 活跃参数,使用Rotary Embeddings。- 100
- 0
-
-
Qwen2.5:阿里巴巴最新开源的系列AI大模型
Qwen2.5是什么? Qwen是阿里巴巴集团Qwen团队研发的大语言模型和大型多模态模型系列。目前,大语言模型已升级至Qwen2.5版本。无论是语言模型还是多模态模型,均在大规模多语言和多模态数据上进行预训练,并通过高质量数据进行后期微调以贴近人类偏好。Qwen具备自然语言理解、文本生成、视觉理解、音频理解、工具使用、角色扮演、作为AI Agent进行互动等多种能力。 Qwen2.5的主要特点 …- 100
- 0
-
Qwen2.5-VL:阿里通义千问推出的开源AI视觉语言模型
Qwen2.5-VL是由阿里通义千问推出的一款视觉语言理解模型,结合了图像、视频和文本处理能力。它能够精准识别图像中的物体、提取视频关键事件,并执行动态推理任务。通过物体定位、结构化数据输出和多模态理解,Qwen2.5-VL广泛适用于安全监控、电子商务、文档解析等领域。- 100
- 0
-
-
TripoSR – 单张图片快速生成高质量3D模型
TripoSR是由Stability AI 和国内AI企业VAST合作开源的快速3D物体重建模型,能在1秒内从单张2D图像快速生成高质量的3D模型。- 100
- 0
-
混元3D:腾讯混元发布的3D开源模型
腾讯混元3D:革新3D内容创作的AI引擎 腾讯混元3D是一款开源的大规模3D资产生成系统,通过文本或图像输入快速生成高分辨率且带纹理的3D模型。其核心采用两阶段生成流程:首先生成无纹理的几何模型,再合成高分辨率纹理贴图。这种解耦设计有效分离了形状与纹理生成的复杂性,同时支持对生成模型或手工模型的灵活纹理处理。 官网体验:https://3d.hunyuan.tencent.com/ 核心功能特性 …- 100
- 0
-
MiniMax-01:MiniMax推出的开源AI模型,400万超长上下文,性能比肩GPT-4o
MiniMax-01是一个先进的大型语言模型系列,包括MiniMax-Text-01和MiniMax-VL-01。这些模型通过闪电注意力机制和混合专家架构,能够高效处理长达400万个token的上下文窗口,在多个标准和内部基准测试中表现出色,特别是在长上下文处理方面显著优于其他顶级模型。- 100
- 0
-
Skywork R1V:昆仑万维开源的多模态视觉思维链推理模型
Skywork R1V 是昆仑万维开源的多模态视觉思维链推理模型,专注于通过多步逻辑推理解决复杂的视觉任务。它结合了强大的文本推理能力和视觉理解能力,能够处理视觉逻辑推理、数学问题、科学现象分析等任务。- 100
- 0
-
Seed-Coder:字节跳动最新推出的开源代码模型
Seed-Coder 是字节跳动开源的 8B(80亿参数)级代码大模型,它包括 Base、Instruct 和 Reasoning 三个版本,具备强大的代码生成、理解和推理能力。其最大亮点是采用“模型自助式”数据管道,利用大模型自动筛选和构建高质量训练数据,减少人工规则依赖。- 100
- 0
-
Step1X-3D:阶跃星辰开源的3D大模型,支持生成高保真可控的3D内容
Step1X-3D 是由阶跃星辰正式发布并开源的一款3D大模型。该模型是继图像、视频、语音、音乐等模态后,阶跃星辰在多模态AI方向的最新成果,专注于生成高保真、可控的3D内容。- 100
- 0
-
HunyuanCustom:腾讯混元开源的多模态定制化视频生成工具
HunyuanCustom是腾讯混元推出的一款多模态定制化视频生成工具,它基于混元视频生成大模型(HunyuanVideo)打造,融合了文本、图像、音频、视频等多模态输入,能够生成高质量的定制化视频。该工具在主体一致性效果上超越了现有的开源方案,具备高度控制力和生成质量。- 100
- 0
-
SpeciesNet – 谷歌开源的AI模型,助力野生动物识别和保护
SpeciesNet是谷歌开源的一款AI模型,专为识别野生动物而设计。它通过分析相机陷阱拍摄的照片,能够将图像分类为超过2000个标签,涵盖动物物种、分类群和非动物对象。模型基于6500万张图像训练,具备高准确性和广泛适用性,采用Apache 2.0开源许可,助力生物多样性研究和保护。- 100
- 0
-
FLUX.1 Kontext [dev]:Black Forest Labs开源的图像编辑模型
FLUX.1 Kontext [dev] 是 Black Forest Labs 推出的开源图像编辑模型,支持通过自然语言对图像进行局部修改,具备风格与角色一致性保持、多轮稳定编辑等能力。该模型基于 Flow Transformer 架构,编辑精度高、响应速度快,适合创作者、开发者和研究人员用于插画创作、视觉叙事和图像生成研究。- 100
- 0
-
Step1X-Edit:阶跃星辰推出的开源图像编辑大模型
Step1X-Edit 是一款开源的图像编辑模型,具备语义精准解析、身份一致性保持和高精度区域级控制等核心能力,支持多种高频图像编辑任务。- 100
- 0
-
-
Kimi-Audio:Kimi开源的通用音频基础模型,支持语音识别、音频理解等多种任务
Kimi-Audio是kimi开源的全新通用音频基础模型,支持语音识别、音频理解、音频转文本、语音对话等多种任务,在十多个音频基准测试中实现了最先进的 (SOTA) 性能。- 100
- 0