全部标签

AI训练模型

最新最多浏览

AndesGPT-OPPO旗下AI大模型

OPPO AndesGPT是OPPO公司自主开发的生成式大语言模型。它是一种人工智能技术，专门用于提升语音助手的性能。AndesGPT模型在SuperCLUE测评基准的排行榜上表现出色，特别是在“知识与百科”能力测试中，得分高达98.33，仅次于GPT4，排名国内第一。
Gemini 2.0：谷歌推出的面向代理时代的多模态大模型

Gemini 2.0 是 Google 最新推出的多模态人工智能大模型，支持处理文本、图像、音频和视频等数据类型。相比 1.0，2.0 在多模态方面实现突破，不仅支持图像、视频和音频输入，还支持原生图像和音频输出，并可调用谷歌搜索、代码及第三方函数，显著提升模型的灵活性和扩展性。
协和·太初 – 北京协和医院和中科院联合推出的罕见病领域 AI 大模型

“协和・太初”是由北京协和医院和中国科学院自动化研究所共同研发的国内首个罕见病领域 AI 大模型。该模型基于我国罕见病知识库的多年积累和中国人群基因检测数据，是国际首个符合中国人群特点的罕见病大模型。
Ovis-U1：阿里巴巴推出的统一的多模态理解与生成模型

Ovis-U1 是阿里巴巴国际化团队推出的统一多模态理解与生成模型，它拥有三十亿参数，融合了图像理解、文本到图像生成和图像编辑功能。
Goku：港大字节推出的AI视频生成模型

Goku是香港大学与字节跳动合作开发的视频生成模型，基于Rectified Flow Transformer架构，能够从文本、图像或图文输入生成高质量的视频。
Monkey：华中科技大学开源的多模态大模型

Monkey 是华中科技大学与金山软件联合推出的一种高性能多模态大模型，通过提高输入分辨率和引入多级描述生成方法，解决了现有模型在复杂场景和视觉细节处理方面的挑战。Monkey 可以基于现有视觉编辑器进行构建，无需从0预训练，大大提高了研发效率。
SpeciesNet – 谷歌开源的AI模型，助力野生动物识别和保护

SpeciesNet是谷歌开源的一款AI模型，专为识别野生动物而设计。它通过分析相机陷阱拍摄的照片，能够将图像分类为超过2000个标签，涵盖动物物种、分类群和非动物对象。模型基于6500万张图像训练，具备高准确性和广泛适用性，采用Apache 2.0开源许可，助力生物多样性研究和保护。
DeepSeek-R1：深度求索发布的AI推理模型，性能对标 OpenAI o1 正式版

DeepSeek-R1 是深度求索推出的高性能推理模型，性能与 OpenAI o1 正式版相当。通过强化学习技术和极少标注数据，DeepSeek-R1 在数学、代码和自然语言推理等任务中表现卓越。该模型遵循 MIT License 开源，支持模型蒸馏，允许用户训练其他模型。此外，DeepSeek-R1 提供 API 服务，按 token 计费，广泛应用于科研、技术开发和企业智能化升级等领域。
MiracleVision-美图旗下AI视觉大模型

MiracleVision视觉大模型具有强大的视觉表现力和创作力，并从绘画、设计、影视、摄影、游戏、3D、动漫等视觉创作场景反推技术演化，擅长亚洲人像摄影、国风国潮、商业设计等生成方向。
LivePhoto：图片生成动态视频模型

阿里巴巴、香港大学、蚂蚁集团的研究人员提出了一种全新图片生成动态视频模型——LivePhoto。用户通过LivePhoto，可将一张静态图片快速生成高精准的动态视频。与传统方法不同的是，LivePhoto在开源文生图模型Stable Diffusion基础之上，增加了运动强度和文本加权两大创新模块，可精准掌控动态视频生成过程中的运动强度、文本描述。研究人员将LivePhoto与主流模型Gen-2…
LaVie：上海人工智能实验室开源的视频生成模型

LaVie是一个高质量视频生成项目，使用级联潜在扩散模型。这个项目是由Vchitect开发的官方PyTorch实现。LaVie是一个文本到视频（T2V）生成框架，是视频生成系统Vchitect的主要部分。它还包括一个针对图像到视频（I2V）模型SEINE的微调版本。
Genesis：生成式物理引擎，一句话生成完整精确的模拟物理世界

Genesis 是一款由国内外众多高校和产业机构联合开发的生成式物理引擎，专为通用机器人/嵌入式 AI/物理 AI 应用程序而设计。结合 AI 与物理仿真技术，实现超高精度的动态模拟与多模态生成。
Grok-1：马斯克xAI发布的开源AI大模型，可商用

Grok-1是Elon Musk旗下AI公司xAI发布的开源AI大模型，具有3140 亿个参数，由 8 专家组成（2 活跃状态）86B 活跃参数，使用Rotary Embeddings。
Matrix-Zero：昆仑万维发布的AI世界模型，支持单张图生成3D世界

Matrix-Zero 是昆仑万维发布的世界模型，包含两款子模型：3D 场景生成大模型和可交互视频生成大模型。3D 场景生成大模型能将图片转化为可自由探索的 3D 场景，具备全局一致性、支持不同风格输入、动态场景生成等亮点。可交互视频生成大模型则提供以用户输入为核心的视频生成方案，支持实时互动，具备精准控制的 action model。该模型将推动影视制作、游戏开发等领域的创新，提升内容生产效率。
FLUX.1 Kontext [dev]：Black Forest Labs开源的图像编辑模型

FLUX.1 Kontext [dev] 是 Black Forest Labs 推出的开源图像编辑模型，支持通过自然语言对图像进行局部修改，具备风格与角色一致性保持、多轮稳定编辑等能力。该模型基于 Flow Transformer 架构，编辑精度高、响应速度快，适合创作者、开发者和研究人员用于插画创作、视觉叙事和图像生成研究。
Qwen VLo – 阿里推出的多模态统一理解与生成模型

Qwen VLo 是通义千问团队推出的多模态统一理解与生成模型，具备强大的图文双向交互能力。它不仅能精准理解图像内容，还能根据自然语言指令进行高质量的图像生成与编辑，支持风格迁移、背景更换、物体添加等多种操作
GPT-4o mini：OpenAI最新推出的AI模型，更快更便宜更智能

GPT-4o mini是由OpenAI推出的一款高性价比小型模型，具有成本低、性能强、功能多样和安全可靠等特点。它在多项评测中表现优异，在 MMLU 上得分 82%，目前优于 GPT-4，比 GPT-3.5 Turbo 便宜 60% 以上。目前支持文本和视觉，未来将支持更多形式。
昆仑万维-天工AI大模型

天工作为一款大型语言模型，拥有强大的自然语言处理和智能交互能力，能够实现智能问答、聊天互动、文本生成等多种应用场景，并且具有丰富的知识储备，涵盖科学、技术、文化、艺术、历史等领域。
Step-Video-T2V：阶跃星辰推出的开源视频生成大模型

Step-Video-T2V是阶跃星辰与吉利联合开源的一款高性能视频生成大模型，具备300亿参数量，能够生成540P分辨率的高质量视频。它支持复杂运动场景、精准镜头控制和生动人物生成，能够根据文本输入生成符合物理规律的视频。
文心大模型4.5：百度推出的新一代原生多模态基础大模型

文心大模型4.5是百度推出的新一代原生多模态基础大模型，通过多个模态联合建模实现协同优化，多模态理解能力优秀；具备更精进的语言能力，理解、生成、逻辑、记忆能力全面提升，去幻觉、逻辑推理、代码能力显著提升。
DeepSeek-V3：DeepSeek推出的开源自研 MoE 模型，性能与速度全面突破

DeepSeek-V3 是由深度求索公司推出的一款全新发布的自研 MoE（混合专家）模型，旨在突破当前大语言模型的性能瓶颈。通过 671B 参数和 37B 激活专家，DeepSeek-V3 在 14.8T token 的大规模预训练上取得了显著进展，展现出与世界顶尖闭源模型（如 GPT-4o 和 Claude-3.5-Sonnet）相当的表现。该模型在多项标准评测中超越了 Qwen2.5-72B …
MatterGen：微软推出的无机材料设计AI模型，辅助生成新材料

MatterGen 是微软推出的基于生成性AI的材料设计模型，利用扩散模型生成具有特定化学、机械、电子或磁性属性的新材料。它能够高效生成稳定、独特的材料，超越传统筛选方法，快速探索未知材料空间。
MusicGen-简单可控的音乐生成模型

MusicGen 是一个由Meta发布的开源 AI 音乐生成模型，可以根据文本输入生成新的音乐片段
淘宝星辰大模型-淘宝天猫集团推出的AI大模型

淘宝星辰大模型是淘宝天猫集团自研的首个公开大模型，专为电商和生活服务场景设计，提供文案生成、多轮会话、知识问答和智能决策等功能。

{{userData.name}}已认证

AI训练模型