全部标签

AI训练模型

最新最多浏览

Gemini-谷歌发布的多模态AI大模型

AIHub 12 月 6 日消息，谷歌宣布推出其认为规模最大、功能最强大的人工智能多模态AI模型 Gemini。意味着它可以理解、操作和结合不同类型的信息，包括文本、代码、音频、图像和视频。
Seaweed-APT：AI视频生成模型，单步生成2秒钟的1280×720 24fps视频

Seaweed-APT是字节跳动发布的一款生成模型，首次展示了在仅一次神经网络评估下生成 1280x720分辨率、24帧每秒的高质量视频，生成时长可达2秒。该模型广泛应用于影视特效、游戏开发、虚拟现实、广告创意等领域，能够快速生成复杂场景和互动内容，大幅提升创作效率，降低制作成本，推动动态内容生成技术的发展。
星流 Star-3 Alpha ：LiblibAI推出的自研AI图像生成大模型

Star-3 Alpha是LiblibAI和星流联合推出的下一代自研图像生成大模型，基于F.1基础算法架构进行训练。它旨在为用户提供更加精准、细腻的图像生成能力，尤其在色彩表现、图像细节和艺术风格的捕捉方面表现出色。Star-3 Alpha采用先进的AI算法，能够响应复杂的提示词，生成高质量的图像，广泛应用于各类创作和设计领域。
混元Turbo S：腾讯混元推出的新一代快思考模型

Turbo S 是腾讯混元推出的新一代快思考模型，区别于需要“想一下再回答”的慢思考模型，能够实现“秒回”，更快速输出答案。
Qwen2.5-Max：阿里通义千问推出的旗舰MoE模型

Qwen2.5-Max是阿里云推出的超大规模MoE模型，采用超过20万亿tokens的预训练数据，展现卓越性能。该模型在多个基准测试中超越DeepSeek V3、GPT-4o等领先AI，支持指令模型和基座模型。用户可通过Qwen Chat平台直接对话或调用API进行集成。
CodeShell-北京大学开源的代码大模型

CodeShell是北京大学知识计算实验室联合四川天府银行AI团队研发的多语言代码大模型基座。CodeShell具有70亿参数，在五千亿Tokens进行了训练，上下文窗口长度为8192。在权威的代码评估Benchmark（HumanEval与MBPP）上，CodeShell取得同等规模最好的性能。
Step-Audio：阶跃星辰推出的开源语音交互模型

Step-Audio 是阶跃星辰与吉利联合开发的业内首款开源产品级语音交互模型。它能够根据不同的场景需求，生成具有情绪、方言、语种、歌声及个性化风格的语音，支持自然、高质量的对话。
新壹视频大模型

新壹视频大模型是国内首个聚焦视频AIGC领域的语言大模型。它依托自身的AI创新技术和大数据资源沉淀，结合对行业的深度理解和认知，更能贴合视频场景，输出文本摘要、语义理解等能力。
Step-Video-TI2V：阶跃星辰开源的AI图生视频模型

Step-Video-TI2V是阶跃星辰开源的AI图生视频模型，基于30B参数训练，支持生成102帧、5秒、540P分辨率的视频。它具备运动幅度和镜头运动可控性，适合动画和短视频制作，尤其在动漫效果上表现突出。
kimi-latest：月之暗面推出的最新AI模型

Kimi Latest 是月之暗面公司推出的最新模型，与 Kimi 智能助手同步升级，使用最新 Kimi 大模型，上下文长度 128k，自动选择计费模型，支持自动上下文缓存。
豆包·视觉理解模型：豆包推出的多模态AI大模型

对视觉内容有更强的识别能力，更强理解和推理能力，以及更细腻的视觉描述能力
Audiobox-Meta推出的新一代音频生成模型

Audiobox是Meta发布的一款基于语音和自然语言提示生成音频的先进研究模型。通过结合语音输入和文本提示，Audiobox可以轻松生成各种声音，包括语音、音效和音景，从而为多种用例提供定制音频。
Kimi K2：月之暗面开源的万亿参数 MoE 架构基础模型

Kimi K2 是月之暗面 Moonshot AI 推出的开源大型语言模型，采用 Mixture-of-Experts 架构，拥有总参数量达 1 万亿、32 B 激活参数，支持最长 128K 上下文长度，原生设计以实现“agentic intelligence”（自主任务执行与工具调用）。
K1.5：Kimi 最新推出的多模态思考模型

Kimi k1.5 是Kimi推出的最新多模态思考模型，专为解决复杂的推理任务而设计。作为一款集数学推理、代码生成、视觉推理和多模态数据分析于一体的高性能AI模型，k1.5在推理速度和准确性上取得了突破性进展，标志着AI推理技术的进一步提升。
Qwen2-阿里云最新发布的通义千问开源大模型

Qwen2是阿里云通义千问团队开源的新一代大语言模型，推出了5个尺寸的预训练和指令微调模型，在中文英语的基础上，训练数据中增加了27种语言相关的高质量数据；代码和数学能力显著提升；增大了上下文长度支持，最高达到128K tokens（Qwen2-72B-Instruct）。多个评测基准上的领先表现。现已在Hugging Face和ModelScope开源。
中科院自动化研究所-紫东太初大模型

业界首个三模态千亿参数大模型，支持文本、视觉、语音不同模态间的高效协同，可支撑影视创作、工业质检、智能驾驶等产业应用。
Moonlight – 月之暗面推出的开源MOE模型

Moonlight 是由月之暗面公司推出的开源 MoE（Mixture of Experts）语言模型，，使用 Muon 优化器训练，激活参数仅需 3B。该模型在训练效率和性能上表现出色，训练 FLOPs 明显减少，同时支持 64K 上下文处理能力。它适用于多种自然语言处理任务，包括语言理解和生成。
ThinkSound – 阿里通义开源的AI音频生成模型

ThinkSound 是阿里通义实验室开源的首个音频生成模型，能够像专业音效师一样理解画面内容并进行结构化推理，从而生成高保真、与视觉高度同步的空间音频，适用于影视、短视频、游戏等多种创作场景。
阿里达摩院遥感 AI 大模型

阿里达摩院发布业内首个遥感 AI 大模型（AIE-SEG），号称“率先在遥感领域实现了图像分割的任务统一”、“一个模型实现‘万物零样本’的快速提取”，并可识别农田、水域、建筑物等近百种遥感地物分类，还能根据用户的交互式反馈自动调优识别结果。
Llama 2：Meta旗下免费可商用开源大模型

Llama 2 是由 Meta 公司研发的先进的开源大型语言模型。这个模型在设计和性能上都进行了重大的升级，使其成为当前领先的语言处理工具。
Claude 3-Anthropic公司最新推出的AI大模型

Claude 3是Anthropic公司推出的一系列先进的人工智能模型，它们在多种认知任务上设定了新的行业标准。这个模型家族包括三个不同级别的模型：Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus。每个模型都提供了不同的智能水平、速度和成本效益，以适应不同的应用需求。
InstantCharacter：腾讯混元开源的定制化图像生成插件，支持角色一致性生成

InstantCharacter 是腾讯混元开源的一个定制化图像生成插件，能够通过简单的文字描述和一张图片生成各种角色的图像。它实现了对开源文生图模型 Flux 的兼容，用户只需要提供一张图片和一句话的描述，就可以让角色以想要的姿势出现在任何场景中。
MiniMax-M1：MiniMax开源的大规模混合架构推理模型

MiniMax-M1 是MiniMax（稀宇科技）推出的全球首个开源大规模混合架构推理模型，具备卓越的长上下文处理能力和高效的推理性能。其支持高达100万上下文输入和8万Token输出，采用闪电注意力机制，显著提升算力效率。同时，该模型在软件工程、长上下文理解等复杂场景中表现优异，性价比极高，且提供免费不限量使用和低价格API服务。
Yi大模型-零一万物发布的开源大模型

Yi系列模型是由来自“零一万物”的开发者研发的大型语言模型。第一个公开版本包含两个双语版（英语/中文）基础模型，参数规模分别为6B和34B。两者都使用4K序列长度进行训练，并在推理时可以扩展到32K。

{{userData.name}}已认证

AI训练模型