全部标签

AI训练模型

最新最多浏览

AnimateDiff-Lightning：字节发布的快速生成视频的AI模型

字节跳动发布的高速视频生成模型，只需要 4-8 步推理就可以生成质量非常不错的视频。
通义千问-阿里云推出的AI大语言模型

通义千问是阿里云自研AI大模型，开始邀请用户测试体验
Gemma 3：Google 推出的轻量级高性能开源模型，支持单个GPU运行

Gemma 3 是 Google 推出的轻量级、高性能开源模型，支持多种尺寸（1B、4B、12B 和 27B），专为单 GPU 或 TPU 设计。它支持 140 多种语言，具备高级文本和视觉推理能力，配备 128k-token 上下文窗口和函数调用功能，支持复杂任务处理。Gemma 3 提供量化版本，优化性能，降低计算需求，并配备安全特性。它无缝集成多种开发工具，支持灵活部署，助力开发者快速构建高…
Sana – 英伟达等推出的开源图像生成模型，支持生成4096×4096图像

Sana是由英伟达、麻省理工学院和清华大学等联合推出的文本到图像合成框架，能够快速生成高达4096×4096分辨率的高质量图像。Sana的核心设计包括深度压缩自编码器、线性DiT、解码器仅文本编码器和高效的训练与采样策略。这些设计使得Sana在保持图像质量的同时，显著提高了生成速度，甚至可以在笔记本电脑的GPU上部署。
SkySense-蚂蚁集团开发的多模态遥感基础模型

SkySense是一个由蚂蚁集团开发的多模态遥感基础模型，能够处理多种模态的遥感影像，支持土地利用监测、目标识别等任务
LaVie：上海人工智能实验室开源的视频生成模型

LaVie是一个高质量视频生成项目，使用级联潜在扩散模型。这个项目是由Vchitect开发的官方PyTorch实现。LaVie是一个文本到视频（T2V）生成框架，是视频生成系统Vchitect的主要部分。它还包括一个针对图像到视频（I2V）模型SEINE的微调版本。
MovieLLM-通过AI生成电影来增强长视频理解的框架

MovieLLM 是一个由复旦大学和腾讯PCG共同开发的，旨在通过AI生成的电影来增强长视频理解的框架。它可以在各种场景上生成具有风格一致的视频画面，解决在生成长视频时的高质量数据的问题。
M2UGen-腾讯发布的多模态音乐生成模型

M2UGen是一个多模态音乐理解和生成模型的项目。该项目利用大型语言模型的能力，结合MU-LLaMA模型、MosaicML的MPT-7B-Chat模型、BLIP图像字幕模型和VideoMAE字幕模型，生成音乐相关的数据集，并使用M2UGen模型进行音乐生成和理解。
Octopus V2-斯坦福推出的可在设备上运行的大模型

Octopus v2是一个拥有20亿参数的模型，能够在智能手机、汽车、个人电脑等设备上运行。它在准确性和延迟方面超越了GPT-4，且将上下文长度减少了95%。与基于RAG的Llama7B模型相比，Octopus v2的速度快了36倍。
华为-盘古AI大模型

根据华为云官网消息，华为旗下的盘古系列AI大模型即将上线，该系列AI大模型中的NLP大模型、CV大模型、科学计算大模型（气象大模型）已经标记为即将上线状态。据悉，盘古大模型采用了深度学习和自然语言处理技术，并使用了大量的中文语料库进行训练。该模型拥有超过1千亿个参数，可以支持多种自然语言处理任务，包括文本生成、文本分类、问答系统等等。其中，盘古NLP大模型是被认为最接近人类中文理解能力的AI大…
Audiobox-Meta推出的新一代音频生成模型

Audiobox是Meta发布的一款基于语音和自然语言提示生成音频的先进研究模型。通过结合语音输入和文本提示，Audiobox可以轻松生成各种声音，包括语音、音效和音景，从而为多种用例提供定制音频。
Qwen2-Audio：阿里推出的开源音频语言大模型

Qwen2-Audio是由阿里通义团队推出的大型音频语言模型系列，它能够接受音频信号输入，进行音频分析或直接文本响应，支持语音聊天和音频分析两种交互模式，并且提供了预训练模型Qwen2-Audio-7B和聊天模型Qwen2-Audio-7B-Instruct的版本。
昆仑大模型：中国石油等联合发布的能源行业大模型

昆仑大模型是由中国石油、中国移动、华为和科大讯飞联合打造的能源行业大模型。昆仑大模型具备330亿参数，并已通过国家生成式人工智能服务备案，是中国能源化工行业首个通过备案的大模型。其主要目标是推动能源行业的智能化发展，通过创新的四层架构支持油气新能源、炼化新材料等领域的大规模数据建模。
Phi-3：微软推出的开源小型语言模型，支持移动设备

Phi-3 是微软 AI 研究院开发的一系列小型语言模型，它们是开源的并且可以商用。这些模型的特点是体积小、所需资源少，使得它们能够在资源受限的环境中运行，例如在移动设备或者边缘计算设备上。
Step-Video-T2V：阶跃星辰推出的开源视频生成大模型

Step-Video-T2V是阶跃星辰与吉利联合开源的一款高性能视频生成大模型，具备300亿参数量，能够生成540P分辨率的高质量视频。它支持复杂运动场景、精准镜头控制和生动人物生成，能够根据文本输入生成符合物理规律的视频。
京东言犀大模型

京东言犀大模型是在2023京东全球科技探索者大会上推出的一种大模型。这个模型融合了70%的通用数据和30%的数智供应链原生数据，具有更高的产业属性、更强的泛化能力和更多的安全保障。它的目标是深入零售、物流、金融、健康、政务等知识密集型和任务型产业场景，解决真实的产业问题。 ? 官网链接：https://yanxi.jd.com/ 京东言犀大模型的工具链和基础设施为了支持大模型的研发，京东推出了一…
abab-music-01：MiniMax推出的端到端AI音乐生成大模型

abab-music-01是由上海稀宇科技MiniMax推出的AI音乐生成大模型，支持多功能端到端音乐生成，可用于合成多种音乐形式，包括纯音乐、清唱作品，且满足伴奏、人声同时生成，大大简化音乐录制与创作过程。
Ferret-UI：苹果公司推出的多模态AI模型

Ferret-UI是苹果公司与哥伦比亚大学研究团队联合发布的一个多模态模型。它是专门为了增强对移动端用户界面（UI）屏幕的理解而定制的，配备了引用、定位和推理功能。该模型能够“看懂”手机屏幕上的内容并执行任务，聚焦于移动端、关注用户交互。
Qwen2-VL：阿里最新开源的视觉多模态大语言模型

Qwen2-VL是由阿里巴巴最新开源的视觉多模态大语言模型系列，专注于视觉语言的理解和处理。该模型能够处理不同分辨率和比例的图像，并具备对20分钟以上视频内容的理解能力。测试数据显示，其72B模型在大多数指标上超过了OpenAI的GPT-4o和Anthropic的Claude3.5-Sonnet等知名闭源模型，成为目前最强的多模态模型之一。
Claude 3-Anthropic公司最新推出的AI大模型

Claude 3是Anthropic公司推出的一系列先进的人工智能模型，它们在多种认知任务上设定了新的行业标准。这个模型家族包括三个不同级别的模型：Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus。每个模型都提供了不同的智能水平、速度和成本效益，以适应不同的应用需求。
Step-Audio：阶跃星辰推出的开源语音交互模型

Step-Audio 是阶跃星辰与吉利联合开发的业内首款开源产品级语音交互模型。它能够根据不同的场景需求，生成具有情绪、方言、语种、歌声及个性化风格的语音，支持自然、高质量的对话。
千帆大模型平台-百度推出的大模型与AI应用开发服务平台

一站式企业级大模型平台，提供先进的生成式AI生产及应用全流程开发工具链
Codestral 25.01：Mistral AI最新推出的AI编程模型，编程速度提高2倍

Codestral 25.01是由Mistral AI推出的一款先进的AI编程模型，旨在显著提升软件开发的效率和质量。作为今年早些时候发布的Codestral的升级版本，Codestral 25.01在架构和分词器上进行了优化，生成和补全代码的速度提升了约2倍。它支持超过80种编程语言，特别适用于低延迟、高频率的使用场景，如代码填充（FIM）、代码修正和测试生成。
360智脑

360智脑是一个由 360 公司开发的 AI 平台，旨在探索全新的人机协作模式，激活用户的创造力和想象力。它提供了一系列的 AI 工具和服务，包括 API 开放平台、360鸿图、360AI搜索、360AI浏览器、360智脑桌面版和企业数字员工等。

{{userData.name}}已认证

AI训练模型