-
-
-
Gemma 3:Google 推出的轻量级高性能开源模型,支持单个GPU运行
Gemma 3 是 Google 推出的轻量级、高性能开源模型,支持多种尺寸(1B、4B、12B 和 27B),专为单 GPU 或 TPU 设计。它支持 140 多种语言,具备高级文本和视觉推理能力,配备 128k-token 上下文窗口和函数调用功能,支持复杂任务处理。Gemma 3 提供量化版本,优化性能,降低计算需求,并配备安全特性。它无缝集成多种开发工具,支持灵活部署,助力开发者快速构建高… -
Sana – 英伟达等推出的开源图像生成模型,支持生成4096×4096图像
Sana是由英伟达、麻省理工学院和清华大学等联合推出的文本到图像合成框架,能够快速生成高达4096×4096分辨率的高质量图像。Sana的核心设计包括深度压缩自编码器、线性DiT、解码器仅文本编码器和高效的训练与采样策略。这些设计使得Sana在保持图像质量的同时,显著提高了生成速度,甚至可以在笔记本电脑的GPU上部署。 -
-
LaVie:上海人工智能实验室开源的视频生成模型
LaVie是一个高质量视频生成项目,使用级联潜在扩散模型。这个项目是由Vchitect开发的官方PyTorch实现。LaVie是一个文本到视频(T2V)生成框架,是视频生成系统Vchitect的主要部分。它还包括一个针对图像到视频(I2V)模型SEINE的微调版本。 -
MovieLLM-通过AI生成电影来增强长视频理解的框架
MovieLLM 是一个由复旦大学和腾讯PCG共同开发的,旨在通过AI生成的电影来增强长视频理解的框架。它可以在各种场景上生成具有风格一致的视频画面,解决在生成长视频时的高质量数据的问题。 -
M2UGen-腾讯发布的多模态音乐生成模型
M2UGen是一个多模态音乐理解和生成模型的项目。该项目利用大型语言模型的能力,结合MU-LLaMA模型、MosaicML的MPT-7B-Chat模型、BLIP图像字幕模型和VideoMAE字幕模型,生成音乐相关的数据集,并使用M2UGen模型进行音乐生成和理解。 -
Octopus V2-斯坦福推出的可在设备上运行的大模型
Octopus v2是一个拥有20亿参数的模型,能够在智能手机、汽车、个人电脑等设备上运行。它在准确性和延迟方面超越了GPT-4,且将上下文长度减少了95%。与基于RAG的Llama7B模型相比,Octopus v2的速度快了36倍。 -
华为-盘古AI大模型
根据华为云官网消息,华为旗下的盘古系列AI大模型即将上线,该系列AI大模型中的NLP大模型、CV大模型、科学计算大模型(气象大模型)已经标记为即将上线状态。 据悉,盘古大模型采用了深度学习和自然语言处理技术,并使用了大量的中文语料库进行训练。该模型拥有超过1千亿个参数,可以支持多种自然语言处理任务,包括文本生成、文本分类、问答系统等等。 其中,盘古NLP大模型是被认为最接近人类中文理解能力的AI大… -
Audiobox-Meta推出的新一代音频生成模型
Audiobox是Meta发布的一款基于语音和自然语言提示生成音频的先进研究模型。通过结合语音输入和文本提示,Audiobox可以轻松生成各种声音,包括语音、音效和音景,从而为多种用例提供定制音频。 -
Qwen2-Audio:阿里推出的开源音频语言大模型
Qwen2-Audio是由阿里通义团队推出的大型音频语言模型系列,它能够接受音频信号输入,进行音频分析或直接文本响应,支持语音聊天和音频分析两种交互模式,并且提供了预训练模型Qwen2-Audio-7B和聊天模型Qwen2-Audio-7B-Instruct的版本。 -
昆仑大模型:中国石油等联合发布的能源行业大模型
昆仑大模型是由中国石油、中国移动、华为和科大讯飞联合打造的能源行业大模型。昆仑大模型具备330亿参数,并已通过国家生成式人工智能服务备案,是中国能源化工行业首个通过备案的大模型。其主要目标是推动能源行业的智能化发展,通过创新的四层架构支持油气新能源、炼化新材料等领域的大规模数据建模。 -
Phi-3:微软推出的开源小型语言模型,支持移动设备
Phi-3 是微软 AI 研究院开发的一系列小型语言模型,它们是开源的并且可以商用。这些模型的特点是体积小、所需资源少,使得它们能够在资源受限的环境中运行,例如在移动设备或者边缘计算设备上。 -
Step-Video-T2V:阶跃星辰推出的开源视频生成大模型
Step-Video-T2V是阶跃星辰与吉利联合开源的一款高性能视频生成大模型,具备300亿参数量,能够生成540P分辨率的高质量视频。它支持复杂运动场景、精准镜头控制和生动人物生成,能够根据文本输入生成符合物理规律的视频。 -
京东言犀大模型
京东言犀大模型是在2023京东全球科技探索者大会上推出的一种大模型。这个模型融合了70%的通用数据和30%的数智供应链原生数据,具有更高的产业属性、更强的泛化能力和更多的安全保障。它的目标是深入零售、物流、金融、健康、政务等知识密集型和任务型产业场景,解决真实的产业问题。 ? 官网链接:https://yanxi.jd.com/ 京东言犀大模型的工具链和基础设施 为了支持大模型的研发,京东推出了一… -
abab-music-01:MiniMax推出的端到端AI音乐生成大模型
abab-music-01是由上海稀宇科技MiniMax推出的AI音乐生成大模型,支持多功能端到端音乐生成,可用于合成多种音乐形式,包括纯音乐、清唱作品,且满足伴奏、人声同时生成,大大简化音乐录制与创作过程。 -
Ferret-UI:苹果公司推出的多模态AI模型
Ferret-UI是苹果公司与哥伦比亚大学研究团队联合发布的一个多模态模型。它是专门为了增强对移动端用户界面(UI)屏幕的理解而定制的,配备了引用、定位和推理功能。该模型能够“看懂”手机屏幕上的内容并执行任务,聚焦于移动端、关注用户交互。 -
Qwen2-VL:阿里最新开源的视觉多模态大语言模型
Qwen2-VL是由阿里巴巴最新开源的视觉多模态大语言模型系列,专注于视觉语言的理解和处理。该模型能够处理不同分辨率和比例的图像,并具备对20分钟以上视频内容的理解能力。测试数据显示,其72B模型在大多数指标上超过了OpenAI的GPT-4o和Anthropic的Claude3.5-Sonnet等知名闭源模型,成为目前最强的多模态模型之一。 -
Claude 3-Anthropic公司最新推出的AI大模型
Claude 3是Anthropic公司推出的一系列先进的人工智能模型,它们在多种认知任务上设定了新的行业标准。这个模型家族包括三个不同级别的模型:Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus。每个模型都提供了不同的智能水平、速度和成本效益,以适应不同的应用需求。 -
Step-Audio:阶跃星辰推出的开源语音交互模型
Step-Audio 是阶跃星辰与吉利联合开发的业内首款开源产品级语音交互模型。它能够根据不同的场景需求,生成具有情绪、方言、语种、歌声及个性化风格的语音,支持自然、高质量的对话。 -
-
Codestral 25.01:Mistral AI最新推出的AI编程模型,编程速度提高2倍
Codestral 25.01是由Mistral AI推出的一款先进的AI编程模型,旨在显著提升软件开发的效率和质量。作为今年早些时候发布的Codestral的升级版本,Codestral 25.01在架构和分词器上进行了优化,生成和补全代码的速度提升了约2倍。它支持超过80种编程语言,特别适用于低延迟、高频率的使用场景,如代码填充(FIM)、代码修正和测试生成。 -
360智脑
360智脑是一个由 360 公司开发的 AI 平台,旨在探索全新的人机协作模式,激活用户的创造力和想象力。它提供了一系列的 AI 工具和服务,包括 API 开放平台、360鸿图、360AI搜索、360AI浏览器、360智脑桌面版和企业数字员工等。