-
Gemini-谷歌发布的多模态AI大模型
AIHub 12 月 6 日消息,谷歌宣布推出其认为规模最大、功能最强大的人工智能多模态AI模型 Gemini。意味着它可以理解、操作和结合不同类型的信息,包括文本、代码、音频、图像和视频。 -
Seaweed-APT:AI视频生成模型,单步生成2秒钟的1280×720 24fps视频
Seaweed-APT是字节跳动发布的一款生成模型,首次展示了在仅一次神经网络评估下生成 1280x720分辨率、24帧每秒的高质量视频,生成时长可达2秒。该模型广泛应用于影视特效、游戏开发、虚拟现实、广告创意等领域,能够快速生成复杂场景和互动内容,大幅提升创作效率,降低制作成本,推动动态内容生成技术的发展。 -
星流 Star-3 Alpha :LiblibAI推出的自研AI图像生成大模型
Star-3 Alpha是LiblibAI和星流联合推出的下一代自研图像生成大模型,基于F.1基础算法架构进行训练。它旨在为用户提供更加精准、细腻的图像生成能力,尤其在色彩表现、图像细节和艺术风格的捕捉方面表现出色。Star-3 Alpha采用先进的AI算法,能够响应复杂的提示词,生成高质量的图像,广泛应用于各类创作和设计领域。 -
-
Qwen2.5-Max:阿里通义千问推出的旗舰MoE模型
Qwen2.5-Max是阿里云推出的超大规模MoE模型,采用超过20万亿tokens的预训练数据,展现卓越性能。该模型在多个基准测试中超越DeepSeek V3、GPT-4o等领先AI,支持指令模型和基座模型。用户可通过Qwen Chat平台直接对话或调用API进行集成。 -
CodeShell-北京大学开源的代码大模型
CodeShell是北京大学知识计算实验室联合四川天府银行AI团队研发的多语言代码大模型基座。CodeShell具有70亿参数,在五千亿Tokens进行了训练,上下文窗口长度为8192。在权威的代码评估Benchmark(HumanEval与MBPP)上,CodeShell取得同等规模最好的性能。 -
Step-Audio:阶跃星辰推出的开源语音交互模型
Step-Audio 是阶跃星辰与吉利联合开发的业内首款开源产品级语音交互模型。它能够根据不同的场景需求,生成具有情绪、方言、语种、歌声及个性化风格的语音,支持自然、高质量的对话。 -
-
Step-Video-TI2V:阶跃星辰开源的AI图生视频模型
Step-Video-TI2V是阶跃星辰开源的AI图生视频模型,基于30B参数训练,支持生成102帧、5秒、540P分辨率的视频。它具备运动幅度和镜头运动可控性,适合动画和短视频制作,尤其在动漫效果上表现突出。 -
kimi-latest:月之暗面推出的最新AI模型
Kimi Latest 是月之暗面公司推出的最新模型,与 Kimi 智能助手同步升级,使用最新 Kimi 大模型,上下文长度 128k,自动选择计费模型,支持自动上下文缓存。 -
-
Audiobox-Meta推出的新一代音频生成模型
Audiobox是Meta发布的一款基于语音和自然语言提示生成音频的先进研究模型。通过结合语音输入和文本提示,Audiobox可以轻松生成各种声音,包括语音、音效和音景,从而为多种用例提供定制音频。 -
Kimi K2:月之暗面开源的万亿参数 MoE 架构基础模型
Kimi K2 是月之暗面 Moonshot AI 推出的开源大型语言模型,采用 Mixture-of-Experts 架构,拥有总参数量达 1 万亿、32 B 激活参数,支持最长 128K 上下文长度,原生设计以实现“agentic intelligence”(自主任务执行与工具调用)。 -
K1.5:Kimi 最新推出的多模态思考模型
Kimi k1.5 是Kimi推出的最新多模态思考模型,专为解决复杂的推理任务而设计。作为一款集数学推理、代码生成、视觉推理和多模态数据分析于一体的高性能AI模型,k1.5在推理速度和准确性上取得了突破性进展,标志着AI推理技术的进一步提升。 -
Qwen2-阿里云最新发布的通义千问开源大模型
Qwen2是阿里云通义千问团队开源的新一代大语言模型,推出了5个尺寸的预训练和指令微调模型,在中文英语的基础上,训练数据中增加了27种语言相关的高质量数据;代码和数学能力显著提升;增大了上下文长度支持,最高达到128K tokens(Qwen2-72B-Instruct)。多个评测基准上的领先表现。现已在Hugging Face和ModelScope开源。 -
-
Moonlight – 月之暗面推出的开源MOE模型
Moonlight 是由月之暗面公司推出的开源 MoE(Mixture of Experts)语言模型,,使用 Muon 优化器训练,激活参数仅需 3B。该模型在训练效率和性能上表现出色,训练 FLOPs 明显减少,同时支持 64K 上下文处理能力。它适用于多种自然语言处理任务,包括语言理解和生成。 -
ThinkSound – 阿里通义开源的AI音频生成模型
ThinkSound 是阿里通义实验室开源的首个音频生成模型,能够像专业音效师一样理解画面内容并进行结构化推理,从而生成高保真、与视觉高度同步的空间音频,适用于影视、短视频、游戏等多种创作场景。 -
阿里达摩院遥感 AI 大模型
阿里达摩院发布业内首个遥感 AI 大模型(AIE-SEG),号称“率先在遥感领域实现了图像分割的任务统一”、“一个模型实现‘万物零样本’的快速提取”,并可识别农田、水域、建筑物等近百种遥感地物分类,还能根据用户的交互式反馈自动调优识别结果。 -
-
Claude 3-Anthropic公司最新推出的AI大模型
Claude 3是Anthropic公司推出的一系列先进的人工智能模型,它们在多种认知任务上设定了新的行业标准。这个模型家族包括三个不同级别的模型:Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus。每个模型都提供了不同的智能水平、速度和成本效益,以适应不同的应用需求。 -
InstantCharacter:腾讯混元开源的定制化图像生成插件,支持角色一致性生成
InstantCharacter 是腾讯混元开源的一个定制化图像生成插件,能够通过简单的文字描述和一张图片生成各种角色的图像。它实现了对开源文生图模型 Flux 的兼容,用户只需要提供一张图片和一句话的描述,就可以让角色以想要的姿势出现在任何场景中。 -
MiniMax-M1:MiniMax开源的大规模混合架构推理模型
MiniMax-M1 是MiniMax(稀宇科技)推出的全球首个开源大规模混合架构推理模型,具备卓越的长上下文处理能力和高效的推理性能。其支持高达100万上下文输入和8万Token输出,采用闪电注意力机制,显著提升算力效率。同时,该模型在软件工程、长上下文理解等复杂场景中表现优异,性价比极高,且提供免费不限量使用和低价格API服务。 -
Yi大模型-零一万物发布的开源大模型
Yi系列模型是由来自“零一万物”的开发者研发的大型语言模型。第一个公开版本包含两个双语版(英语/中文)基础模型,参数规模分别为6B和34B。两者都使用4K序列长度进行训练,并在推理时可以扩展到32K。