即梦AI
当前位置:首页>AI新闻>OpenAI发布语音AI Agent专用模型GPT-realtime

OpenAI发布语音AI Agent专用模型GPT-realtime

OpenAI发布GPT-Realtime:会笑会多语言切换的语音AI来了!

OpenAI刚刚发布了全新的语音模型GPT-Realtime以及配套的Realtime API,这可能是目前最先进的语音到语音模型之一。这款模型已经在8月28日正式面向所有付费开发者开放,旨在为语音助手应用带来更自然、更智能的交互体验。

项目官网https://openai.com/index/introducing-gpt-realtime/

更多阅读:gpt-realtime – OpenAI最新推出的语音模型

OpenAI发布语音AI Agent专用模型GPT-realtime

不只是语音生成,更是多模态交互革命

GPT-Realtime不仅仅是一个语音模型,更是一个专为语音AI Agent设计的端到端多模态系统。与传统需要多次转换的语音模型不同,它采用了创新的Speech-to-Speech架构,能够直接处理和生成音频,省去了中间的文本转换步骤,大幅降低了延迟,同时保留了语音中的细微情感和语调变化。

这款模型最大的亮点在于其高度自然的语音生成能力。它能够完美模仿人类丰富多样的语调、情感和语速,甚至能够捕捉笑声等非语言信号,在句子中间自如切换语言,并根据场景需求灵活调整语气。比如,你可以要求它“用带法国口音的友好语调”说话,或者“快速而专业地”回应。

两大新语音+全面升级,声音更接近真人

为了提供更丰富的语音选择,OpenAI为GPT-Realtime新增了“Cedar”和“Marin”两种极具特色的语音,并对原有的8种语音进行了全面升级优化,使输出效果更加自然逼真。

在性能表现上,GPT-Realtime在多项基准测试中展现出了显著提升。在Big Bench Audio测试中准确率达到82.8%,在MultiChallenge测试中提升至30.5%,在衡量函数调用性能的ComplexFuncBench测试中更是达到了66.5% 的准确率,相比之前的版本有大幅进步。

实时API升级,开发更便捷

配套的Realtime API也带来了多项新功能,使开发者能够更轻松地构建语音应用:支持图像输入,开发者可以在会话中添加图片、照片和截图,模型能够基于图像内容进行交互;通过会话初始协议(SIP)支持,可直接连接到公共电话网络和办公电话系统;提供可重用提示功能,保存不同场景下的配置和工具设置。

五大应用场景,改变人机交互方式

GPT-Realtime的应用潜力极为广泛,非常适合用于客服、教育、金融、医疗等领域打造语音智能体。OpenAI展示了与五家公司合作构建的应用实例:美国房地产平台Zillow的AI助手可以帮助用户根据生活方式筛选房源;T-Mobile的手机助手能够处理自然对话,即使被用户打断也能流畅回应;票务平台StubHub的助手可以指导用户完成付款过程;Oscar Health的平台能帮用户打电话预约医生;保险科技公司Lemonade的助手可以为用户提供保险购买帮助。

价格更亲民,安全性更高

好消息是,GPT-Realtime的使用成本相比前代模型降低了20%。当前定价为音频输入token每百万个32美元,音频输出token每百万个64美元,缓存输入token每百万个0.40美元。API还新增了设置token使用上限和对多轮对话内容进行精简处理的功能,帮助开发者更好地控制长会话的成本。

在安全方面,Realtime API具备检测问题内容的能力,如果对话违反平台政策,系统可以自动终止会话。OpenAI还针对欧盟用户提供了数据本地化存储选项,为企业用户制定了特殊隐私规则,以确保符合欧盟地区的数据保护法规。

OpenAI的这款新模型和API平台为语音AI应用开发带来了新的可能性,让机器与人的对话更加自然、流畅和智能。随着这类技术的不断进步,我们可能会很快进入一个与AI语音助手自然交流的新时代。