OpenAI发布语音AI Agent专用模型GPT-realtime

OpenAI发布GPT-Realtime：会笑会多语言切换的语音AI来了！

OpenAI刚刚发布了全新的语音模型GPT-Realtime以及配套的Realtime API，这可能是目前最先进的语音到语音模型之一。这款模型已经在8月28日正式面向所有付费开发者开放，旨在为语音助手应用带来更自然、更智能的交互体验。

项目官网：https://openai.com/index/introducing-gpt-realtime/

不只是语音生成，更是多模态交互革命

GPT-Realtime不仅仅是一个语音模型，更是一个专为语音AI Agent设计的端到端多模态系统。与传统需要多次转换的语音模型不同，它采用了创新的Speech-to-Speech架构，能够直接处理和生成音频，省去了中间的文本转换步骤，大幅降低了延迟，同时保留了语音中的细微情感和语调变化。

这款模型最大的亮点在于其高度自然的语音生成能力。它能够完美模仿人类丰富多样的语调、情感和语速，甚至能够捕捉笑声等非语言信号，在句子中间自如切换语言，并根据场景需求灵活调整语气。比如，你可以要求它“用带法国口音的友好语调”说话，或者“快速而专业地”回应。

两大新语音+全面升级，声音更接近真人

为了提供更丰富的语音选择，OpenAI为GPT-Realtime新增了“Cedar”和“Marin”两种极具特色的语音，并对原有的8种语音进行了全面升级优化，使输出效果更加自然逼真。

在性能表现上，GPT-Realtime在多项基准测试中展现出了显著提升。在Big Bench Audio测试中准确率达到82.8%，在MultiChallenge测试中提升至30.5%，在衡量函数调用性能的ComplexFuncBench测试中更是达到了66.5% 的准确率，相比之前的版本有大幅进步。

实时API升级，开发更便捷

配套的Realtime API也带来了多项新功能，使开发者能够更轻松地构建语音应用：支持图像输入，开发者可以在会话中添加图片、照片和截图，模型能够基于图像内容进行交互；通过会话初始协议（SIP）支持，可直接连接到公共电话网络和办公电话系统；提供可重用提示功能，保存不同场景下的配置和工具设置。

五大应用场景，改变人机交互方式

GPT-Realtime的应用潜力极为广泛，非常适合用于客服、教育、金融、医疗等领域打造语音智能体。OpenAI展示了与五家公司合作构建的应用实例：美国房地产平台Zillow的AI助手可以帮助用户根据生活方式筛选房源；T-Mobile的手机助手能够处理自然对话，即使被用户打断也能流畅回应；票务平台StubHub的助手可以指导用户完成付款过程；Oscar Health的平台能帮用户打电话预约医生；保险科技公司Lemonade的助手可以为用户提供保险购买帮助。

价格更亲民，安全性更高

好消息是，GPT-Realtime的使用成本相比前代模型降低了20%。当前定价为音频输入token每百万个32美元，音频输出token每百万个64美元，缓存输入token每百万个0.40美元。API还新增了设置token使用上限和对多轮对话内容进行精简处理的功能，帮助开发者更好地控制长会话的成本。

在安全方面，Realtime API具备检测问题内容的能力，如果对话违反平台政策，系统可以自动终止会话。OpenAI还针对欧盟用户提供了数据本地化存储选项，为企业用户制定了特殊隐私规则，以确保符合欧盟地区的数据保护法规。

OpenAI的这款新模型和API平台为语音AI应用开发带来了新的可能性，让机器与人的对话更加自然、流畅和智能。随着这类技术的不断进步，我们可能会很快进入一个与AI语音助手自然交流的新时代。