4Lwrmg1ZAs1 tech.huanqiu.comarticleOpenAI升级语音生成API:自然语言操控+拟真声效双突破/e3pmh164r/e3pn4gh77【环球网科技综合报道】3月21日消息,美国开放人工智能研究中心(OpenAI)近日宣布对其应用程序编程接口(API)进行重大更新,正式引入新一代语音合成与转录模型。据官方披露,核心升级产品gpt-4o-mini-tts不仅实现了语音生成拟真度的跨越式提升,更首次支持开发者通过自然语言指令实时调控音色、语调与情感表达。 区别于传统参数调节模式,新模型允许开发者以"用兴奋的语调朗读"、"模仿青年播音员声线"等日常语言下达指令,系统即可动态调整声纹特征。OpenAI技术团队演示显示,该模型能精准解析"略带沙哑的科幻旁白"等抽象描述,并在0.3秒内生成匹配音频,较此前版本响应速度提升40%。官方文档显示,gpt-4o-mini-tts支持48kHz采样率与神经声码器技术,信噪比指标较行业平均水平优化18分贝,可服务于有声书录制、影视配音等高端场景。OpenAI透露,此次升级得益于自研的"声纹解耦"算法,使音色特征与语义理解模块实现分离训练。开发者既可单独微调音色库,也可结合语言模型定制行业专用语音助手。(青山)1742520054692环球网版权作品,未经书面授权,严禁转载或镜像,违者将被追究法律责任。责编:代玉环球网174252005469211[]//img.huanqiucdn.cn/dp/api/files/imageDir/5bca6cfbac55fff118960556fb74b0f8u1.png{"email":"daiyu@huanqiu.com","name":"代玉"}
【环球网科技综合报道】3月21日消息,美国开放人工智能研究中心(OpenAI)近日宣布对其应用程序编程接口(API)进行重大更新,正式引入新一代语音合成与转录模型。据官方披露,核心升级产品gpt-4o-mini-tts不仅实现了语音生成拟真度的跨越式提升,更首次支持开发者通过自然语言指令实时调控音色、语调与情感表达。 区别于传统参数调节模式,新模型允许开发者以"用兴奋的语调朗读"、"模仿青年播音员声线"等日常语言下达指令,系统即可动态调整声纹特征。OpenAI技术团队演示显示,该模型能精准解析"略带沙哑的科幻旁白"等抽象描述,并在0.3秒内生成匹配音频,较此前版本响应速度提升40%。官方文档显示,gpt-4o-mini-tts支持48kHz采样率与神经声码器技术,信噪比指标较行业平均水平优化18分贝,可服务于有声书录制、影视配音等高端场景。OpenAI透露,此次升级得益于自研的"声纹解耦"算法,使音色特征与语义理解模块实现分离训练。开发者既可单独微调音色库,也可结合语言模型定制行业专用语音助手。(青山)