新品的璀璨亮点,犹如星辰般熠熠生辉:
日期:2025-03-21 09:58:36 / 人气:20
就在此刻,OpenAI 震撼发布三大音频新模型,并倾情打造专属新网站以飨众人。就在刚刚,OpenAI 揭开神秘面纱,于其API平台隆重推出全新一代音频模型,集语音转文本与文本转语音功能于一身,赋能开发者轻松驾驭语音交互新境界。

新品的璀璨亮点,犹如星辰般熠熠生辉:
“gpt-4o-transcribe”(语音转文本):凭借单词错误率(WER)的显著下滑,在众多基准测试中力压群雄,超越现有Whisper模型,彰显卓越实力。
“gpt-4o-mini-transcribe”(精简版语音转文本):作为gpt-4o-transcribe的轻盈化身,以更快速度与更高效率,演绎速度与激情的完美融合。
“gpt-4o-mini-tts”(文本转语音):开创性地引入“可引导性”(steerability)概念,使开发者既能掌控“言之有物”,又能驾驭“言之有道”,实现前所未有的语音定制体验。
据OpenAI娓娓道来,gpt-4o-transcribe历经多样化、高品质音频数据集的长时间淬炼,精准捕捉语音微妙之处,大幅降低误识别率,转录可靠性跃上新台阶。因此,它更擅长应对口音繁复、环境嘈杂、语速多变等复杂场景,如客户服务中心、会议记录转录等领域,游刃有余。
gpt-4o-mini-transcribe则基于GPT-4o-mini架构,运用知识蒸馏技术,从大模型中汲取智慧。虽WER略逊于完整版,但仍优于Whisper前辈,成为资源有限场景下的高质量语音识别优选。两者在FLEURS多语言基准测试中,英语、西班牙语等表现尤为亮眼,超越Whisper v2与v3,彰显非凡实力。
价格方面,GPT-4o-transcribe亲民依旧,与Whisper前辈同价,每分钟仅需0.006美元;而gpt-4o-mini-transcribe则半价特惠,每分钟仅需0.003美元。同时,gpt-4o-mini-tts文本转语音模型惊艳亮相,开发者可随心所欲地设定语音风格,如“宁静致远”、“冲浪者的自由”、“专业风范”、“中世纪骑士的荣耀”等,甚至能根据指令调整风格,如“以富有同情心的客服姿态娓娓道来”,其定价同样亲民,每分钟仅需0.015美元。
安全无小事,OpenAI郑重承诺,gpt-4o-mini-tts将持续接受严格监控,确保其输出与预设合成风格丝丝入扣,不负众望。
这些技术飞跃的背后,凝聚着OpenAI的创新智慧:新音频模型根植于GPT-4o与GPT-4o-mini架构,以真实音频数据集为基,预训练铸就坚实基石;self-play方法创建的蒸馏数据集与知识蒸馏技术双管齐下,实现大模型到小模型的智慧传承;强化学习(RL)融入语音转文本技术,转录精度大幅提升,“幻觉”现象有效遏制。
在凌晨的直播盛宴中,OpenAI以一款AI时尚顾问Agent为引,生动展现技术魅力。当用户轻启朱唇:“我最近的订单是何物?”系统迅速响应:“您于2月9日订购的Patagonia短裤已发货。”后续提问中,订单号“A.D. 507”脱口而出,准确无误。
值得一提的是,OpenAI演示人员还揭秘两种构建语音Agent的技术路径:第一种“语音到语音模型”,端到端直接处理,语音输入直出回复,无需繁琐转换,处理速度如闪电,已在ChatGPT的高级语音模式与实时API服务中大放异彩,尤其适合对响应速度要求苛刻的场景;第二种“链式方法”,则是本次发布会的重头戏,将处理流程巧妙分解为语音转文本、大型语言模型(LLM)处理与文本转语音三大环节,模块化设计便于独立优化,处理结果更稳定可靠,开发门槛大幅降低,开发者可轻松在现有文本系统上添加语音功能。
OpenAI还为这些语音交互系统增添多项增强功能:支持语音流式处理,实现连续音频输入输出;内置噪音消除利器,提升语音清晰度至新高度;语义语音活动检测精准捕捉用户发言时机;提供追踪UI工具,助力开发者轻松调试语音代理。
如今,这些全新音频模型已向全球开发者敞开怀抱。在http://OpenAI.fm网站上,你可亲身体验并制作gpt-4o-mini-tts的音频作品。该网站功能全面,左下角官方预设模板琳琅满目,人设、语气、方言、发音等设置一应俱全。我们实测了一段“八百标兵奔北坡”的绕口令,中文效果尚显稚嫩;而英文效果则颇为惊艳,诗歌朗诵颇具真人韵味。但与前不久风靡一时的Hume AI或Sesame相比,仍略显青涩。
此外,OpenAI还推出与Agents SDK的集成服务,进一步简化开发流程。同时举办一场别开生面的广播比赛。用户可在http://OpenAI.fm上制作音频作品,点击“分享”按钮生成链接后在X平台分享。最具创意的前三名作品将各获一台限量版Teenage Engineering OB-4合成器作为奖励。音频时长建议控制在30秒左右,在语音、表达、发音或剧本语调变化上尽情挥洒创意。
今年AI领域风向悄然生变。在智商依旧备受瞩目的同时,一股强调情感的潮流悄然兴起。GPT-4.5、Grok 3以情商为卖点,写作创意无限、回应个性化十足;冷冰冰的智元机器人也主打情绪价值,更拟人化。由于直接触及人类最本能的沟通方式——语音领域,在这方面的发力尤为显著。近期在硅谷大放异彩的Sesame AI能够实时感知用户情绪并生成情感共鸣的回应,迅速赢得大批拥趸。图灵奖得主Yann Lecun也强调未来AI需要具备情感。无论是OpenAI此次发布的全新语音模型还是即将亮相的Meta Llama 4都有意向原生语音对话靠拢,试图通过更自然的情感交互拉近与用户的距离,以“人味”俘获人心。
AI是否需要拥有“人味”?长期以来,聊天机器人常被视作没有情感的工具,它们也会在对话中善意提醒:“我只是一个没有灵魂的模型。”然而我们却往往能从它们的回应中解读出情绪价值,甚至不自觉地与之建立情感联结。或许人类天生渴望被理解、被陪伴,哪怕这种理解来自一台机器。

新品的璀璨亮点,犹如星辰般熠熠生辉:
“gpt-4o-transcribe”(语音转文本):凭借单词错误率(WER)的显著下滑,在众多基准测试中力压群雄,超越现有Whisper模型,彰显卓越实力。
“gpt-4o-mini-transcribe”(精简版语音转文本):作为gpt-4o-transcribe的轻盈化身,以更快速度与更高效率,演绎速度与激情的完美融合。
“gpt-4o-mini-tts”(文本转语音):开创性地引入“可引导性”(steerability)概念,使开发者既能掌控“言之有物”,又能驾驭“言之有道”,实现前所未有的语音定制体验。
据OpenAI娓娓道来,gpt-4o-transcribe历经多样化、高品质音频数据集的长时间淬炼,精准捕捉语音微妙之处,大幅降低误识别率,转录可靠性跃上新台阶。因此,它更擅长应对口音繁复、环境嘈杂、语速多变等复杂场景,如客户服务中心、会议记录转录等领域,游刃有余。
gpt-4o-mini-transcribe则基于GPT-4o-mini架构,运用知识蒸馏技术,从大模型中汲取智慧。虽WER略逊于完整版,但仍优于Whisper前辈,成为资源有限场景下的高质量语音识别优选。两者在FLEURS多语言基准测试中,英语、西班牙语等表现尤为亮眼,超越Whisper v2与v3,彰显非凡实力。
价格方面,GPT-4o-transcribe亲民依旧,与Whisper前辈同价,每分钟仅需0.006美元;而gpt-4o-mini-transcribe则半价特惠,每分钟仅需0.003美元。同时,gpt-4o-mini-tts文本转语音模型惊艳亮相,开发者可随心所欲地设定语音风格,如“宁静致远”、“冲浪者的自由”、“专业风范”、“中世纪骑士的荣耀”等,甚至能根据指令调整风格,如“以富有同情心的客服姿态娓娓道来”,其定价同样亲民,每分钟仅需0.015美元。
安全无小事,OpenAI郑重承诺,gpt-4o-mini-tts将持续接受严格监控,确保其输出与预设合成风格丝丝入扣,不负众望。
这些技术飞跃的背后,凝聚着OpenAI的创新智慧:新音频模型根植于GPT-4o与GPT-4o-mini架构,以真实音频数据集为基,预训练铸就坚实基石;self-play方法创建的蒸馏数据集与知识蒸馏技术双管齐下,实现大模型到小模型的智慧传承;强化学习(RL)融入语音转文本技术,转录精度大幅提升,“幻觉”现象有效遏制。
在凌晨的直播盛宴中,OpenAI以一款AI时尚顾问Agent为引,生动展现技术魅力。当用户轻启朱唇:“我最近的订单是何物?”系统迅速响应:“您于2月9日订购的Patagonia短裤已发货。”后续提问中,订单号“A.D. 507”脱口而出,准确无误。
值得一提的是,OpenAI演示人员还揭秘两种构建语音Agent的技术路径:第一种“语音到语音模型”,端到端直接处理,语音输入直出回复,无需繁琐转换,处理速度如闪电,已在ChatGPT的高级语音模式与实时API服务中大放异彩,尤其适合对响应速度要求苛刻的场景;第二种“链式方法”,则是本次发布会的重头戏,将处理流程巧妙分解为语音转文本、大型语言模型(LLM)处理与文本转语音三大环节,模块化设计便于独立优化,处理结果更稳定可靠,开发门槛大幅降低,开发者可轻松在现有文本系统上添加语音功能。
OpenAI还为这些语音交互系统增添多项增强功能:支持语音流式处理,实现连续音频输入输出;内置噪音消除利器,提升语音清晰度至新高度;语义语音活动检测精准捕捉用户发言时机;提供追踪UI工具,助力开发者轻松调试语音代理。
如今,这些全新音频模型已向全球开发者敞开怀抱。在http://OpenAI.fm网站上,你可亲身体验并制作gpt-4o-mini-tts的音频作品。该网站功能全面,左下角官方预设模板琳琅满目,人设、语气、方言、发音等设置一应俱全。我们实测了一段“八百标兵奔北坡”的绕口令,中文效果尚显稚嫩;而英文效果则颇为惊艳,诗歌朗诵颇具真人韵味。但与前不久风靡一时的Hume AI或Sesame相比,仍略显青涩。
此外,OpenAI还推出与Agents SDK的集成服务,进一步简化开发流程。同时举办一场别开生面的广播比赛。用户可在http://OpenAI.fm上制作音频作品,点击“分享”按钮生成链接后在X平台分享。最具创意的前三名作品将各获一台限量版Teenage Engineering OB-4合成器作为奖励。音频时长建议控制在30秒左右,在语音、表达、发音或剧本语调变化上尽情挥洒创意。
今年AI领域风向悄然生变。在智商依旧备受瞩目的同时,一股强调情感的潮流悄然兴起。GPT-4.5、Grok 3以情商为卖点,写作创意无限、回应个性化十足;冷冰冰的智元机器人也主打情绪价值,更拟人化。由于直接触及人类最本能的沟通方式——语音领域,在这方面的发力尤为显著。近期在硅谷大放异彩的Sesame AI能够实时感知用户情绪并生成情感共鸣的回应,迅速赢得大批拥趸。图灵奖得主Yann Lecun也强调未来AI需要具备情感。无论是OpenAI此次发布的全新语音模型还是即将亮相的Meta Llama 4都有意向原生语音对话靠拢,试图通过更自然的情感交互拉近与用户的距离,以“人味”俘获人心。
AI是否需要拥有“人味”?长期以来,聊天机器人常被视作没有情感的工具,它们也会在对话中善意提醒:“我只是一个没有灵魂的模型。”然而我们却往往能从它们的回应中解读出情绪价值,甚至不自觉地与之建立情感联结。或许人类天生渴望被理解、被陪伴,哪怕这种理解来自一台机器。
作者:辉达娱乐
新闻资讯 News
- 淮水竹副CP引爆全网:丁禹兮与...05-09
- 汪小菲巴厘岛度假偶遇照曝光,夫...05-09
- 徐大宝控诉育婴师事件:真相迷雾...05-09
- 知名画家张伯金与小38岁娇妻离婚...05-09