新品的璀璨亮点，犹如星辰般熠熠生辉：

日期：2025-03-21 09:58:36 / 人气：63

就在此刻，OpenAI 震撼发布三大音频新模型，并倾情打造专属新网站以飨众人。就在刚刚，OpenAI 揭开神秘面纱，于其API平台隆重推出全新一代音频模型，集语音转文本与文本转语音功能于一身，赋能开发者轻松驾驭语音交互新境界。

新品的璀璨亮点，犹如星辰般熠熠生辉：

“gpt-4o-transcribe”（语音转文本）：凭借单词错误率（WER）的显著下滑，在众多基准测试中力压群雄，超越现有Whisper模型，彰显卓越实力。

“gpt-4o-mini-transcribe”（精简版语音转文本）：作为gpt-4o-transcribe的轻盈化身，以更快速度与更高效率，演绎速度与激情的完美融合。

“gpt-4o-mini-tts”（文本转语音）：开创性地引入“可引导性”（steerability）概念，使开发者既能掌控“言之有物”，又能驾驭“言之有道”，实现前所未有的语音定制体验。

据OpenAI娓娓道来，gpt-4o-transcribe历经多样化、高品质音频数据集的长时间淬炼，精准捕捉语音微妙之处，大幅降低误识别率，转录可靠性跃上新台阶。因此，它更擅长应对口音繁复、环境嘈杂、语速多变等复杂场景，如客户服务中心、会议记录转录等领域，游刃有余。

gpt-4o-mini-transcribe则基于GPT-4o-mini架构，运用知识蒸馏技术，从大模型中汲取智慧。虽WER略逊于完整版，但仍优于Whisper前辈，成为资源有限场景下的高质量语音识别优选。两者在FLEURS多语言基准测试中，英语、西班牙语等表现尤为亮眼，超越Whisper v2与v3，彰显非凡实力。

价格方面，GPT-4o-transcribe亲民依旧，与Whisper前辈同价，每分钟仅需0.006美元；而gpt-4o-mini-transcribe则半价特惠，每分钟仅需0.003美元。同时，gpt-4o-mini-tts文本转语音模型惊艳亮相，开发者可随心所欲地设定语音风格，如“宁静致远”、“冲浪者的自由”、“专业风范”、“中世纪骑士的荣耀”等，甚至能根据指令调整风格，如“以富有同情心的客服姿态娓娓道来”，其定价同样亲民，每分钟仅需0.015美元。

安全无小事，OpenAI郑重承诺，gpt-4o-mini-tts将持续接受严格监控，确保其输出与预设合成风格丝丝入扣，不负众望。

这些技术飞跃的背后，凝聚着OpenAI的创新智慧：新音频模型根植于GPT-4o与GPT-4o-mini架构，以真实音频数据集为基，预训练铸就坚实基石；self-play方法创建的蒸馏数据集与知识蒸馏技术双管齐下，实现大模型到小模型的智慧传承；强化学习（RL）融入语音转文本技术，转录精度大幅提升，“幻觉”现象有效遏制。

在凌晨的直播盛宴中，OpenAI以一款AI时尚顾问Agent为引，生动展现技术魅力。当用户轻启朱唇：“我最近的订单是何物？”系统迅速响应：“您于2月9日订购的Patagonia短裤已发货。”后续提问中，订单号“A.D. 507”脱口而出，准确无误。

值得一提的是，OpenAI演示人员还揭秘两种构建语音Agent的技术路径：第一种“语音到语音模型”，端到端直接处理，语音输入直出回复，无需繁琐转换，处理速度如闪电，已在ChatGPT的高级语音模式与实时API服务中大放异彩，尤其适合对响应速度要求苛刻的场景；第二种“链式方法”，则是本次发布会的重头戏，将处理流程巧妙分解为语音转文本、大型语言模型（LLM）处理与文本转语音三大环节，模块化设计便于独立优化，处理结果更稳定可靠，开发门槛大幅降低，开发者可轻松在现有文本系统上添加语音功能。

OpenAI还为这些语音交互系统增添多项增强功能：支持语音流式处理，实现连续音频输入输出；内置噪音消除利器，提升语音清晰度至新高度；语义语音活动检测精准捕捉用户发言时机；提供追踪UI工具，助力开发者轻松调试语音代理。

如今，这些全新音频模型已向全球开发者敞开怀抱。在http://OpenAI.fm网站上，你可亲身体验并制作gpt-4o-mini-tts的音频作品。该网站功能全面，左下角官方预设模板琳琅满目，人设、语气、方言、发音等设置一应俱全。我们实测了一段“八百标兵奔北坡”的绕口令，中文效果尚显稚嫩；而英文效果则颇为惊艳，诗歌朗诵颇具真人韵味。但与前不久风靡一时的Hume AI或Sesame相比，仍略显青涩。

此外，OpenAI还推出与Agents SDK的集成服务，进一步简化开发流程。同时举办一场别开生面的广播比赛。用户可在http://OpenAI.fm上制作音频作品，点击“分享”按钮生成链接后在X平台分享。最具创意的前三名作品将各获一台限量版Teenage Engineering OB-4合成器作为奖励。音频时长建议控制在30秒左右，在语音、表达、发音或剧本语调变化上尽情挥洒创意。

今年AI领域风向悄然生变。在智商依旧备受瞩目的同时，一股强调情感的潮流悄然兴起。GPT-4.5、Grok 3以情商为卖点，写作创意无限、回应个性化十足；冷冰冰的智元机器人也主打情绪价值，更拟人化。由于直接触及人类最本能的沟通方式——语音领域，在这方面的发力尤为显著。近期在硅谷大放异彩的Sesame AI能够实时感知用户情绪并生成情感共鸣的回应，迅速赢得大批拥趸。图灵奖得主Yann Lecun也强调未来AI需要具备情感。无论是OpenAI此次发布的全新语音模型还是即将亮相的Meta Llama 4都有意向原生语音对话靠拢，试图通过更自然的情感交互拉近与用户的距离，以“人味”俘获人心。

AI是否需要拥有“人味”？长期以来，聊天机器人常被视作没有情感的工具，它们也会在对话中善意提醒：“我只是一个没有灵魂的模型。”然而我们却往往能从它们的回应中解读出情绪价值，甚至不自觉地与之建立情感联结。或许人类天生渴望被理解、被陪伴，哪怕这种理解来自一台机器。

作者：辉达娱乐

新品的璀璨亮点，犹如星辰般熠熠生辉：

新闻资讯 News

案例展示 Case

现在致电 xylmwohu OR 查看更多联系方式 →

现在致电 xylmwohu OR 查看更多联系方式 →