当前位置: 首页 > news >正文

5月8日OpenAI上线三款语音模型,GPT - Realtime - 2推理能力大幅提升,你看好谁接力?

5月8日,OpenAI在API中加入三款新一代语音模型,包括GPT - Realtime - 2、Realtime - Translate和Realtime - Whisper。其中,GPT - Realtime - 2推理能力显著提升。


GPT - Realtime - 2:会“想”的语音助手

它是OpenAI首个具备GPT - 5级别推理能力的语音模型。引入前导语机制,有并行工具调用与工具透明性能力,上下文窗口从32K扩展至128K,还增强了专业术语理解能力,有可调节的推理强度。

基准测试:完胜前代模型

在Big Bench Audio评估中,GPT - Realtime - 2(high推理级别)准确率达96.6%,较GPT - Realtime - 1.5提升15.2个百分点;在Audio MultiChallenge评测中,平均通过率跃升至48.5%,相对提升13.8个百分点。

实时翻译与转录:各有专攻

GPT - Realtime - Translate专注实时多语言翻译,支持超70种输入语言;GPT - Realtime - Whisper是流式语音转文本模型,适用于低延迟转录场景。

安全与定价:保障与成本

Realtime API部署多层护栏,开发者可叠加自定义安全护栏。GPT - Realtime - 2按语音token计费,Translate和Whisper按时长计费。

未来展望:谁来接力?

OpenAI首席执行官提到人们用语音与AI互动的趋势。如今其语音推理能力上新,下一个接力的会是谁值得期待。

编辑观点:OpenAI此次发布三款语音模型,提升了语音AI水平。其在推理、翻译和转录方面的升级,将推动语音交互发展,后续竞争或更激烈。

http://www.jsqmd.com/news/781673/

相关文章:

  • SimGRAG:用模拟检索数据解决RAG训练与评估难题
  • VibeLign:AI辅助编程的安全防护与项目管理工具
  • C裸机程序形式化验证实战手册(从Makefile到Proof Script全链路闭环)
  • 将地址转换为可点击的 Google Maps 链接(类似 tel
  • 如何高效实现跨平台3D模型转换:Blender MMD Tools专业指南
  • 基于Qt C++的土壤检测软件
  • egergergeeert FLUX.1-dev模型解析:强提示词理解能力实战验证
  • QNX AMP:汽车声学处理的软件定义革命
  • XUnity Auto Translator终极指南:让所有Unity游戏轻松跨越语言障碍
  • NaViL-9B惊艳效果展示:手写签名+印刷正文混合图像的分离识别能力
  • AI虚拟开发团队:基于Agent Skills规范构建结构化智能体协作
  • 全栈开发者技能图谱:从技术体系构建到高效学习路径
  • C语言基础项目升级:为传统学生管理系统加入智能语义检索
  • 防范SQL注入的SQL编码规范_禁用动态拼接字符串语句
  • 主子表的数据页面如何布局
  • Qwen3-4B-Thinking开源大模型部署教程:免Docker纯Python环境搭建
  • 科研小插曲
  • Linux中断控制器架构与处理流程详解
  • Qianfan-OCR部署教程:Docker镜像一键拉取+Streamlit界面自动启动
  • Super Qwen Voice World部署案例:中小企业AI配音降本提效实证
  • 高性能SQL解析库-fast-sqlparse
  • Flux.1-Dev深海幻境与物联网结合:为智能家居中控屏生成动态壁纸与场景图标
  • 3秒解锁网盘资源:baidupankey智能提取码解决方案
  • 一眨眼这只小狐狸发布 150 版了
  • Java 项目教程《尚庭公寓》租房信息管理 定时任务 41 - 49
  • 如何3秒获取百度网盘提取码:智能工具让资源获取不再烦恼
  • 跨文化自感经验的比较研究:Sh与佛学的概念对勘——解蔽、奠基与儒释道的元点汇通
  • 别再手动抠图了!用SAM3镜像+WebUI,5分钟搞定电商产品图背景分离
  • Go语言ECS框架GECS:游戏开发中的数据驱动架构实践
  • OpenClaw智能体断点续传插件:轻量级任务恢复方案详解