OpenAI 实时语音三件套：$6/小时，同传行业的噩梦来了

如果说过去两年 AI 替代工作的讨论，还主要停留在文案、客服、程序员这些高频职业上，那么 OpenAI 最新一组实时语音模型，把冲击带到了一个更具体、也更昂贵的行业：同声传译。

按目前公开信息和选题素材整理，OpenAI 这次同步推出了三类实时语音能力：面向对话代理的 GPT-Realtime-2，面向实时翻译的 GPT-Realtime-Translate，以及面向流式转写的 GPT-Realtime-Whisper。

三者合在一起，基本拼出了一个完整的语音 AI 工作流：先听懂，再转写，再翻译，必要时还能继续对话、追问和执行任务。

真正让人警觉的不是“AI 会翻译”这件事。机器翻译早就存在了。关键变化有两个：第一，它开始足够实时；第二，它的价格开始低到足以改变采购决策。

同传行业为什么会被盯上？

同声传译一直是语言服务行业里门槛最高、单价最高的工作之一。

一个专业同传译员，不只是把中文翻成英文、英文翻成中文。他需要在几秒钟内完成听辨、理解、术语匹配、语序重组和语气控制。遇到政治、法律、医学、金融这种高密度场景，还要提前准备术语表，理解会议背景，甚至判断发言人的真实意图。

所以它贵是有理由的。

大型国际会议通常需要两名同传轮换工作，因为长时间高强度听译会迅速消耗注意力。高端同传的日费可以达到数千美元，具体价格取决于语种、领域、地点和会议规格。对跨国公司、国际组织、医学会议、法律谈判来说，这笔钱以前是必要成本。

但 AI 最擅长挑战的，恰恰就是这种“以前没得选”的成本结构。

如果一套实时语音 API 可以按小时计费，选题素材里提到的价格量级是每小时约 6 美元，那么很多企业第一次会认真问一个问题：这场会议真的需要专业同传吗？还是说，AI 已经够用了？

三件套各自解决什么问题？

这次的重点不在单个模型，而在组合。

GPT-Realtime-Whisper 负责把语音实时转成文字。它对应的是会议字幕、直播字幕、访谈记录、课堂转写这些场景。过去这些工作要么依赖人工速记，要么依赖录音后处理。实时转写一旦足够稳定，就会把“会后整理”变成“会中生成”。

GPT-Realtime-Translate 负责实时翻译。它是对同传行业冲击最大的部分。传统机器翻译通常是文本进、文本出，而实时翻译的难点在于语音输入连续不断，句子还没说完，系统就要开始判断语义方向。如果等整句结束再翻译，延迟太高；如果太早翻译，又容易误判。

GPT-Realtime-2 则让语音系统不只是一个翻译器，而更像可以对话的语音 Agent。它可以理解上下文、追问、解释、纠错，甚至根据会议内容执行下一步任务。比如会议中有人说“把刚才那段总结成英文发给客户”，这不再只是转写或翻译，而是语音理解加任务执行。

这也是 OpenAI 的真实野心：不是做一个更好的字幕工具，而是把语音变成 AI Agent 的入口。

OpenAI 实时语音三件套工作流

$6/小时改变的不是价格，而是使用习惯

很多技术替代并不是从“效果完全超过人类”开始的，而是从“便宜到可以大量试用”开始的。

专业同传当然仍然有明显优势。高级译员能处理讽刺、隐喻、外交辞令、行业黑话，也能在发言人逻辑混乱时做适度补全。他们知道什么时候该直译，什么时候该意译，什么时候该保留模糊性。

但不是每个场景都需要这种能力。

跨国公司内部例会、产品培训、普通商务沟通、线上研讨会、客服回访、出海团队日常协作，这些场景追求的不是完美表达，而是“听得懂、跟得上、不误事”。一旦 AI 在这些场景达到 80 分或 85 分，人类译员的 95 分就会变成高端选项，而不是默认选项。

这就是定价的杀伤力。

当一个团队以前因为预算问题不开双语会议，现在可以直接打开 AI 同传；当一个中小企业以前请不起专业口译，现在可以用 API 接入会议系统；当一个线上活动以前只服务中文用户，现在可以低成本支持英文、日文、西语字幕，市场会迅速扩大。

AI 不一定先替代最顶级的同传，但会先吃掉大量中低端、标准化、重复性的语言服务需求。

AI 同传 API 对人工同传的成本冲击

哪些场景最先被改变？

最先被改变的，大概率是容错率较高、语言风格较标准、领域术语相对固定的场景。

比如企业内部会议。参会者本来就知道业务背景，即使 AI 翻译有少量不自然，也可以通过上下文理解。对企业来说，只要能显著降低跨国协作成本，就有足够动力尝试。

其次是线上课程和网络研讨会。讲者语速相对稳定，内容可提前准备，字幕和翻译可以结合课件、术语表进行优化。AI 在这里不需要承担外交风险，只需要帮助更多人理解内容。

第三类是客服和销售沟通。尤其是跨境电商、SaaS 出海、在线教育这类高频场景，实时翻译可以直接扩大服务半径。过去一个中文客服很难服务西语用户，现在 AI 可以把语言障碍压低到可以接受的程度。

最难被替代的，则是政治峰会、法律庭审、医学诊断、并购谈判这类高风险场景。这里的问题不是 AI 能不能翻译，而是谁为错误负责。一个术语错译、一个否定词漏掉、一个语气判断失误，都可能带来严重后果。

所以真正的分界线不是“AI 能不能翻译”，而是“这个场景是否允许 AI 犯错”。

同传不会消失，但职业结构会变

更现实的判断是：同传行业不会一夜消失，但会被重新分层。

顶级同传会继续存在，甚至更值钱。他们服务的是高风险、高规格、高保密性的场合。客户买的不只是语言转换，更是专业判断、现场控制和责任背书。

中间层会受到最大挤压。过去很多会议默认请人工同传，是因为没有低成本替代品。现在如果 AI 能覆盖大部分需求，客户会把人工同传留给关键环节，而不是整场会议全程使用。

低端和标准化翻译服务会最先被自动化。尤其是没有强专业壁垒、没有强责任要求、内容高度重复的场景，会迅速变成 AI 的主场。

未来译员的工作也可能从“现场实时翻译”变成“AI 译文监督员”“术语库维护者”“高风险段落审核者”“跨文化表达顾问”。也就是说，人类不再负责每一句话，而是负责系统边界和关键判断。

这对从业者来说并不轻松，因为岗位数量可能减少，能力要求却会上升。

对中国市场意味着什么？

中国本来就是实时语音和翻译技术的重要市场。科大讯飞、腾讯会议、钉钉、飞书、百度、阿里云都在会议转写、实时字幕、同传翻译上有长期投入。

OpenAI 这类产品的压力在于，它不是单点语音识别能力，而是把语音识别、翻译、推理和 Agent 能力打包在一起。国内厂商如果只把它看成“同传功能竞争”，可能会低估它的影响。

真正的竞争会转向三件事。

第一是生态入口。谁能进入会议软件、直播平台、客服系统、企业办公套件，谁就能占据使用场景。

第二是行业适配。医疗、法律、金融、制造业的术语和流程不同，通用模型不一定好用。国内厂商如果能在垂直行业里做深，仍然有机会。

第三是合规与本地化。企业会议、政府会议、医疗数据不可能随便上传到境外 API。本地部署、私有化、数据安全，会成为国内厂商的重要护城河。

所以这不是 OpenAI 单方面碾压所有人的故事，而是实时语音 AI 从“功能演示”进入“产业采购”的信号。

真正的拐点：AI 开始进入“耳朵”和“嘴巴”

过去的大模型主要通过文字和图片进入工作流。你要打字提问，复制材料，等待回复。语音模型成熟以后，AI 会更自然地进入会议、电话、直播、课堂、销售、客服和线下服务场景。

这意味着 AI 不再只是办公桌上的工具，而是开始接入人类最自然的沟通方式。

同传行业只是第一个被明显照亮的行业。接下来受到冲击的，还会包括电话客服、会议助理、速记员、外语培训、跨境销售、直播字幕、播客翻译和视频本地化。

当语音输入、实时翻译和智能回复连在一起，很多“语言中介型工作”都会被重新定价。

结语

OpenAI 的实时语音三件套，表面上是一次 API 更新，实际上是在告诉市场：实时语音 AI 已经接近可以规模化商业使用的临界点。

它不会马上替代所有同传，也不会在高风险场景里立刻取代专业译员。但它会先从低风险、高频、价格敏感的场景开始，把“请一个人来翻译”变成“调用一个 API”。

对同传行业来说，最危险的不是 AI 已经完美，而是 AI 开始足够便宜、足够实时、足够好用。

很多行业被 AI 改变，并不是从技术达到 100 分那一天开始的，而是从客户发现“80 分已经够用，而且便宜很多”那一天开始的。

参考来源

OpenAI 官方网站：https://openai.com/
科大讯飞官网：https://www.iflytek.com/