gpt-4o: 同声传译的终结者

看看科技观察芯情2024-05-19 10:06:32 127

自从 ChatGPT 出现，我就感觉，同声传译这个行业在未来5~10年会消失。

不过昨天 OpenAI 发布的 gpt-4o，让我感觉，人力同声传译的消失大概也就这1~2年的事。

这篇文章分两部分，我先简单谈谈同声传译这个行业，然后再来谈谈 OpenAI 发布的 gpt-4o 模型。

我读本科的时候大概09年左右，当时有一个大学老师，曾经在课堂上讲，市场上最紧缺的人才，其中一项就是同声传译，每年都能赚到一百多万。

我当时就在想，这工作好啊，工作也不累，在同声传译的小箱子里听外语，动动嘴皮子，翻译成中文，每场会议就能赚上万块钱。一年也能百万元收入。在09年左右，北京的一套100平的房子也就100多万啊。这是一年赚一套房子的节奏。

我当时在读电子信息专业，甚至冒出一个想法，要不自己也去尝试一下同声传译。

不过，后来我也慢慢了解了同声传译这种工作，实际上非常反人性。

首先，同声传译讲究实时性，它和别的笔译、口译不一样。它需要在讲话者说话的同时，实时进行翻译。

另外，同声传译一般都是在一些很专业的国际会议上，作为一个同声传译，你光懂外语没有用，必须得懂得专业知识，这样才能确保翻译顺利进行。面对“肌酸蛋白酶”你该知道怎么翻译，面对“中心极限定理”，你也得懂得是什么含义。总之，其实很多外语专业的人并没有这方面知识，也导致了无法胜任同传工作。

最后，同传这个工作，极其耗费脑力。我认识一个同学曾经做过一场同传，做完之后在床上躺了3天才缓过来。说白了，人体是有机能上限的，人是会疲累的。还有，除了同传现场工作强度很大之外。培养一个同传人才，也需要数年如一日的外语翻译学习。

同传一直都是翻译行业的最具挑战性的工作。

不过，好日子不长了，AI 即将替代这一工作。

其实，AI 替代人类的工作，在翻译这个领域体现的淋漓尽致。

早在上个世纪90年代，我们国家迎来改革开发，与世界各个国家展开了贸易与合作，由此，懂得外语，尤其是诸如日语、俄语、德语、西班牙语等小语种，是非常吃香的职业，很多影视剧里，你都会看到，做跨国贸易生意的大老板身边往往都陪着一位妆容精致、仪态端庄，思维敏捷的女翻译。可以说，在那个年代，从事翻译是很体面，赚钱的白领工作。

然而，好日子不长，随着英语的普及，越来越多的人都能够和外国人流利地对话，物以稀为贵的效应减弱，翻译职业不再那么光鲜亮丽。此外，决定翻译职业不再光鲜的另一个很重要的点，就是 AI 机器翻译的崛起。

大约是2009年的时候，我那时读大学，曾经兼职为外贸公司翻译过合同，当时的人工费用是每千字（词）收费 60 元人民币。那时谷歌和百度在网站上已经提供了机器翻译服务，只是当时的 AI 机器翻译效果还比较差，每次翻译都需要人工去做修正和调整。

时间到了 2017年，谷歌开发的机器翻译软件已经能够覆盖 90%的翻译场景。可以说，一个完全不懂外语的人，把中文或者外文丢在谷歌的网站上，就能够输出八九不离十的翻译结果。此时，相比接近 10年前，笔译价格反而成了每千字（词）收费 30 元人民币，还不如十年前。这就是 AI 替代人力的结果。

可以说，翻译行业应该是最早遭受 AI 冲击的行业。很多从事翻译的人也都逐渐转向其它行业工作中。过去翻译还是个收入不错的可以养家糊口的工作，现在，你基本上看不到谁还能把翻译作为全职行业了。

当然，同声传译除外，确实有一批人靠着同声传译来谋生。不过，前段时间，我还认为，同声传译在未来5到10年也会被 AI 替代。

我大意了，没有闪。

OpenAI 发布了 gpt-4o 模型。首先 gpt4 大家都有目共睹，非常强悍，具备很多领域的专业知识。

而 gpt-4o 其实就是把这种文字交互的能力，转为语音方式说出来。而且这还不够，它还能理解视频画面，总之，它已经是具有文本、语音、图像三种模态的理解力。是一种全新的大模型。

最绝的是，gpt-4o 模型能够做到实时与人类交互。

如果你之前用过 Siri 之类的语音助手，这里就可以看出明显的不同了。首先，你可以随时打断 AI 的话，不用等它说完就可以继续下一轮对话。其次，你不用等待，模型反应极快，比人类的回应还快。第三，模型能够充分理解人类的情感，自己也能表现出各种感情。

这里有个最关键的点，gpt-4o模型能理解并表现出人类的情感。

说实话，此前我在抖音上见到一些翻译行业的up主，还会说，AI 无法替代人类翻译，因为 AI 的翻译没有感情，其实 gpt-4 来做各种笔译，gpt-4o来做各种口译、同声传译，都是完全可以的，而且，还可以带理解、带感情。

在现场，OpenAI 的工程师拿出一个 iPhone 演示了新模型的几种主要能力。其中，最重要是实时语音对话，Mark Chen 讲：「我第一次来直播的发布会，有点紧张。」ChatGPT 说，要不你深呼吸一下。

好的，我深呼吸。

ChatGPT 立即回答说，你这不行，喘得也太大了。

如果你之前用过 Siri 之类的语音助手，这里就可以看出明显的不同了。首先，你可以随时打断 AI 的话，不用等它说完就可以继续下一轮对话。另外你不用等待，模型反应极快，比人类的回应还快。第三，模型能够充分理解人类的情感，自己也能表现出各种感情。

说穿了，就是，gpt-4o 表现得非常自然，没有过去的 AI 的那种机器味儿。

随后是视觉能力。另一个工程师在纸上现写的方程，让 ChatGPT 不是直接给答案，而是让它解释要一步步怎么做。看起来，它在教人做题方面很有潜力。

接下来尝试 GPT-4o 的代码能力。这有一些代码，打开电脑里桌面版的 ChatGPT 用语音和它交互，让它解释一下代码是用来做什么的，某个函数是在做什么，ChatGPT 都对答如流。

输出代码的结果，是一个温度曲线图，让 ChatGPT 以一句话的方式回应所有有关此图的问题。

其实，gpt-4o 里的 o，对应英文单词是 omnimodel，这里的 omni 就是全知全能的意思。模型无处不在，无所不知。颇有一种观世音菩萨的感觉。

关于同声传译，你可以看到，gpt-4o 在专业知识方面应该是碾压人类译员的，而且 AI 模型是机器，通电就能工作，也不会有累的干不动的时候。

最关键的一点来了，gpt-4o 可以做到实时，它最快可以在 232 毫秒的时间内响应音频输入，平均响应时长 320 毫秒，与人类相似。在 GPT-4o 发布之前，体验过 ChatGPT 语音对话能力的用户能够感知到 ChatGPT 的平均延迟为 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4)。

至此，翻译行业几乎可以说全军覆没，完全被 AI 替代。未来可能再也不会有同声传译了。

不过，如果你要问我，那还用学英语吗？

学英语还是很有必要的，至少在十到二十年之内。（或许这是我的毒奶，具体时间又会被提前呢？）

好了。其实，如果仅仅把 gpt-4o 拿来做翻译工具，真的是大材小用了。它的强大是整体性的，全知全能的强大。

来一个横向测评结果康康：