gpt-4o: 同声传译的终结者

看看科技观察芯情2024-05-19 10:06:32  127

自从 ChatGPT 出现,我就感觉,同声传译这个行业在未来5~10年会消失。

不过昨天 OpenAI 发布的 gpt-4o,让我感觉,人力同声传译的消失大概也就这1~2年的事。

这篇文章分两部分,我先简单谈谈同声传译这个行业,然后再来谈谈 OpenAI 发布的 gpt-4o 模型。

我读本科的时候大概09年左右,当时有一个大学老师,曾经在课堂上讲,市场上最紧缺的人才,其中一项就是同声传译,每年都能赚到一百多万。

我当时就在想,这工作好啊,工作也不累,在同声传译的小箱子里听外语,动动嘴皮子,翻译成中文,每场会议就能赚上万块钱。一年也能百万元收入。在09年左右,北京的一套100平的房子也就100多万啊。这是一年赚一套房子的节奏。

我当时在读电子信息专业,甚至冒出一个想法,要不自己也去尝试一下同声传译。

不过,后来我也慢慢了解了同声传译这种工作,实际上非常反人性。

首先,同声传译讲究实时性,它和别的笔译、口译不一样。它需要在讲话者说话的同时,实时进行翻译。

另外,同声传译一般都是在一些很专业的国际会议上,作为一个同声传译,你光懂外语没有用,必须得懂得专业知识,这样才能确保翻译顺利进行。面对“肌酸蛋白酶”你该知道怎么翻译,面对“中心极限定理”,你也得懂得是什么含义。总之,其实很多外语专业的人并没有这方面知识,也导致了无法胜任同传工作。

最后,同传这个工作,极其耗费脑力。我认识一个同学曾经做过一场同传,做完之后在床上躺了3天才缓过来。说白了,人体是有机能上限的,人是会疲累的。还有,除了同传现场工作强度很大之外。培养一个同传人才,也需要数年如一日的外语翻译学习。

同传一直都是翻译行业的最具挑战性的工作。

不过,好日子不长了,AI 即将替代这一工作。

其实,AI 替代 人类的工作,在翻译这个领域体现的淋漓尽致。

早在上个世纪90年代,我们国家迎来改革开发,与世界各个国家展开了贸易与合作,由此,懂得外语,尤其是诸如日语、俄语、德语、西班牙语等小语种,是非常吃香的职业,很多影视剧里,你都会看到,做跨国贸易生意的大老板身边往往都陪着一位妆容精致、仪态端庄,思维敏捷的女翻译。可以说,在那个年代,从事翻译是很体面,赚钱的白领工作。

然而,好日子不长,随着英语的普及,越来越多的人都能够和外国人流利地对话,物以稀为贵的效应减弱,翻译职业不再那么光鲜亮丽。此外,决定翻译职业不再光鲜的另一个很重要的点,就是 AI 机器翻译的崛起。

大约是2009年的时候,我那时读大学,曾经兼职为外贸公司翻译过合同,当时的人工费用是每千字(词)收费 60 元人民币。那时谷歌和百度在网站上已经提供了机器翻译服务,只是当时的 AI 机器翻译效果还比较差,每次翻译都需要人工去做修正和调整。

时间到了 2017年,谷歌开发的机器翻译软件已经能够覆盖 90%的 翻译场景。可以说,一个完全不懂外语的人,把中文或者外文丢在谷歌的网站上,就能够输出八九不离十的翻译结果。此时,相比接近 10年前,笔译价格反而成了每千字(词)收费 30 元人民币,还不如十年前。这就是 AI 替代人力的结果。

可以说,翻译行业 应该是最早遭受 AI 冲击的行业。很多从事翻译的人也都逐渐转向其它行业工作中。过去翻译还是个收入不错的可以养家糊口的工作,现在,你基本上看不到谁还能把翻译作为全职行业了。

当然,同声传译除外,确实有一批人靠着同声传译来谋生。不过,前段时间,我还认为,同声传译在未来5到10年也会被 AI 替代。

我大意了,没有闪。

OpenAI 发布了 gpt-4o 模型。首先 gpt4 大家都有目共睹,非常强悍,具备很多领域的专业知识。

而 gpt-4o 其实就是把这种文字交互的能力,转为语音方式说出来。而且这还不够,它还能理解视频画面,总之,它已经是具有文本、语音、图像三种模态的理解力。是一种全新的大模型。

最绝的是,gpt-4o 模型能够做到实时与人类交互

如果你之前用过 Siri 之类的语音助手,这里就可以看出明显的不同了。首先,你可以随时打断 AI 的话,不用等它说完就可以继续下一轮对话。其次,你不用等待,模型反应极快,比人类的回应还快。第三,模型能够充分理解人类的情感,自己也能表现出各种感情。

这里有个最关键的点,gpt-4o模型能理解并表现出人类的情感

说实话,此前我在抖音上见到一些翻译行业的up主,还会说,AI 无法替代人类翻译,因为 AI 的翻译没有感情,其实 gpt-4 来做各种笔译,gpt-4o来做各种口译、同声传译,都是完全可以的,而且,还可以带理解、带感情。

在现场,OpenAI 的工程师拿出一个 iPhone 演示了新模型的几种主要能力。其中,最重要是实时语音对话,Mark Chen 讲:「我第一次来直播的发布会,有点紧张。」ChatGPT 说,要不你深呼吸一下。

好的,我深呼吸。

ChatGPT 立即回答说,你这不行,喘得也太大了。

如果你之前用过 Siri 之类的语音助手,这里就可以看出明显的不同了。首先,你可以随时打断 AI 的话,不用等它说完就可以继续下一轮对话。另外你不用等待,模型反应极快,比人类的回应还快。第三,模型能够充分理解人类的情感,自己也能表现出各种感情。

说穿了,就是,gpt-4o 表现得非常自然,没有过去的 AI 的那种机器味儿

随后是视觉能力。另一个工程师在纸上现写的方程,让 ChatGPT 不是直接给答案,而是让它解释要一步步怎么做。看起来,它在教人做题方面很有潜力。

接下来尝试 GPT-4o 的代码能力。这有一些代码,打开电脑里桌面版的 ChatGPT 用语音和它交互,让它解释一下代码是用来做什么的,某个函数是在做什么,ChatGPT 都对答如流。

输出代码的结果,是一个温度曲线图,让 ChatGPT 以一句话的方式回应所有有关此图的问题。

其实,gpt-4o 里的 o,对应英文单词是 omnimodel,这里的 omni 就是全知全能的意思。模型无处不在,无所不知。颇有一种观世音菩萨的感觉。

关于同声传译,你可以看到,gpt-4o 在专业知识方面应该是碾压人类译员的,而且 AI 模型是机器,通电就能工作,也不会有累的干不动的时候。

最关键的一点来了,gpt-4o 可以做到实时,它最快可以在 232 毫秒的时间内响应音频输入,平均响应时长 320 毫秒,与人类相似。在 GPT-4o 发布之前,体验过 ChatGPT 语音对话能力的用户能够感知到 ChatGPT 的平均延迟为 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4)。

至此,翻译行业几乎可以说全军覆没,完全被 AI 替代。未来可能再也不会有同声传译了。

不过,如果你要问我,那还用学英语吗?

学英语还是很有必要的,至少在十到二十年之内。(或许这是我的毒奶,具体时间又会被提前呢?)

好了。其实,如果仅仅把 gpt-4o 拿来做翻译工具,真的是大材小用了。它的强大是整体性的,全知全能的强大。

来一个横向测评结果康康:

总之,我知道scaling law 一定会在多模态上展现超强的能力。我只是特别纳闷,为什么来的这么快?

我一直觉得,gpt4 这种带图像理解的模型会在几年后出现,但没想到它2023年4月就发布了。

我也一直以为,全模态(文字、图像、音频)的AI 模型至少也得等个3~5年吧。结果 gpt-4o现在就出了。

如果说 ChatGPT 刚出来时,我还有点兴奋和欣喜。现在的我就是:

其实现在的问题就是:

AI 科技的推进速度太快了,完全不给人类适应的时间。

生产力发展太快,生产关系完全跟不上这种超速的前进,导致人们很惊讶、很震惊、很害怕、很焦虑。

当你对一个技术习以为常时,说明你还很年轻。当你对一个技术感到恐惧,说明你已经开始老了。

讲真,看到 gpt-4o,我突然感觉自己有点老了~~~~

转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益,请与本站联系,我们将及时更正、删除、谢谢。
https://www.414w.com/read/554725.html
0
随机主题
三大消息:中方罕见打破沉默!“逮捕以总理”突响;美国紧急发声明明王漫妮接受了4000元的工资, 为啥还要和张志撕破脸?终结G1五连败! 独行侠自2021年以来首次赢下系列赛G1没想到!我真的成为了美人鱼?????♀?喜迎开门红! 双巨头狂轰63+11+12, 欧文关键罚球太稳, 华子没办法国外渔民用砗磲壳做陷阱,沉到海底珊瑚缝抓东星斑,大家见识一下亚太主要股指午间多数上涨一加12直降1200, 骁龙8Gen3专业影像旗舰大跳水, 618必选江苏: “夜经济”持续升温, 激活夜间消费活力全无人化Robotaxi,居然有这种骚操作?长城回应4s店起火,理性看待,拒绝天团式解说庆余年2唯一输家: 最牛星二代跌下神坛, 演技尴尬, 全程被吊打1962年投资1000万美元,真实装备与军人协助拍摄,被封为二战电影封神之作!辽篮夺冠发布会杨导感谢所有人!夸赞新疆主场新疆球迷!同样面对权臣, 孙亮谨小慎微, 曹髦英勇无畏, 谁更值得称道?精忠岳飞63:赵构连下十二道金牌,岳飞无奈班师回朝,朱仙镇的百姓嚎啕大哭……和国家队退役冯极内部教学赛实景,对抗性非常高,能力差距有点大国外网友看我们的四线城市,怎么显得有点激动事情正在起变化, 欧洲这次狠狠打脸美国澳洲人懒到什么极致程度? 一张照片刷爆全球, 拿下世界之最上海海港豪华攻击潜藏7+1小于7隐患, 徐正源敢让甘超1换1奥斯卡?
最新回复(0)