讯飞同传不断突破, 引领智能翻译新纪元

科技新鲜资讯2024-10-28 10:55:00  77

与传统翻译不同,讯飞同传不仅可以利用音频信息,还可以通过摄像头捕捉演讲人正在演讲的视频内容,并实时分析关键词,增强理解能力。同时,在捕捉关键词之后利用AI进行内容拓展,从而实现信息增值。

高效会议,从智能转写开始

在此基础上,讯飞同传可以更像一个专家和内行一样的解读和转写会议,提高会议效率。科大讯飞将其技术进步总结为三个能力升级:1. 感知能力:从单模态到多模态升级,结合视觉信息进行理解;2. 认知能力:不仅理解、推理,还能在多模态下理解复杂信息,提取关键内容,并通过AI对内容进行拓展,形成更丰富的信息;3. 实时处理:实时捕捉分析视频流,为每个演讲生成个性化引擎,并基于视频生成的语境做深度理解。具体来说,科大讯飞的技术让机器会听、会看、会思考。

逼近人工的转写能力

讯飞同传,机器转写距离人工速记的差距,主要在于实时处理和理解能力。科大讯飞模拟人眼、脑全方位配合的多感知工作方式,让机器转写效果更加接近人工速记。会听、会看并理解,指的是通过语音和图像识别技术识别音频和视频内容,实时捕捉语音信息,而“理解”则指基于自然语言处理等技术,广泛拓展语境理解,在此过程中,讯飞同传会为每次会议生成特定的语境模型,大幅提升转写准确度。

科大讯飞的创新之路

利用视频信息,讯飞同传针对演讲视频内容,语音识别准确率提升 21.7%,语义理解准确率提升 40.3%。在实际操作中,获取演讲视频内容有时无法提前准备,因此实时获取视频流内容很关键。实现这点,可以通过高清摄像头获取与现场分辨率和清晰度相近的视频,或使用普通摄像头拍摄。摄像清晰度需达标,以保证识别准确率。实际上,讯飞同传的视频识别准确率能达到 98%以上。

探索特定语境下的优化方案

获取视频信息较为直接,实时解析视频信息则更具挑战。由于缺乏预处理时间,即便有不断提升的个性化和理解能力,机器识别与人工仍有20-30%的差距。因此,讯飞同传探索如何在特定语境下优化机器表现。“情境适应性是关键。

海量数据,构建AI模型优势

凭借背后搜索引擎的支持,讯飞同传在语境理解上具有天然优势,海量数据积累助力AI模型,对竞争对手构成了显著的门槛。

从单一语音识别到多模态交互,科大讯飞历经技术迭代,逐步掌握了复杂环境下的理解推理能力。其发展历程中,不乏创新产品,如讯飞AI鼠标AM30实现了语音转文字、翻译等功能;2018年,讯飞听见2.0集成了语音合成技术,首次达成了语音到文字的即时转换,并能根据特定语料进行实时定制,同时引入了首个英文到中文的翻译引擎;直至2022年,科大讯飞的多模态交互技术已是集视听于一体的成熟产品,具备了理解、推理的高级特性。讯飞同传,作为科大讯飞多模态交互技术的集大成者,正不断突破技术边界,引领行业前行。

转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益,请与本站联系,我们将及时更正、删除、谢谢。
https://www.414w.com/read/1421180.html
0
随机主题
河南队换帅势在必行, 李金羽突然辞职, 两者的交集可能是杨晨新手练车最基本最开始需要练习的起步停车,可以循环练习,感受离合器的运用娶过三个老婆的五位男明星蒸烤箱不用选贵的,但一定要买对的!老牌工业镇走出“小巨人”, “小五金之乡”全球掘“金”|高质量发展调研行24年,叶挺向李秀文提亲失败,未来岳父:你什么时候当了团长再来刘亦菲在西班牙压马路《乘风2024》宣布将直播, 被质疑投票数据注水, 节目组回应: 将对异常数据予以清除处理神印王座: 龙皓晨晋升七阶, 圣采儿完成神眷觉醒, 阿宝被打败中国曾打败过这么多国家,你说中国强不强?中国警告不到24小时, 菲推出替罪羊, 正中我们下怀, 菲走向死路大批澳洲华人不知道: 回国花的钱, 居然可以找回来!布林肯松口可使用美国武器袭击俄国本土: 乌克兰将做出自己的决定贸易商表示, 由于巴西价格坚挺, 中国购买美国大豆精忠岳飞63:赵构连下十二道金牌,岳飞无奈班师回朝,朱仙镇的百姓嚎啕大哭……双人封神局!火箭防守坚若磐石,马叔进攻无孔不入一口价6.99万起,标配1.5T+双大屏+独悬,探店2024款瑞虎7外交部: 对12家美国军工企业及10名高管采取反制措施银行降薪潮来袭, 如何保稳钱袋子?加油站的汽油都藏在哪里?那么多的油,是怎么防止它发生危险的?独行侠被狼队压制! 欧文24+1东契奇6中1, 华子13+8, 李凯尔大爆发
最新回复(0)