本文字数: 2800, 阅读完需: 14 分钟
导读
在”亚马逊云科技出海日2024”上,演讲者分享了”亚马逊云科技生成式AI能力加速泛娱乐行业全球化”。在这个演讲中,演讲者讨论了如何利用生成式AI技术推动泛娱乐行业的全球化发展;具体解释了生成式AI在文本处理、自然语言对话、创意创作等方面的应用,以及如何通过微调大模型来满足特定行业需求。演讲重点阐述了亚马逊云科技如何通过强大的基础设施和全面的解决方案,使客户能够提高工作效率、创新虚拟陪伴体验、加速内容创作等,从而获得更好的用户体验、更高的运营效率和更多的商业价值。这个演讲由亚马逊云科技公司带来。
演讲精华
以下是小编为您整理的本次演讲的精华,共2500字,阅读时间大约是12分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。
亚马逊云科技在2024年”出海日”活动上,媒体云娱乐行业专家段波先生为与会者分享了亚马逊云科技如何利用深度学习人工智能(Deep Learning AI)能力,加速泛娱乐行业实现全球化创新。
一开始,段波先生调侃说前两位女士的语速很快,为大家抢回了大约10分钟的时间,所以他提前开始是为了迎合大家对他的期待。他认为娱乐行业本身就很有趣,因此今天的分享应该采用一种娱乐的心态,以比较轻松的方式来探讨亚马逊云科技如何助力大家的业务在全球快速落地。
为了引出生成式人工智能(GNI)技术的发展趋势,段波先生打了一个生动的比喻。他提到前两天富士公司发布了X100第六代相机,这款相机需要抽签购买,黄牛价格高达两三万元人民币。有人开玩笑说,不如直接买一台徕卡相机作为替代品。段波先生补充说,伊拉克同时也发布了这款相机,而且由于当地市场需求较小,相机供应充足,如果大家真的去伊拉克考察的话,可以去看一下这款相机。
接下来,段波先生用两张图来分享他对GNI技术发展趋势的理解。第一张曲线图反映了人类对一项新技术的平均接受过程。在最开始的阶段,人们对这项新技术往往会有一种震撼,认为它可以实现以前所有的幻想。例如在实验室环境中,人工智能已经可以像人一样自然交互了。然而,当更多普通用户开始尝试这项技术时,就会出现一个失望期,感觉它的能力有限,找不到真正的应用场景。
不过,这只是暂时的低谷。随着技术和数据的不断积累,它会逐渐被重新接受并反弹。段波先生认为,GNI技术目前正处于这条曲线的顶点阶段,给人一种出乎意料的震撼体验。但未来也必然会经历一个短暂的失望期,最终在持续迭代中获得成熟。
第二张图是Gartner对GNI技术在数据安全、应用、基础模型四个领域的分析。在应用层的左上角黄色区域,代表了今年最有希望落地的AI助理类应用场景。这与前面的分析高度一致,AI助理正是GNI技术在自然语言交互方面的一个典型应用。
段波先生继而介绍了三种主流的GNI技术路线:基于外部数据增强、提示工程和微调。从能力上看,GNI技术在文本和多模态(图像、视频)领域都取得了长足进步。尤其是在文本领域,大型语言模型的token数已经突破百万级,甚至有可能达到两个百万级,可以学习吸收大量文字资料,助力文本创作。他粗估,从中国建国以来所有的论文加起来,token数可能都不到两个百万级。
多模态方面,声网的童蕊老师提到了Zara这款产品,它可以根据提示生成图像和视频,在业内引起不小的关注。不过,经过深入观察,段波先生发现Zara在视频生成方面还存在一些瑕疵。他透露,一家亚马逊的客户将在4月15日左右发布一款真正的纹身视频生成产品,可以直接根据提示生成视频,而非拼接静态图像。这家客户一直在低调地与亚马逊深度合作,利用亚马逊的云服务进行模型训练,大家可以关注一下这一里程碑式的产品发布。
除了基础能力的提升,整合调度也是GNI技术的一个发展方向。例如FunTeam的概念,让AI助理通过调度不同功能来完成复杂任务,比如订票、订酒店等。不过,段波先生认为,目前这种Agent能力还是比较有限的。他举了一个实际案例,有客户尝试让AI助理完成订票订酒店的整个流程,但发现存在很多问题,比如无法判断酒店位置是否符合需求,也无法识别钓鱼网站的真伪。因此,在Agent应用层面,目前的落地场景还相对有限。
那么,GNI技术在泛娱乐行业中的应用场景主要有哪些呢?段波先生总结了三个主要方向:文字处理、自然语言对话和创意创作。
文字处理方面,大型语言模型token数的提升,为网络文学、短视频剧情等内容创作提供了新的可能。段波先生观察到,未来对剧情的实时响应性会有更高的要求。比如,短剧的拍摄周期很短,制作可能会迅速下沉到个人层面,观众是否可以参与进来,影响剧情的发展?这种即时响应观众喜好的能力,将成为衡量客户满意度的一个新维度。
自然语言对话方面,AI助理无疑是一个非常有前景的应用场景。段波先生分享了一个有趣的客户案例:这个客户的研发团队非常大,包括大数据团队,人员流动也比较频繁。他们面临的一个挑战是,如何将团队内部积累的知识和经验转化为一个知识库,让新人可以通过自然语言的方式快速获取这些信息。客户正在考虑利用亚马逊的AI服务,构建这样一个知识库系统。
另一个场景是客服,过去社交媒体公司往往只重视头部大客户,而忽视了长尾小客户。有了AI助理后,这部分客户的常见问题如充值未到账、掉线等,都可以得到快速响应,提高运营效率。段波先生分享,已经有客户在使用亚马逊的AI语音服务,为长尾客户提供智能客服解决方案。
创意创作方面,生成图像、视频等内容是一个热门领域,但段波先生认为,要真正发挥价值,需要将整个工具链整合起来。他拜访了那家准备发布纹身视频生成产品的客户,亲自体验了一下,感到非常震撼。这款产品可以通过简单的提示,生成详细的分镜头剧本,然后直接生成2-3秒甚至1分钟的视频片段。用户只需要简单的拖拽操作,就可以将满意的片段拼接成一个完整的视频,整个流程仅需5分钟就能完成一个香水广告的制作。这家客户一直在利用亚马逊的AI服务进行模型训练和部署。
段波先生指出,这种快速拼接、无需遵循逻辑连贯性的特点,使得广告视频制作成为GNI技术一个理想的应用场景。相比电影需要情节连贯,广告片场景可以随意切换,反而更利于发挥GNI的能力。他还与一些社交媒体客户探讨过,GNI或许可以帮助MCN(多渠道网络)等机构快速制作图文视频内容,以推广自身品牌和吸引流量。这些客户也在考虑使用亚马逊的AI视觉服务,来辅助内容创作。
接下来,段波先生将视角拉回到亚马逊云科技的技术栈上。他强调,无论是使用纯粹的推理芯片(如A100、H100)还是亚马逊自研的推理芯片,亚马逊在GNI基础能力层面都是非常强大的。如果客户在管理训练框架方面有困难,亚马逊可以提供SageMaker等服务;如果连这一层客户也不想自己操作,那么亚马逊有成熟的大模型可供API调用,比如通过Amazon Lambda函数直接调用API。
不过,段波先生也指出一个问题,就是如果应用完全依赖大模型API,由于token消耗很快,可能会导致成本很高。因此,很多客户不得不考虑在本地部署一个Fine-tune过的大模型,来降低使用成本。这种本地化部署可以借助亚马逊的Amazon Outposts等服务实现。
那么,客户应该选择哪种GNI技术路径呢?段波先生分享了一项有趣的数据分析:在流量最大的前100个GNI应用中,有5家自建了Foundation Model,4家对公开模型进行了Fine-tune,只有1家直接使用了第三方大模型API。可见,自建模型和本地化定制是主流路径。
不过,自建Foundation Model的门槛较高,因此亚马逊也为客户提供了行业化调优的服务,根据不同场景(1V1、1VM、语音、视频等)对模型进行微调,来支持特定的功能需求。这项服务可以借助亚马逊的AI服务实现。
那么,GNI技术在泛娱乐行业的商业模式是什么呢?段波先生首先分享了一个有趣的客户故事。他曾在美国中部的一个农村地区生活,那里人口较少,路况也比较差。当时州长彭斯的母亲就住在他家附近,只隔了一条街,所以彭斯回家看母亲时,整条街都会被封锁,特勤车辆进进出出。
有一次,段波先生去4S店买车,销售人员向他推荐的并不是动力性能或智能驾驶,而是一项叫”夜视(Night Vision)“的功能。原来,由于那里路况差、路灯少,如果使用远光灯,会刺激附近的鹿类动物冲过来撞车。因此,夜视功能可以在暗光环境下检测路面动物,避免发生事故。一开始,段波先生对这个功能的作用并不理解,直到后来当地人向他解释了使用场景,他才恍然大悟。
通过这个故事,段波先生想要阐明的是,对于一个看似不合理的需求,只有深入了解背后的使用场景,才能理解它的价值所在。同理,GNI技术的应用场景,也需要结合实际需求来判断是否有价值。
接下来,段波先生分享了另一个有趣的客户故事,体现了GNI技术在美国社交场景的一个潜在应用机会。在美国,新人结婚后有一个习俗,就是在沃尔玛、Target等商场建立一个”Vision List”,将自己需要的家居用品一一列出。亲朋好友可以通过这个列表,按照与新人的亲疏程度,选择合适的礼物购买并送货。段波先生认为,这种场景或许可以在国内复制,为GNI技术的应用开辟一个新的赛道。
回到GNI技术本身,段波先生总结了两个目前最有希望落地的应用场景:提高运营效率和虚拟陪伴。
提高运营效率方面,除了前面提到的客服场景外,GNI技术还可以用于智能内容审核。例如,很多直播平台为了鼓励主播长时间在线,会设置类似”直播4小时获得xx奖励”的机制,但一些主播为了薅羊毛,可能会直接开着摄像头睡觉。现有的视频检测方式较为粗暴,需要人工观察,而GNI则可以通过抽帧的方式,每隔一段时间识别一次画面,自动发现是否有违规行为,提高审核效率。段波先生透露,已有客户在使用亚马逊的计算机视觉服务,来辅助这种反薅羊毛的内容审核工作。
另一个有潜力的场景是虚拟陪伴。段波先生认为,GNI技术可以在情感价值层面为用户提供一种自我情绪宣泄的”树洞”体验。有时人们会有一些话不想对熟人说,此时一个虚拟的AI助理就可以提供这种陪伴。在这个场景中,一个值得探讨的问题是,AI助理是否需要拥有记忆能力?人与人的正常社交中,我们通常不会完全记住所有细节,只有特别重要的事情才会留在记忆里。但如果AI助理对所有对话都做到完全记录,会给人一种怪异的体验。因此,在虚拟陪伴场景下,AI助理的记忆能力需要恰到好处。
段波先生还分享了一个在韩国兴起的有趣现象。由于韩国社会相对封闭,新事物一旦被接受就难以改变,因此近两年在韩国兴起了一种基于MBTI(Myers-Briggs Type Indicator)人格分析的社交软件,颇受欢迎。他认为,这种应用场景或许可以在其他地区复制,为GNI技术的虚拟陪伴能力提供新的出口。
总的来说,段波先生对GNI技术在泛娱乐行业的应用前景持乐观态度。他认为,GNI技术今年最有希望落地的两个主要场景是:提高运营效率(如客服、内容审核等)和虚拟陪伴。在这两个领域,亚马逊云科技都在积极探索,提供从芯片到API的全栈服务支持,希望与行业同仁一起推动GNI技术的创新应用。
最后,段波先生呼吁大家以一种娱乐的心态,共同探索亚马逊云科技如何利用GNI能力,帮助大家的业务在全球快速落地,实现创新发展。
下面是一些演讲现场的精彩瞬间:
亚马逊云科技高管以轻松娱乐的方式探讨如何帮助企业在全球快速落地
销售员生动形象地解释了夜视功能在偏远地区驾驶时的重要性,颠覆了传统认知。
亚马逊云科技出海日演讲中,演讲者分享了一个生动有趣的例子,说明了亚马逊云科技的NarVision功能在山区驾驶时如何提高安全性和便利性。
亚马逊云科技 GMI正在探索利用人工智能技术实时响应观众喜好,为短剧创作带来新的可能性。
亚马逊云科技 领导人分享了 AI 生成内容的惊人能力,如通过简单的提示即可生成香水广告视频,展现了 AI 在创意创作领域的巨大潜力。
虚拟分身可以满足情绪宣泄和自我表达的需求,并在人机交互中拓展到心理咨询、算命等多个领域。
在韩国,人格分析社交软件mbti和虚拟陪伴应用有望成为新的热门趋势。
总结
亚马逊云科技生成式AI能力加速泛娱乐行业全球化
生成式AI(GNI)技术正在快速发展,其应用前景广阔。演讲者从GNI技术发展历程、应用场景、商业模式等多个角度进行了深入探讨。
GNI技术经历了从概念提出到技术突破再到落地应用的过程,目前处于一个新的拐点,能力大幅增强但仍有局限性。
主要应用场景包括文字处理、自然语言对话、创意创作等,可提高工作效率、虚拟陪伴等,但真正落地的案例仍较少。
商业模式以订阅制、广告、购买道具为主,用户付费意愿较高,但训练和推理成本也较高,需要寻求平衡。
亚马逊云科技在芯片、框架、API等多个层面为GNI应用提供全面支持,可助力行业落地实践。
呼吁业内同仁共同探索GNI在泛娱乐领域的创新应用,推动行业全球化发展。