伴随着人工智能技术近年来的飞速发展,越来越多的企业都认识到了生成式AI与大模型的巨大价值。而如何构建具有商业价值的生成式AI应用,也理所当然地成为了广大企业关注的焦点话题。
那么问题就来了:要想打造适合自身业务的生成式AI应用,企业应该从什么方面入手?又需要具备怎样的能力?
对于这个问题,亚马逊云科技大中华区产品部总经理陈晓建给出了这样的答案:“企业需要的是懂业务、懂用户的生成式AI应用,而打造这样的应用,需要从数据做起。”
构建生成式AI应用的数据基石
“在生成式AI时代,数据是企业取得成功的关键。”谈到数据在生成式AI时代的作用,陈晓建如是表示,“每一家公司都能访问相同的基础模型,但是那些能够利用自己的数据,构建具有真正商业价值的生成式AI应用的公司,才会在这个时代取得成功。”
陈晓建指出,不同的企业运用自身的数据,才有了差异化的生成式AI应用。而通过数据定制基础模型的方式,则可以根据不同的应用场景,分为检索增强生成(Retrieval-Augmented Generation,简称RAG)、微调、持续预训练这三大类。亚马逊云科技旗下的Amazon Bedrock对这三类模型定制方式都提供了支持。
1、检索增强生成(RAG):企业可将自身的知识库、数据库等与生成式AI模型结合,在生成过程中实时检索和利用企业内部的相关数据,从而提高生成结果的准确性、一致性和信息量。该方式相对较为简便,适合知识时效性、控制幻觉、用户隐私数据保护、企业私域知识等应用场景。
2、微调:使用与目标任务相关的数据对模型进行进一步训练,以提高其在特定任务上的性能。该方式的门槛介于RAG和预训练之间,适合角色理解、输入理解、输出格式控制等应用场景。
3、持续预训练:企业利用内部文档、客户记录等自身专有数据对模型进行持续预训练。该方式的门槛相对较高,成本较大,但是可以得到一个企业自身定制的行业大模型,适合理解行业领域知识/术语、严控数据合规等应用场景。
模型微调或预训练模型的能力
陈晓建指出,为了帮助企业构建生成式AI应用,亚马逊云科技拥有构建数据基座的三大核心能力,即模型微调和预训练所需的数据处理能力、利用专有数据与模型快速结合以产生独特价值的能力,以及有效处理新数据以助推生成式AI应用持续快速发展的能力。这三大核心能力涵盖了从基础模型训练到生成式AI应用构建的重要场景,能够帮助企业轻松应对海量多模态数据,提升基础模型能力,在生成式AI时代取得成功。
对于模型微调和预训练所需的数据处理能力来说,从原始数据集到训练出基础模型需要解决三个主要问题:找到合适的存储来承载海量数据、清洗加工原始数据为高质量数据集、对整个组织内数据的发现编目治理。
首先,企业需要快速处理大量数据,因此需要存储能够承载海量数据、存储性能必须跟上计算资源,也就是扩展性和响应速度最为关键。Amazon S3拥有超过200万亿个对象,平均每秒超过1亿个请求,在容量、安全和功能上都能满足微调和预训练基础模型对数据存储的要求,亚马逊云科技专门构建的文件存储服务Amazon FSx for Lustre更是可以提供亚毫秒延迟和数百万IOPS的吞吐性能,进一步加快模型优化的速度和降低成本。
其次,企业需要进行数据清洗、去重、分词等操作。Amazon EMR Serverless和Amazon Glue无服务器数据集成服务,可以帮助企业轻松完成这些工作,让其可以更好地专注于生成式AI业务创新。
再者,企业需要解决查找数据、数据访问控制管理、数据访问权限设置、数据协同环境等多个数据治理难题。Amazon DataZone可以让企业跨组织边界大规模地发现、共享和管理数据,并且提供简单易用的统一数据管理平台和工具,让用户可以解锁所有数据的潜能。
数据结合模型产生独特价值的能力
对于生成式AI的基础模型来说,由于缺乏垂直行业的专业知识、缺乏时效性、生成错误信息幻觉问题、用户敏感数据的隐私合规风险等因素,所以存在一定的局限性。因此通过技术手段加速数据与模型的结合,使其产生独特价值,也就成为了企业数据基座的第二项关键能力。
转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益,请与本站联系,我们将及时更正、删除、谢谢。
https://www.414w.com/read/487458.html