随着人工智能技术的快速发展,大型语言模型在处理复杂、开放领域的问题时,常常面临知识获取和更新的挑战。它们所依赖的训练数据可能有限且过时,无法覆盖所有领域的知识,导致生成的内容缺乏准确性和时效性。同时,在现实世界的应用场景中,用户期望获得最新、最准确的信息。
正是在这样的背景下,RAG(检索增强生成)技术结合了检索和生成两种方法的优势应运而生。RAG通过利用外部知识库中的信息,为语言模型提供了更全面、准确且最新的背景知识,使其在生成回答或文本时能够参考更多、更可靠的信息。这不仅提高了模型的准确性,也使其更加实用和可信。同时,RAG方法还避免了昂贵的模型微调,允许模型在运行时动态地访问和更新知识库,从而提高了效率。
为了对国内外大语言模型的RAG技术发展水平进行评估并据此提出改进建议,我们发布了SuperCLUE-RAG(SC-RAG)中文原生检索增强生成测评基准。采用了不同于以往SuperCLUE评估方法的对比式测评模型,依据不同的任务类型,全方位、多角度地对RAG技术水平进行测评。
项目地址:https://github.com/CLUEbenchmark/SuperCLUE-RAG
文章地址:https://www.cluebenchmarks.com/superclue_rag.html
# SuperCLUE-RAG
1. 特点
(1)中文原生RAG应用综合能力评估
立足于为通用人工智能时代提供中文世界基础设施,文字输入或prompt提示词都是中文原生的;并充分考虑国内RAG技术的发展状况与应用场景,从国内RAG应用实际问题出发,致力于打造适合中国语义环境的RAG技术测评指标。
(2)多任务类型问答模型:综合考量RAG技术成熟度
基于RAG技术应用的主要场景,该测评指标设置了三种主要问答模式:
无文档问答:考察系统对网页信息的捕获能力。
单文档问答:主要考察系统对于敏感信息、错误信息、空缺信息的检索与反应能力。
多文档问答:主要考察系统的信息整合能力。
(3)采用对比式评估方法:凸显RAG技术应用对系统整体能力的影响
不同于以往的测评体系,SuperCLUE-RAG还采用了对比式问答模式。除无文档问答类任务以外,针对同一问题进行先后两次提问,第一次不提供任何外部文档信息,第二次人为提供预设文档,对比两次答案的差异,并依据对比下暴漏的具体问题对系统RAG应用能力进行评估。
2. 评估方法与思路
参考SuperCLUE一贯的细粒度评估方式,构建专用测评集,每个维度进行细粒度的评估并可以提供详细的反馈信息。
测评集构建
中文prompt构建流程:1.参考现有prompt--->2.中文prompt撰写--->3.测试--->4.修改并确定中文prompt
参考国际标准和当前已有工作,针对每一个维度构建专用的测评集。
评分方法
评估流程:1.获得<中文prompt>-->2.依据评估标准-->3.使用评分规则-->4.进行细粒度打分
结合超级模型,在定义的指标体系里明确每一个维度的评估标准。结合评估流程、评估标准、评分规则,将文本输入送入超级模型进行评估,并获得每一个维度的评估结果。
进行评估与人类一致性分析,并报告一致性表现。
3. 评价体系
测评体系分为评分标准与任务方向。
评分标准
(1)答案规整度:考察生成答案是否按照需求标准回答,强调要求文本具有清晰的因果关系、逻辑关系、时间顺序等,同时具有总结、分析的过程体现。
例如,在“整理美国大选2024年以来各位候选人的动态数据并分析谁的当选概率更大”问题中,应该分别描述各位候选人的情况,且需要理清时间线和变化趋势,同时在分析谁更有可能当选的问题时,应该以描述内容为依据进行分析,而不是独立生成答案。
(2)答案准确度:考察生成答案的内容是否与提问的需求高度一致,确保答案直接且专注地解决问题的核心点。该指标不仅衡量答案的事实准确性,还包括其对问题的直接响应程度,并剔除与问题核心无关的信息,确保信息的紧凑性和目标导向性,答案文本中冗余信息的比例较低。
例如:“请告诉我2023年诺贝尔文学奖获得者是谁”,应当准确回答2023年的诺贝尔文学奖获得者名单,而不包括其他年份的获奖者。
(3)信息提炼度:考察在描述性需求下,模型能够做到在相似文档或噪声文档中精准提取出补充信息,在全面、综合提炼文档信息的基础上,要求生成文本应当能够做到完善回答问题涉及的各个方面。
例如:给定一系列企业的财报业绩文档如苹果、谷歌、华为、小米等,针对“请告诉我华为最新季度的收入增长以及各个分支盈亏的具体信息并反馈在文档中所体现的关键业务进展。”等问题,生成文本应当能够实现详细的反馈和整理。
(4)文本对齐度:考察生成文本与提供文档内容之间的关联性,应当能够呈现高相关度,内容紧密结合。
例如:结合以上文档内容,梳理今年两会的最新进展,要求完全按照文档内容进行整理、归纳,则生成文本中的各项方针政策应当围绕今年两会的详细情况而展开叙述。
任务方向:RAG关键技术检测
(1)答案即时性:在最新的时间标准下准确回答问题,重点考察系统对最新信息的捕获能力。(该部分不提供文档,考察系统对于网页信息的捕获能力)
例如:假设今天是2024年3月6日,请系统回答2024年3月6日最新的A股指数。
(2)拒答能力:对于敏感问题或文档中不存在相关信息的问题应拒绝回答而非给出模糊答案。(单文档问题)
例如:给定一系列企业的财报业绩文档如苹果、谷歌、华为、小米等,针对“请给出美国大选中拜登为什么退出竞选的理由”,应当以信息不完备而拒绝回答。
(3)检错&纠错能力:对于问题中有未更新的错误信息的,应当指出错误信息,修改后再返回。(单文档问题)
例如:针对“目前已知最大的星系是距离银河系的IC 1101,直径约为400万光年,对吗?”,应当根据最新的文档信息生成“不对,目前已知的最大星系是距离银河系约30亿光年的阿尔库俄纽斯星系,直径约为1630万光年”。
(4)信息整合能力:根据提供的多条文档内容,能够具有多文档的检索记忆能力,并且根据检索的内容进行多步推理与整合,最终给出精确、完整的答案。(多文档问题)
例如:根据提供的多段文档信息,整理归纳中亚五国在过去两个月内的动态与重大事件发展趋势。
基于SuperCLUE-RAG测评体系的特殊性(对比式问答模式),全部题目基于RAG关键技术检测的四个任务方向设置问题,分为无文档问答、单文档问答、多文档问答三种形式,灵活采用评分标准进行赋分,进而得出多维评估结果。
4. 测评及计分方式
整体测评流程包括:1.模型答案获取;2.评价获取;3.计算模型得分。
模型答案获取
通过单轮问答形式(其中部分题目需要上传文档供模型解析),使用本地部署或者API调用方式来获取模型的答案。
评价获取
对于每个任务类型都有一个或多个评价维度,每个维度按照评分标准分为5级,定义为1-5分。结合参考答案使用超级模型进行打分,模型回答的得分是对应各个维度得分的平均值。例如“拒答能力”任务,设定三个评价打分维度:
1)答案准确度:回答内容是否与提问高度一致,答案中拒绝的缘由不仅要保证事实准确性,还需要保证与提问的直接相关性,同时设问无关的冗余信息应当较低;
2)信息提炼度:模型能够做到在相似文档或噪声文档中精准提取出补充信息,因此,在拒答缘由应当在全面、综合提炼文档信息的基础上生成;
3)文本对齐度:考察生成文本与提供文档内容之间的关联性,应当能够呈现高相关度,内容紧密结合。
计算模型得分
SC-RAG采用模型总分+文档贡献度的综合评价标准,具体规则说如下:
模型总分:模型总分部分的分数构成包括答案及时性得分(250题)、拒答能力有文档部分得分(250题)、检错和纠错能力有文档部分得分(250题)、信息整合能力有文档部分得分(250题),最终的得分为以上四个任务类型全部题目得分的平均分。
文档贡献度:为了凸显模型RAG技术的应用能力水准(主要为文档解析能力),本次测评提出文档贡献度指标,具体计算方式如下:针对拒答能力、信息整合能力两类任务,本次测评分别设置了250对问题,即同样的问题采取不提供文档与提供文档两种问答方式,如此便得到了针对500个问题的500组具备对比基础的答案。文档贡献度采用以下公式:
计算每对答案的提升率指标,再对全部指标求平均值作为模型最终的文档贡献度得分。
# 测评结果
总榜单
文档贡献度榜单
二维象限图
该图展示的是参评各模型文档贡献度与模型总分之间的综合成绩排布,其中横轴为模型总分,纵轴为文档贡献度。
各任务成绩
# 测评分析
RAG通过利用外部知识库中的信息,为语言模型提供了更全面、准确且最新的背景知识,使其在生成回答或文本时能够参考更多、更可靠的信息。基于RAG应用技术产生的背景,结合本次测评过程中发现的问题,对测评结果分析如下:
1. RAG总体能力分析
从测评整体结果看,GPT-4 with Vision较为领先,取得60.91分。但国内外模型在中文RAG能力上差距不大,国内最好模型与GPT-4 with Vision仅差距1.68分。MoonShot-v1-128k、Baichuan3、360智脑RAG分列1-3名,均有超过GPT3.5 Turbo的表现。
2. 文档贡献度分析
根据本次测评对于文档贡献度的定义与公式设计,该指标衡量的是同一问题在提供文档之后答案质量的提升程度。本次参与测评的模型文档贡献度平均得分为0.74分,表明模型普遍通过文档解析过程完善了最终的答案,但是提升空间有限。一般情况下,贡献度越高表明模型文档解析能力越强,但不是全面衡量模型RAG水平的参数。
以MoonShot-v1-128k为例,其贡献度排名低于总体排名,原因在于未提供文档的条件下,该模型较强的网络信息检索能力足以支持其生成高质量答案,文档的作用较小。
3. RAG各任务分析
GPT-4 with Vision在实时答案获取的准确性上更为擅长,国内模型中MoonShot-v1-128k、文心一言3.5(网页)表现不俗均有46分的表现。尤其文心一言3.5(网页)相较于其他RAG任务上的表现 ,答案即时性的成绩较为突出,与其调用搜索引擎的能力息息相关。
在信息整合能力测评中,Baichuan3和360智脑RAG表现惊艳,均有超过GPT-4 with Vision的表现,且是本次测评维二超过50分的大模型。
在拒答能力测评中,Baichuan3表现不俗。取得了76分的高分,领先GPT-4 with Vision有2.8分。可见国内大模型在中文高挑战性的检索任务上不弱于国外最好模型。
另外,MoonShot-v1-128k在检错和纠错任务上表现不俗,同样有超过GPT-4 with Vision的表现,且在该项任务上领先幅度较大。
4.网络信息检索与文本解析能力相关性分析
本次测评针对四项任务类型进行了相关性分析。如下图所示,答案及时性与其他各项任务之间的相关性均较低,而另外三项涉及文档解析的任务类型之间具有较高的相关性。此现象一定程度上表明国内外模型在检索外部信息能力方面发展得不够均衡,即检索网络信息与解析文本信息两项主要功能发展得不平衡。
5.不同文档解析形式及能力分析
对于文档分析类题目之间各模型能力均有较高的相关性,区别在于不同模型在处理多文档上传与解析方面的形式与效果。目前国内外各类模型在处理多文档的形式上普遍采用以下三种之一:直接上传多个独立的文档(如MoonShot-v1-128k)、建立文档问答知识库(如360智脑RAG)、添加文档问答应用插件(如讯飞星火_网页版)。
如上图所示,以三种文档解析类型的代表模型为例,直接提供文档上传接口的模式显然是效果最佳的,各方面能力水平较为均衡。建立知识库的方法次之,但是在多文本分析方面具有较大的优势。
不够理想的是通过建立插件的方式进而实现文档问答的这种形式。在测评环节中我们发现,此类模型一般会默认提供一项文本摘要功能(亦或为不同公司的战略部署问题,无对错之分),相关问题的提出需在摘要完成之后进行,但是总体的答案质量较差。以上图的讯飞星火模型为例,在检错和纠错能力测评环节表现不佳,即筛查信息“对不对”的环节能力不够,综合来看,或许与文档解析形式有关。同样的,对于采用相同文档解析形式的文心一言3.5也具有类似的问题。
# 结论
1. 从中文RAG检索增强整体能力上看,国内外头部模型差距不大,仅在2分之内。体现了国内大模型对中文内容检索和解析能力上的有一定竞争力。
2. 在答案即时性(即实时内容检索)能力上,国外模型依然有很大优势,领先国内最好模型6.4分。是国内模型重点优化的方向之一。在信息整合、拒答和检错纠错能力上,国内模型展现了在中文检索解析能力上的优势,头部模型有优于GPT4的表现。
3. 从整体RAG能力和各任务能力得分上看,国内外大模型均有较大提升空间,离广泛的落地应用还有一定差距。内容检索是大模型重要且高频使用场景,是未来大模型真正实现企业级应用的重要方向。
# 示例
示例1:答案及时性示例
问题:2024年夏季达沃斯经济论坛在哪里举行?
示例2:拒答能力示例
无文档情况:
问题:请问黄仁勋在讲话中提到的AI通过律师资格考试的具体分数是多少?
有文档情况:
文档:英伟达黄仁勋:五年内AI可通过任何人类测试,但很难让AI成为一名工程师
“......目前,人工智能已经可以通过律师资格考试等测试,但在胃肠病学等专业医学考试中仍表现不佳。但黄仁勋预计,五年内人工智能应该能够通过任何单个测试......”
问题:根据文档内容,请问黄仁勋在讲话中提到的AI通过律师资格考试的具体分数是多少?
示例3:检错和纠错能力示例
无文档情况:
问题:“在最近的全国人大会议上,黄立董事长声称他们的脑机接口芯片技术已经让盲人复明,这项技术已经被广泛应用了。”这句话是否存在错误信息,如果是,请帮我修改其中的错误信息并给出正确表述。
有文档情况:
文档:高德红外董事长:关键技术讨不来,要不来,新质生产力的构建要靠科技创新
“.....还可以使盲人复明,对记忆进行存储等等,这些以往只能出现在科幻小说里面的一些场景未来都有可能成为现实......”
问题:“在最近的全国人大会议上,黄立董事长声称他们的脑机接口芯片技术已经让盲人复明,这项技术已经被广泛应用了。”根据文档内容回答:这句话是否存在错误信息,如果是,请帮我修改其中的错误信息并给出正确表述。
示例4:信息整合能力示例
无文档情况:
问题:梳理马斯克起诉OpenAI的事件经过。
有文档情况:
文档1:马斯克起诉OpenAI及其CEO奥特曼
“......马斯克在诉讼中指出,OpenAI及其CEO奥特曼和违背了这家人工智能研究公司成立时达成的一项协议,即开发技术是以造福人类为目的而不是利润......”
文档2:马斯克的愤怒
“......马斯克指控身为生成式人工智能代言人的OpenAI的罪名,是放弃了“为造福人类而开发人工智能”的初心。诉讼称三位创始人最初与他接洽是为了创建一家开源、非盈利的公司,但这家2015年成立的初创公司现在变得专注于赚钱......”
文档3:马斯克怒告OpenAI案解密
“......马斯克认为,GPT-4是一个AGI算法,所以OpenAI已经实现了AGI,因此这超出了和微软协议的范围,这项协议仅适用于AGI出现之前的技术......”