大语言模型拓展了机器学习模型的能力,可以根据各种定性提示词生成相关文本和图像。随着这项技术被广泛采用,人类的许多工作会被取而代之或大量削减。然而在现实中,要在组织环境下有效使用大语言模型,远比人们通常认为的更复杂。
一、组织中的大语言模型
大语言模型的潜在应用领域主要集中在现有信息的处理利用方面,包括总结内容和生成报告(占用例的35%),以及从文本(例如包含财务信息的PDF文件)中提取信息,并据此创建表格(占用例的33%)。
大语言模型还有另外一些热门的有效利用方式,包括使用Dall-E2等工具创建图像,或在实际数据难以获取时为应用程序提供合成数据,例如用于训练亚马逊Alexa等语音识别工具的数据。
绝大多数使用大语言模型的组织仍处于探索阶段。与需要有固定输入、明确流程以及唯一正确输出的传统自动化工具不同,大语言模型工具的输入和输出都是可变的,而生成回应的流程则是一个黑箱。管理者无法像对待传统机器那样评估并控制这类工具。
因此,在组织环境下使用这些工具之前,还有一些实际问题必须回答:由谁来决定输入?由谁来评估输出的质量,谁又有权限使用它?
二、组织中运用大语言模型的挑战
这里,我们重点讨论在组织中运用大语言模型时可能遭遇的五项关键挑战,以及这当中为何需要人类员工的持续参与。
1.知识获取问题
组织会制造出自身难以处理的大量专有文字信息,包括战略计划书、岗位说明书、组织结构图和工作流程图、产品文档、绩效评估报告等。受过这方面数据训练的大语言模型可以给出组织此前或许无从得到的洞察。
组织要想充分利用大语言模型,可以通过自有数据来源为其提供信息,生成专门针对自身需求的输出。
例如,对于企业来说,“中国消费者的关注点可能有哪些?”这个问题就不如“我们应该如何针对中国消费者调整我们的产品?”那么切中要害。
为了有效回答后一个问题,大语言模型需要使用组织的专有数据。而模型回应的质量,则取决于用于训练大语言模型的数据质量如何,是否有针对性。
组织制造的大量垃圾数据或无关数据清理起来也相当费力。组织文化方面的有用知识、面向员工的调查结果,等等,都需要花不少时间才能收集和整理好。即便如此,有许多重要的知识,对于个人来说可能心知肚明,但并未记录在案。
在一项研究中,只有约11%的数据科学家报告称,他们能够利用所需数据对大语言模型进行微调,以给出切合组织实际的恰当答案。这个过程要花费大量资金,需要强大的处理器、数以千计的高质量训练与验证示例、大量工程实践,还要持续进行更新。
在大语言模型内部还面临着数据污染问题:如果来自组织中任何地方的劣质数据被输入了大语言模型,它不仅会影响当前的答案,还会影响未来的回答。
应当制定一套关于训练大语言模型所用数据的管理规则,组织中也必须有人对这方面的活动加以监管。
因为定制大语言模型必须有大量的高质量数据,公司必须整理显性知识并将其标准化,编纂成标准的操作流程、岗位说明、员工手册、用户指南、计算机算法以及其他的组织知识单元,以供大语言模型调用。
计算机编程是显性知识尤为重要的领域之一。一项研究表明,程序员更喜欢使用基于大语言模型的工具来编写代码,不过,这种方法并不能提高编程工作的成功率。目前的主要问题在于,大语言模型生成的代码还需要另外多花时间去调试和理解。
组织在知识获取工作上遇到的困难,可能推动产生新的工作岗位,比如数据馆员(datalibrarian),其职责是整理组织用于训练大语言模型应用程序的专有数据。在某些场景下,这可能是至关重要的岗位。
2.输出验证问题
在针对编程工作的大语言模型输出被正式应用、产生实际影响前,可以先对它的正确性和有效性进行测试。然而,大多数工作任务并不能这样做。
例如,战略建议或营销创意的输出就不容易测试或验证。对于这类任务来说,一个输出要做到有用,只需要“足够好”,而不用绝对正确。大语言模型给出的回答在什么时候算是足够好?对于简单的任务来说,具有相关知识的员工只需要读一读大语言模型的回答,就能自行做出判断。
迄今为止,在是否会认真对待输出检查工作这件事上,用户的表现并不理想。
在一次实验中,白领工作者可以选择使用大语言模型完成写作任务。那些选择使用该工具的人,还可以选择编辑文本后再交稿,或者不做编辑直接交稿。大多数实验参与者选择了后者。
在判断大语言模型更复杂、更少见但又更重要的输出时,如果员工缺乏所需的知识,又会发生什么?
我们对所问的一些问题,可能并不清楚“足够好”的答案是什么样的。这就需要在评估和应用大语言模型的输出时,有更高明的人工判别能力。
与大语言模型不同,人类员工对自己的产出负责,而过往表现出的高准确率或良好判断力,可以让雇主对其未来的产出情况有所预判。人类员工还可以解释他们如何得到某些结论或做出某些决定。
对于大语言模型来说,情况并非如此:每条提示词会发送一个问题,沿着复杂路径穿过知识库,产生一个独特且无法解释的回应。此外,大语言模型会“忘记”怎么完成它们之前表现很好的任务,这就让保证这些模型的服务质量变得很难。
说到底,还是要由人来评估大语言模型的输出是否足够好,而他们必须认真对待这项任务。
将大语言模型的输出与人类监督相结合的挑战在于:在许多情况下,这个人必须对这个领域有所了解,才能评估大语言模型输出是否具有价值。这意味着,对具体领域的知识无法“外包”给大语言模型。
3.输出判定问题
大语言模型擅长总结大量文本。这可能有助于为决策提供有价值的数据。不过,这并不意味着大语言模型的回应比人类决策更加可靠或偏见更少:提示词可能让大语言模型根据同一数据得出不同结论,甚至在不同时间给相同的提示词,其回应也可能有所不同。
这也使得组织内部各方很容易产生彼此冲突的输出。例如,如果具有不同利益的个人或团队想要生成支持其自身立场的大语言模型输出,那么,领导者就要去针对这些分歧做出评判。这种挑战在大语言模型出现之前就已经存在,只不过如今创建新内容的成本远低于评判成本。
评判大语言模型输出的任务是加给现有岗位还是要另设新岗,则要看学习的难易程度。
认为用上了大语言模型,低级别员工就有能力承担原本属于高级别员工的工作,这样的想法还是过于乐观了。就职者需要的是从实践中获得的技能和判断力,以及处理某些工作的意向,而不仅仅是大语言模型当场给出的书本知识。
对于影响重大的输出,同时解决决策权与可靠性问题的一种做法,是集中使用大语言模型。
设置一个集中作业岗位以规范方式编写报告,也有助于避免处理输出冲突的问题,并且不用再对内容的出入做出评判。一个大语言模型办公室完全可以自行完成稳健性测试,观察针对数据、安全护栏和提示词的小幅调整会如何改变输出。
4.成本收益问题
在组织内使用大语言模型输出的收益可能难以预测。例如,大语言模型擅长起草简单信函,因为这些信函通常只需合乎要求即可。可是,类似付款逾期客户告知函这种简单邮件,已经通过格式信函实现了自动化。
而简易机器人也已经能很好地接待客户和其他人,引导他们找到组织推荐的解决方案。呼叫中心里针对客户最常见问题量身定制的模板和话术脚本更是一应俱全。
一项关于客户服务代表的研究发现,在现有的部分计算机辅助手段之外,再组合引入大语言模型和经过成功客户互动训练的机器学习算法,可以将问题解决率提高14%。
对于这项通常被认为很适合采用大模型的工作来说,这种提升算是巨大飞跃还是微不足道,以及就成果而言,实施的成本是否值得,都还没有定论。
一项面对波士顿咨询公司(BCG)758名咨询师的预注册实验表明,GPT-4大幅提高了咨询师在某些任务上的生产力,但在另外一些任务上显著降低了其生产力。在这些工作中,核心任务非常适合由大语言模型完成,其提升生产力的效果虽然是实打实的,但还远远谈不上令人印象深刻。
虽然大语言模型有可能给出比现成模板和聊天机器人更好也更精准的回应,但问题在于组织能否看到使用它们的必要性。它们可能会选择将其用在销售电话之类的场景中,因为这样做可以获得很大的收益,但可能不会用在客户服务场景下,因为组织对于利用已有资源提高绩效并没有多大兴趣。
此外,大语言模型在各种应用场景下节省的时间和成本,可能会被随之而来的其他成本抵消。
例如,将聊天机器人转换为大语言模型是一个相当艰巨的任务,哪怕它最终能派上用场。此外,让客户与大语言模型支持的聊天机器人直接对话,可能会使组织面临安全和品牌风险。
无论是由人还是由大语言模型起草,重要信函或信息通常还是必须交给律师或媒体传播专家审查,而这道程序费用高昂。
5.工作转型问题
大语言模型将如何与员工合作?预测这个问题的答案绝非易事。首先,考虑到员工通常承担着多项动态变化的任务和职责,接管某项任务的大语言模型无法取代整个职位,也无法取代所有单独的细分任务。
可以回想一下引入ATM的效果:虽然这些机器能够完成银行出纳承担的许多任务,但它们并没有显著减少人工数量,因为出纳除了处理现金以外还有其他工作,腾出空来之后又接手了新的任务。
如今的多数工作并不需要经常使用大语言模型,也很难预测它们何时会要用到。大语言模型最有可能取代的,当然是那些占用人们大部分时间但利用技术总是可以正确完成的工作。
但即使是在这类情况下,也要做一些郑重的提醒。大语言模型会造成大量失业这一预测取决于一个隐含的假设,即工作任务可以直接在员工间重新分配。
这可能适用于老式的打字组,其中所有员工都执行同样的任务。如果小组的生产力提高了10%,就有可能重新分配工作,将打字员人数缩减10%。
但是,如果员工并未组织成一个联合小组,同时又没有对工作场所做重大且昂贵的转型,这种精简就不可能实现。
此外,显而易见的是,倘若某位高管个人助理的工作效率提高了10%,我们也不可能把这个人裁掉十分之一。
相比正式雇佣来说,外包工作更容易缩减人工。如果部分外包工作可以由大语言模型来做,组织就可以通过谈判,降低购买供应商外包服务的花费或时长。
AI带来的成本降低,会在多大程度上拉低客户价格还是提高承包商利润,仍是一个悬而未决的问题。
大语言模型有一个让人意想不到的用武之地,是在我们认为最人性化的领域:那些提供一对一反馈的工作,比如,教练、咨询和辅导。
有证据表明,在这些情境下,人们更喜欢和AI聊天机器人而不是真人打交道,至少在初次互动时是这样,因为他们觉得这样没那么吓人。
三、对管理者的建议
组织应该如何为大语言模型做好准备?
首先,应当制定并发布适当的使用规范。例如,禁止将专有数据上传第三方大语言模型,以及披露在准备共享的任何文件中大语言模型是否会被使用、怎样被使用。
其次,有必要考虑组建一个中心办公室,至少在一开始由其负责产出所有重要的大语言模型输出,确保人们对合理使用规范的遵守,并处理数据污染等问题。
中心办公室还可以根据最佳实践,为创建提示词和解读答案变化提供指导。指定一名数据馆员负责所有可用于分析的公司数据,要比让每一位可能的用户自行负责更加高效,也更容易管理。
第三,任何可能想要得到或需要用到大语言模型报告的人,都应该参加简单的培训,以了解这类工具的奇特之处以及如何评估AI生成的文档和报告。
下一步则是对员工进行提示词设计和改进方面的培训。在使用大语言模型输出之前,要说清楚、讲明白,达到什么标准算是“足够好”。
我们预计,大语言模型的使用会更加普遍,但并不会造成太多失业。那些认为这类工具可能全盘取代人类工作的人,必须直面这样一个现实:
大语言模型能做的简单工作已经在某种程度上实现了自动化,在特定工作中大语言模型能做的那些最重要的任务,又可能会带来新的任务,而想要通过重新安排现有员工的工作来找出可以裁减的冗余岗位,既不容易做到,也不划算。