今天和大家分享的文章标题是《噪音:如何克服决策不一致所带来的高额隐性成本》(《Noise: How to Overcome the High, Hidden Cost of Inconsistent Decision Making》)。
这篇文章由四位作者共同完成,首先简单介绍下作者:
Daniel Kahneman,是普林斯顿大学荣休的心理学教授。2002年,他因在认知偏差方面的工作(与阿莫斯·特沃斯基合作)获得了诺贝尔经济科学奖。
Andrew M. Rosenfield,是咨询公司TGG集团的首席执行官和管理合伙人
Linnea Gandhi,是芝加哥布斯大学行为科学副教授,经营着一家致力于将学术研究应用于商业的公司BehavioralSight。
Tom Blaser,是咨询公司TGG集团的常务董事。
文章主要介绍了在专业人员在判断中受到噪音的影响而产生决策的不一致问题,接着解释了噪声和偏差之间的区别,说明如何审计组织中的噪声水平和影响。然后,向我们描述了一种低成本且有效的方法来构建修正噪声的算法,并概述了当算法不可行时,可以提高判断一致性的步骤。
首先什么是噪音呢?
作者向我们举了一个例子,在他们所服务的一家金融服务公司,对于相同的金融服务申请资料,审核人员给出了完全不同的报价。许多组织的专业人员,例如信用评级机构的评估人员、急诊室的医生、贷款和保险的保险商等,他们的判断受到不相关因素的强烈影响,例如他们当前的情绪、距离上一顿饭后的时间和天气。这种决策的随机变异被称为噪音。噪音不仅广泛存在,而且往往是隐蔽的。即使是成功的公司在没有意识到的情况下都会由于噪音损失大量的金钱。
噪音和偏见有什么区别呢?
作者用四幅图为我们做出了直观的解答:
A组是准确的:射击是正中靶心的,而且相互靠近。
B组是噪音:以靶心为中心,但分散得很广。
C组是偏见:都没射中靶心,但都聚集在一起。
D组既有噪音,也有偏见。
另外,与偏见不同,噪声可以在不知道正确响应的情况下测量。B组和D组的分散的射击是有问题的:不管靶心在哪里,他们都没有向集中的方向射击。所以可以通过设计实验,即使在不知道正确答案的情况下,可以观察到判断的分散。这种实验称为噪声审计。噪声审计的重点不是要出具报告。最终目标是提高决策质量,并且需要得到高层的支持,噪音审计才能得以成功实施。
而如何能降低噪音呢?
对噪音问题最根本的解决办法是用被称为算法的正式规则来代替人类的判断。不需要特别复杂精细的计算,只要在条件允许的情况下,我们可以基于常识推理选择一些(可能是6到8个)明确与结果相关的变量,通过简单的加减运算来构建算法。并且这种方法和精细构建的算法有同等的作用。
而在许多情况下,运行算法是不实用的或者是不被公众接受的。那么我们需要为判断提供一套程序(流程和工具),加强流程规范的培训,提供检查清单,问题列表等工具。
下面是全文,有兴趣的同学可以继续阅读:
在我们合作的一家全球金融服务公司,一位长期客户意外地向两个办事处提交了同一份申请文件。虽然审查该文件的员工应该遵循相同的指导方针,从而得出类似的结果,但不同的办公室返回的报价却截然不同。后来客户就把业务交给了公司的一个竞争对手。从公司的角度来看,同一角色的员工应该是可以互换的,但在这个案例中,他们不是。不幸的是,这是一个常见的问题。
许多组织的专业人员,信用评级机构的评估人员、急诊室的医生、贷款和保险的保险商等,被随意分配到案例中。组织期望这些专业人员的一致性:相同的案例应该被同样地对待。问题是,人类是不可靠的决策者;他们的判断受到不相关因素的强烈影响,例如他们当前的情绪、距离上一顿饭后的时间和天气。我们将决策的随机变异称为噪音。这是许多公司的一种无形成本。
有些工作没有噪音。银行或邮局的职员执行复杂的任务,但他们必须遵守经过设计的严格的规则,用来限制主观判断和保证相同的案例将被同等对待。相比之下,医疗专业人员、贷款官员、项目经理、法官和高管都会做出判断,这些判断是由非标准化的经验和一般原则指导的,而不是严格的规则。如果他们的回答与其他人的回答不完全一致,那是可以接受的;这就是我们所说的决策是“判断问题”的意思。一个员工进行判断的公司并不希望决策完全没有噪音。但通常情况下,噪音远高于高管们认为可以容忍的水平,而且他们完全没有意识到这一点。
噪声的广泛存在已经在一些研究中得到证实。学术研究人员反复证实,专业人士在不同场景下对于相同的数据,往往会做出与自己先前的判断相矛盾的判断。例如,当软件开发人员被要求在分割的两天里分别估计某个给定任务的完成时间时,他们预测的小时数平均相差71%。当病理学家对活检结果的严重程度进行两次评估时,他们的评分之间的相关性仅为.61(完美的1.0),这表明他们经常做出不一致的诊断。不同的人做出的判断更有可能产生分歧。研究证实,在许多任务中,专家的决定是高度可变的:评估股票、评估房地产、判决罪犯、评估工作表现、审计财务报表等。直观的结论是,专业人士的决策往往与同龄人的决策、自己先前的决策以及自己声称遵守的规则有很大的偏差。
噪音往往是隐蔽的:它甚至导致成功的公司在没有意识到的情况下损失了大量的金钱。有多大?为了得到一个估计值,我们询问了我们研究过的其中一个组织的高管:“假设一个案例的最佳评估值是100000美元。如果负责此案的专业人员评估了11.5万美元的价值,该组织的成本是多少?评估它的费用是多少?85000美元?“成本估计很高。在每年的评估中,噪音成本以数十亿计,即使是对于一家大型的全球公司,也是一个不可接受的数字。即使只降低几个百分点的噪音,其价值也将达到数千万美元。值得注意的是,在那之前,该组织完全忽略了一致性的问题。
长期以来,人们都知道,简单统计算法产生的预测和决策往往比专家作出的预测和决策更准确,即使专家获得的信息比公式使用的信息更多。众所周知,算法的主要优点是无噪音:与人类不同的是,对于任何给定的输入,公式总是返回相同的输出。卓越的一致性甚至允许简单和不完美的算法实现比人类专业人员更高的精度。(当然,有时算法在操作上或政治上是不可行的,正如我们将要讨论的那样。)
在本文中,我们将解释噪声和偏差之间的区别,并研究主管如何审计其组织中的噪声水平和影响。然后,我们描述了一种低成本、未被充分利用的方法来构建修正噪声的算法,并概述了当算法不是一个选项时可以提高判断一致性的步骤。
噪音与偏见
当人们考虑到判断和决策的错误时,他们很可能会想到社会偏见,如对少数群体的成见或认知偏见,如过度自信和毫无根据的乐观主义。我们称之为噪声的无用的易变性是一种不同类型的错误。想一想你的浴室磅秤,就知道这一区别了。我们可以说,如果标度的读数通常过高或过低,则标度是有偏差的。如果你的体重似乎取决于你将脚放在哪里,那么天平就会发出噪音。一直低估实际重量4磅的天平是有严重偏差的,但没有噪音。当你踩两次刻度盘时,它会给出两个不同的 读数,这是噪音。许多测量误差都是由偏压和噪声共同引起的。大多数廉价的浴室磅秤都有些偏颇和相当的噪音。
为了直观地说明这一区别,请考虑附图“噪音和偏差如何影响准确性”中的标靶。这些标靶显示了四人小组的标靶练习结果,其中每个人射击一次。
A组是准确的:射击是正中靶心的,而且相互靠近。
其他三个组不准确,但有着各自的不同方式:
B组是噪音:以靶心为中心,但分散得很广。
C组是偏见:都没射中靶心,但都聚集在一起。
D组既有噪音,也有偏见。
正如A组和B组的比较所表明的那样,噪声的增加总是会在没有偏见的情况下降低准确度。当存在偏见时,不断增加的噪音实际上可能会造成幸运的击中,就像D组所发生的那样。当然,没有任何组织会相信运气。噪音总是不受欢迎的,有时是灾难性的。
对于一个组织来说,了解员工决策中的偏见和噪音显然是有用的,但是收集这些信息并不简单。测量这些误差时冒出了不同的问题。一个主要的问题是,决策的结果往往直到遥远的将来才知道,如果有的话。例如,贷款官员经常要等上几年才能看到他们批准的贷款产生的结果,而且他们几乎无法知道他们拒绝的申请人会发生什么。
凡决策必有噪音——通常比你想象的要多。
与偏见不同,噪声可以在不知道正确响应的情况下测量。为了说明这一点,假设射击者瞄准的目标被从展览中抹去。你可能对整体的精准度一无所知,但你可以肯定的是,B组和D组的分散的射击是有问题的:不管靶心在哪里,他们都没有向集中的方向射击。测量判断中的噪声所需要的只是一个简单的实验,在这个实验中,由一些专业人员对一些实际案例进行独立评估。同样,在不知道正确答案的情况下,可以观察到判断的分散。我们称这种实验为噪声审计。
执行噪音审计
噪声审计的重点不是要出具报告。最终目标是提高决策质量,只有当部门领导准备接受不愉快的结果并采取行动时,审计才能成功。如果高管们把对于噪音的审计视为自己的创造,那么就更容易实现。为此,案例应该由受尊敬的团队成员编写,并且应该涵盖通常遇到的问题范围。为了使结果与每个人都相关,所有单位成员都应参加审核。一个有严格的行为实验经验的社会科学家应该监督审计的技术方面,但审核的过程必须由专业单位完成。
最近,我们帮助两个金融服务机构进行噪音审计。我们所研究的两个小组的职责和专业知识是完全不同的,但两者都需要对中等复杂的材料进行评估,通常涉及数十万美元的决策。我们在两个组织中都遵循相同的协议。首先,我们要求相关专业团队的管理人员构建几个实际的案例文件进行评估。为了防止实验信息泄露,当天进行了整个练习。员工被要求花大约半天的时间分析两到四个案例。按照正常的工作例程,他们为每个案例以美元为单位进行评估。为了避免合谋,参与者没有被告知该研究与可靠性有关。例如,在一个组织中,目标被描述为理解员工的专业思维,提高工具的实用性,以及改善同事之间的沟通。A组织约有70名专业人员参加,B组织约有50名。
我们为每一个案例构建了一个噪声指数,它回答了以下问题:“两个随机选择的员工的判断有多大差异?”我们将此指数值表示为其平均值的百分比。假设两名员工对一个案例的评估是600美元和1000美元。他们评估的平均值是800美元,他们之间的差额是400美元,所以这对人的噪音指数是50%。我们对所有员工对进行了相同的计算,然后计算出每种情况下的总体平均噪声指数。
对这两个组织的高管进行的审计前访谈表明,他们预计他们的专业人员决策之间的差异在5%到10%之间——这是他们认为“判断事项”可以接受的水平。结果令人震惊。A组6个案例的噪声指数为34%-62%,总体平均为48%。在B组的4个案例中,噪声指数在46%到70%之间,平均为60%。也许最令人失望的是,工作经验似乎并没有减少噪音。在工作五年或五年以上的专业人员中,A组的平均不一致率为46%,B组的平均不一致率为62%。
没人预料到这样的结果。但由于他们全程参与这项研究,两个组织的高管都接受了这样一个结论:他们的专业人士的判断的不可靠程度是不可容忍的。所有人都很快同意必须采取措施来控制这个问题。
因为这些发现与之前关于专业判断可靠性低的研究是一致的,所以我们并不感到惊讶。对我们来说,最大的困惑是两个组织都没有将可靠性视为一个问题。
在商业世界中,噪音问题实际上是不可见的;我们观察到,当专业判断的可靠性被作为一个问题提出时,人们会非常惊讶。是什么阻止了公司认识到员工的判断是有噪音的呢?答案在于两种常见的现象:经验丰富的专业人士往往对自己判断的准确性有很高的信心,他们也对同事的智力有很高的评价。这种结合必然导致对一致性的高估。当被问到同事会说什么时,专业人士预期别人的判断比实际情况更接近自己的判断。当然,大多数时候,经验丰富的专业人士完全不关心别人的想法,只是假设他们的想法是最好的答案。噪音问题的不可见的一个原因是,人们不会在生活中想象他们做出的每一个判断的合理的替代品。
别人与你的预期相符有时是合理的,尤其是在判断已熟练得用直觉就能做出的情况下。高水平的象棋和驾驶是练习到近乎完美的任务的标准示例。观察棋盘上情况的大师级玩家对游戏状态的评估都非常相似,比如说,白皇后处于危险之中,或者黑国王的防守薄弱。司机也是如此。如果我们不能假定我们周围的司机在交叉口和环形交叉口共享我们对通行顺序的理解,那么交通通行将极其危险。在高水平的技能上很少或没有噪音。
国际象棋和开车的技能水平在一个可预测的环境中通过多年的实践不断提升。在这种环境中,行动之后会立即得到明确的反馈。不幸的是,很少有专业人士处在在这样一个的环境中。在大多数工作中,人们通过听经理和同事的解释和批评来学习判断——这是一种比从错误中学习更不可靠的知识来源。长期的工作经验总是增加人们对自己判断的信心,但在缺乏快速反馈的情况下,信心既不能保证准确性,也不能保证共识。
我们总结成一句格言:凡判断必有噪音,通常比你想象的要多。一般来说,我们认为,无论是专业人士还是他们的管理者,都不能对他们的判断的可靠性做出很好的猜测?;竦米既菲拦赖奈ㄒ环椒ㄊ墙性胍羯蠹?。并且至少在某些情况下,这个问题会严重到需要采取行动。
调低噪音
对噪音问题最根本的解决办法是用被称为算法的正式规则来代替人类的判断,这些规则使用有关案例的数据来生成预测或决策。在过去的60年里,人们在数百次精确性竞赛中与算法展开了竞争,从预测癌症患者的预期寿命到预测毕业生的成功率。在大约一半的研究中,算法比人类专业人员更精确,而在其他研究中,算法与人类有着大致相当的精确性。这种大致相当的精确性也应该算作算法的胜利,因为它更具成本效益。
当然,在许多情况下,算法是不实用的。当输入具有特殊性或难以以一致格式编码时,规则的应用是不可行的。对于涉及多个维度或依赖于与另一方谈判的判断或决策,算法也不太可能有用。即使在原则上有可用的算法解决方案,组织上的考虑有时也会阻止实现。用软件替换现有员工是一个痛苦的过程,除非它能让这些员工获得更愉快的任务,否则会遇到阻力。
但是如果条件是正确的,那么开发和实现算法就非常容易。通常的假设是,算法需要对大量数据进行统计分析。例如,与我们交谈的大多数人都认为,要建立一个预测商业贷款违约的方程,就需要数千份贷款申请及其结果的数据。很少有人知道,在没有任何结果数据的情况下,仅在少数情况下输入信息,就可以开发出适当的算法。我们称无需结果数据的预测公式为“推理规则”,因为它们是基于常识推理。
推理规则的构建从选择一些(可能是6到8个)变量开始,这些变量与所预测的结果是非常明确的相关。例如,如果结果是贷款违约,资产和负债肯定会包括在清单中。下一步是在预测公式中为这些变量分配相等的权重,将它们的符号设置在明显的方向上(资产为正,负债为负)。然后可以通过几个简单的计算来构造规则。
许多研究的令人惊讶的结果是,在许多情况下,推理规则与用结果数据建立的统计模型一样准确。标准统计模型结合了一组预测变量,这些预测变量根据它们与预测结果的关系以及彼此之间的关系来分配权重。然而,在许多情况下,这些权重在统计上都不稳定,实际上并不重要。为所选变量分配相等权重的简单规则可能同样有效。在人员选择、选举预测、足球比赛预测和其他应用中,相等权重的变量和不依赖结果数据的算法已经证明是成功的。
这里的底线是,如果您计划使用一种算法来减少噪声,那么您不需要等待结果数据。您可以通过使用常识来选择变量和最简单的规则来获得大部分好处。
研究表明,在决策者的角色中,算法比人类做得更好。
当然,无论采用哪种算法,人们都必须保持最终控制。必须对算法进行监控和调整,以应对各种案例的变化。管理者还必须关注个人决策,并有权在明确的情况下推翻算法。例如,如果公司发现申请人已被逮捕,批准贷款的决定应暂时撤销。最重要的是,管理人员应该决定如何将算法的输出转化为实际操作。该算法可以告诉您哪些预期贷款在所有贷款申请的前5%或后10%中,但必须有人决定如何处理这些信息。
算法有时被用作专业人员做出最终决定的中间信息源。一个例子是公共安全评估,一个公式——旨在帮助美国法官决定是否可以安全释放被告让他等待审判。在肯塔基州使用的前六个月,被告在审前释放中的犯罪率下降了约15%,而已释放的审前释放的人所占比例有所上升。很明显,在这种情况下,人类法官必须保留最终决定权:公众会震惊地看到一个公式的公正性。
尽管人们可能对这个想法感到不安,但研究表明,虽然人类可以为公式提供有用的输入,但算法在最终决策者的角色中做得更好。如果避免错误是唯一的标准,应强烈建议管理者仅在特殊情况下否决算法。
把纪律带到判断上来
当专业判断充满噪音时,应该考虑用算法代替人工决策,但在大多数情况下,这种解决方案过于激进或根本不切实际。另一种方法是采用程序,通过确保同一职位的员工使用类似的方法来寻求信息,将其纳入案例的观点,并将该观点转化为决策,从而促进一致性。对所有需要做的事情进行全面的检查超出了本文的范围,但是我们可以提供一些基本的建议,重要的警告是,在判断中逐渐灌输纪律一点也不容易。
当然,培训是至关重要的,但即使是在一起接受培训的专业人员,也倾向于以自己的方式做事。公司有时会组织圆桌会议,让决策者聚集在圆桌会议上审查案例,以此来应对噪音。不幸的是,大多数圆桌会议的运行方式使得达成协议过于容易,因为参与者很快就会集中在第一个或最自信地陈述的观点上。为防止这种不可靠的一致,圆桌会议的参与者应独立研究案例,形成他们准备为之辩护的意见,并在会议前将这些意见发送给组长。这样的圆桌会议将有效地提供对噪音的审计,并增加小组讨论的步骤,探讨意见分歧。
作为圆桌会议的替代方案或补充,应向专业人员提供用户友好的工具,如清单和精心制定的问题,以指导他们收集有关案例的信息、进行中间判断和制定最终决定。在这些阶段中的每一个阶段都会发生不期望的变化,公司可以并且应该测试这些工具减少了多少不期望的变化。理想情况下,使用这些工具的人会将它们视为帮助他们有效和经济地完成工作的辅助工具。不幸的是,我们的经验表明,构建既有效又便于用户使用的判断工具的任务比许多高管认为的要困难得多??刂圃胍羰呛芾训?,但是我们期望一个以美元进行审计和评估噪音成本的组织会得出结论,减少随机变化是值得的努力。
我们在本文中的主要目标是向管理者介绍噪声作为一个错误源的概念,并解释它是如何区别于偏见的。“偏见”一词已经进入公众意识,以至于“错误”和“偏见”两个词经??梢曰セ皇褂?。事实上,更好的决策不仅仅是通过减少普遍偏见(如乐观主义)或特定的社会和认知偏见(如对妇女的歧视或锚定效应)来实现的。关注准确度的高管也应该面对专业判断中不一致的普遍存在。噪音比偏见更难被意识到,但它真实存在且会带来不小的损失。