类别:数字治理
导言
人工智能(AI)越来越多地被用于支持和改善基层决策,但关于基层管理者(SLB,街头官僚)的工作如何受到AI技术影响的经验证据很少。最近,三位荷兰知名学者Friso Selten,Marcel Robeer,& Stephan Grimmelikhuijsen研究了人工智能建议如何影响基层管理者的决策以及可解释的人工智能是否增加了对此类建议的信任。文章通过2×2析因设计,以荷兰警察为样本进行模拟智能警务系统实验,探究了人工智能的建议和可解释人工智能(XAI)对街头警察决策的影响。研究结果表明:警察信任并遵循符合他们直觉专业判断的人工智能建议。本文没有发现解释对人工智能建议的信任有影响。因此得出结论:警察不会盲目相信人工智能,而是会遵循那些和自己已有想法一致的人工智能建议。一方面,这凸显了街头自由裁量权在纠正错误的人工智能建议方面的潜力,但另一方面,人工智能系统的公平有望纠正人类偏见也受到严重限制。论文发表在公共管理类顶级期刊PAR上面。
(文献来源:Selten, F., Robeer, X., & Grimmelikhuijsen, S.(2023). ‘Just like I thought’: Street-level bureaucrats trust AI
recommendations if they confirm their professional judgment. Public Administration Review, 83(2): 263-278. DOI:https://doi.org/10.1111/puar.13602).
研究问题
人工智能(AI)正在迅速改变全球的公共组织(Young et al.,2019)。具体来说,机器学习方法不仅可以自动化日常行政任务,还可以用于设计人工智能系统,通过指导基层管理者的判断来提高自由裁量决策的质量。(Bullock,2019;Zouridis et al.,2020)。然而,基层管理者如何与人工智能系统交互十分复杂。例如,预测性警务系统可能会建议一名警官在某个区域进行监视,而该警官则认为其他社区的犯罪风险要高得多。类似地,人工智能系统可能会建议被告应该假释,而法官认为被告应该继续被拘留(Brayne&Christin,2021)。面对这样的困境,基层管理者必须做出决定:他们是遵循人工智能的建议还是自己直觉的专业判断?
学者们已经注意到人工智能对基层管理者行为影响的经验知识是有限的(Giest&Grimmelikhuijsen,2020;Peeters,2020)。因此,本文的第一个目的是研究当人工智能建议与基层管理者的直觉专业知识(即他们基于培训活动和实地经验的专业知识)一致或不一致时会发生什么(MaynardMoody&Musheno,2000)。本文选取了心理学中两个典型且互有张力的理论,以更好地理解专业知识和人工智能建议如何相互作用:自动化偏见(automation bias)和确认偏见(confirmation bias)。
一方面,使用人工智能会限制街头自由裁量权的行使,因为决策者对人工智能的合理性过于自信(Skitka et al.,1999;Young et al.,2019)。这种自动化偏见导致用户错误地忽略来自计算机系统外部的证据。在航空和医疗保健等高自动化的环境中也发现了自动化偏见(Lyell&Coiera,2017),这确实表明街头的决策受到计算机提示的强烈影响。另一方面,从动机推理和确认偏见的文献中,我们发现个体倾向于坚持偏好的结论,这导致选择性和有偏见的信息处理(Kunda,1990;Taber & Lodge,2006)。这种确认偏见也发生在那些对某个主题更了解的人身上(Mendel et al.,2011)。这表明基层管理者不会遵循所有人工智能的建议,而是忽略人工智能输出的结果以防该结果与他们的专业知识相矛盾。
本文的第二个目的是调查可解释人工智能(XAI)如何影响人工智能建议的可信度和接受度。各领域对人工智能的需求越来越大,它不仅表现良好,而且透明、可解释、值得信赖(Giest&Grimmelikhuijsen,2020)。这是人工智能研究的一个特定领域的目标,称为可解释的人工智能(XAI)(Adadi&Berrada,2018)。对XAI的研究表明,解释能够发现算法错误(Ribeiro et al.,2016)。同时,XAI也会产生负面影响。例如解释可以说服用户遵循不正确的建议(Van der Waa et al.,2021)。总体而言,关于XAI影响的经验知识是有限的,特别是在复杂的公共决策过程中(Giest&Grimmelikhuijsen,2020;Peeters,2020)。
本文调查了人工智能建议对典型的基层管理者——警察的影响(Lipsky,2010;Maynard-Moody & Musheno,2003)。调查人工智能建议对警察的影响尤其重要,因为警察部队是实施人工智能系统的最大公共部门领域之一,这些系统可能会严重侵犯人们的生活(Meijer et al.,2021)。此外,在许多国家,警察处于采用人工智能的最前沿。例如,警察组织使用人工智能系统来预测高犯罪风险区域,预先识别年轻罪犯,分析车辆运动模式,并协助公民进行犯罪报告(Dechesne et al.,2019;Meijer&Wessels,2019)。
与此同时,鉴于警察执行的任务具有高度的不确定性和政治敏感性,警察工作不可能完全自动化(Bullock et al.,2020)。因此,警察和人工智能系统必须互动和合作。在目前的研究中,本文通过调查警察如何利用与他们的专业判断一致和不一致的人工智能建议,以及可解释的人工智能如何影响他们对这些建议的看法,来研究这种相互作用。本文调查以下研究问题:
人工智能建议和可解释的人工智能对街头警察的决策有什么影响?
为了回答这个问题,本文采用2×2重复测量析因实验。在这个实验中,研究者们测试了警察如何与一个现实的能够帮助警察封锁犯罪区域的模拟人工智能系统交互。该应用程序基于荷兰警方目前正在开发的人工智能系统。这项实验招募了124名街头警察作为基于人口的样本。参与者完成了三个类似的高度接近现实的小片段,总共有294个观察结果。参与者暴露于以下两个因素的组合:与他们直觉专业知识一致或不一致的人工智能建议(第一个因素),以及解释或未解释的人工智能建议(第二个因素)。
这项研究的结果表明,警察只相信能够证实他们所想的AI的建议;比起与其专业知识不一致的人工智能建议,警察更信任与其专业知识一致的人工智能建议。这意味着在与人工智能系统交互时,基层管理者更容易产生确认偏见,而非自动化偏见的影响。此外,本文发现警察对人工智能建议的信任不受人工智能生成的解释(XAI)的影响,这意味着即使人工智能建议得到了很好的解释,也很难推翻直觉的专业判断。
基层管理者使用的人工智能
街头层面的决策以行使行政自由裁量权为特征(Maynard Moody&Musheno,2003,9)。行使行政自由裁量权是必要的,因为一般规则与其在特定地方情况下的应用不匹配。预计公职人员将根据预先定义的法律、程序和标准做出决定,但这些规则很难完全符合当地街头工作的复杂现实。基层管理者将一般规则和相互竞争的价值观转化为客户层面的决策(Lipsky,2010)。这构成了行政自由裁量权:“基层管理者在政策执行期间决定制裁和奖励的种类、数量和质量的自由”(Tummers&Bekkers,2014,p529)。
行政自由裁量权具有积极和消极的后果。行政自由裁量权的优势在于它允许在街头工作中获得经验、当地经验、同情、同理心、洞察力和灵活性(Maynard Moody&Musheno,2003)。行政自由裁量权允许针对当地的具体情况作出决定。然而,这些自由裁量的做法不仅产生了令人满意的后果。将一般规则转化为地方决策是基于不完善的信息和基层管理者对正义和适当行动的概念(Tummers&Bekkers,2014)。因而人类的决策受到认知限制和有限理性的制约(Kahneman,2013;Simon,1957)。因此,行政自由裁量权与决策有效性和效率的降低、有偏见和歧视性的决策过程以及非法和破坏行为有关(Binns,2020;Young et al.,2019)。行政自由裁量权的这些不利结果意味着它应该受到控制(Davis,1970)。
人工智能(AI)是一套可用于控制行政自由裁量权的技术。人工智能是显示智能行为的系统的总称,通过一定程度的自主性,对其环境做出反应以实现特定目标(Zuiderwijk et al.,2021)。人工智能系统可以基于规则,但现代人工智能系统,特别是那些用于改善街头决策的系统,通常采用机器学习技术(Grimmelikhuijsen&Meijer,2022)。因此,机器学习的人工智能系统不同于传统的统计建模,因为变量之间的关系没有形式化或先验理论化(Athey&Imbens,2019)。使用机器学习的人工智能系统可以通过分析可用信息,并根据该案例与一组其他案例共享特征的程度进行推断,在个别案例中做出复杂的决策。从技术理性的角度来看,人工智能系统可以利用这些信息来减少人类在街头决策中的随意性,从而提高公共决策的准确性、一致性、客观性和有效性(Binns,2020;Young et al.,2019)。据此,本研究提出以下研究假设:
H1:基层管理者认为人工智能提出的建议中,与其专业判断相一致的建议比与其专业判断不一致的建议更值得信赖。
H2:基层管理者认为经过解释的人工智能建议比未经解释的人工智能建议更可信。
H3:基层管理者对人工智能的建议越信任,遵循该建议的可能性越大。
实验方法和测量
本文的第一个目的是研究警察如何看待人工智能建议,以及人工智能建议在多大程度上诱导了街头决策中的自动化偏见或确认偏见。第二个目的是研究XAI的效果。这两个目标在街头警察样本中的重复测量析因实验中进行了测试。更具体地说,在一项在线调查中,参与调查的警察看到了三个场景(短片):入室盗窃、ATM抢劫和刺伤事件。这些场景中的每一个都涉及到对已经犯下的罪行的描述。在一份调度报告中,警察被要求帮助封锁犯罪区域,并得到了模拟人工智能系统的协助。该系统预测了罪犯的逃跑路线,实验在该路线旁边设置了两个地点,要求参与实验的警察根据人工智能的建议选择其中一个进行封锁。
该实验具有很高的生态学效度。实验任务的选择是为了吸引更多的警察。所有街头警察在培训或实践中都有处理这种追捕情况的经验。模拟人工智能系统是基于荷兰警察组织开发的系统。此外,通过两名警察和三名学术专家对人工智能(社会)技术方面的反馈,该设计的生态有效性得以进一步加强。
最初的实验设计随后提交给了一组研究荷兰国家警察内部人工智能使用的博士候选人,并与两名街头警察合作进行了定性测试。根据这些小组的反馈,对文本进行了修改,以便实验设计更好地反映警察工作的日常现实。最后,在非专业观众(n=10)中进行了一项小型试点研究以确保实验设计清晰易懂。
数据收集
本研究获得了基于人群的样本。数据是与荷兰国家警察合作收集的。该调查分发给四个地方警察局的四名联系人。这些组织将其团队内的邀请转发给正在或曾经积极参与街头工作的警察。最初的邀请在2021年5月的第二周发出,提醒在第三周或第四周发出。数据收集于6月3日停止。在基于人群的样本中调查人工智能对街头工作的影响很重要,但很少。鉴于这项研究侧重于决策偏见和XAI,对现实警官进行这项研究尤其重要。这两者都受到决策者先验知识的影响。
这项研究中使用的唯一纳入标准是参与者完成了三个场景中至少一个的所有问题,这意味着没有使用注意力检查来删除参与者。包括来自没有完全专注于实验的参与者的数据意味着我们测量了实验条件的整体效果,即处理效果的意图。这种效果更符合人工智能建议在实际决策程序中实施时将产生的效果,这加强了结果的外部有效性(Hansen&Tummers,2020)。
该调查由当地警察部门分发,发给了大约400名街道一级的警察。共有152名警务人员对调查作出回应。28名参与者不符合纳入标准。因此,最后的样本包括124名警察。他们总共完成了294个小片段,因为一些参与者只完成了一两个小片段。
操纵检验
使用两项操作检验来评估实验处理(建议的一致性和XAI的效果)是否成功。
研究发现
样本描述
获得了街头警察的代表性样本。我们样本中的平均年龄约为47.9岁,25%的参与者为女性。这与荷兰警察的平均年龄相当,荷兰警察的平均年龄为45.2岁,34.7%的雇员是女性(Politie,2020)。93%的参与者表示拥有行政地位。这意味着几乎所有参与者都有资格从事街头警务工作。此外,大多数参与者都受过中等以上的职业教育。这与荷兰街头警察工作所需的教育水平相一致。因此,获得的样本具有代表性。此外,本文测量了三个可能影响决策者对自动化建议的信任的特征:关于算法的知识、关于模拟算法的知识以及对技术的普遍信任。
本研究的目的是调查专业知识和XAI如何影响基层管理者对AI建议的可信度。此外,还评估了人工智能建议的感知可信度的增加如何与基层管理者遵循人工智能建议的决定相关联。
首先,广义估计方程(GEEs)用于调查警察如何利用与其专业判断一致和不一致的人工智能建议(H1),以及可解释的人工智能如何影响他们对这些建议的感知(H2)。还探索了一致性和解释操作之间的相互作用,但没有发现显著影响(β=-.259[-.888,.371],p=.42)。因此,文章中介绍的是没有相互作用效应的GEE的结果。这些结果表明,警官在统计上显著地认为与其专业知识一致的人工智能建议比与其判断不一致的人工智能建议更可信(β=-.377[-.622,-.132],p=.003)。这一发现符合本文在H1中概述的预期。
相反,本文没有发现对H2的支持。虽然似乎显示了解释人工智能建议对警察认为人工智能建议的可信度存在一定的影响,但GEE表明这种影响在统计上并不显著(β=-.133[-.400,.134],p=.328)。
本文研究的最后一步,使用了带有Logit链接函数的GEE来研究人工智能建议的感知可信度的变化与警察选择遵循建议(警察同意人工智能并前往人工智能推荐的地点)或反对建议(警察选择前往其他地点)的关系。分析结果显示,与H3相一致,基层管理者对人工智能的建议越信任,遵循该建议的可能性越大(β=.243[.006,.480],p=.045)。
讨论和结论
本研究发现为专业知识对人工智能建议的感知可信度的影响提供了支持(H1),但没有为提供解释的影响提供支持(H2)。此外,发现人工智能建议的感知可信度的增加与警察遵循人工智能建议的可能性的增加有关(H3)。上述研究结果包含三个核心结论。
第一个结论是,自动化偏见的风险在街头决策中似乎不如在其他自动化领域中显著,相反,基层管理者在解释人工智能建议时似乎倾向于确认偏见。这项研究表明,警察认为与其专业知识一致的人工智能建议比与其专业知识不一致的人工智能建议更值得信赖。这一发现与定性研究一致,定性研究表明决策者根据自己的知识权衡人工智能系统提供的信息(Meijeret al.,2021;Snow,2021)。此外,这项研究与Alon Barkat和Busuioc(2021)的发现产生了共鸣,他们发现当人工智能的建议符合现有的刻板印象和偏见时,决策者更有可能相信这些建议。然而,人工智能用于街头决策相对较新且自动化偏见主要发生在使用高度可靠的人工智能系统历史悠久的领域(Peeters,2020)。因此,未来的研究应该调查基层管理者重复使用可靠的人工智能系统如何影响自动化偏见和确认偏见的发生。
第二个结论是,与XAI相关的积极影响可能没有目前文献中假设的那么突出(Miller,2019)。我们的结果表明,解释一致和不一致的人工智能建议对这些建议的感知可靠性可能存在一个小的积极影响,但这种影响在统计上不显著。这表明,对于基层管理者如何解释和使用人工智能建议,先验知识的影响远比解释这些建议背后的基本原理的影响更重要。尽管样本量更大的研究可能能够检测到XAI的一个小效应,但这提出了关于这种小效应在实践中的意义的问题,并为解释人工智能系统如何在文献中发挥作用的高期望提供了一个发人深省的信息(Weller,2019;Zerilli et al.,2019)。建议未来的研究来评估其他类型的XAI,如全球解释,是否有不同的影响。
本文的第三个结论是,感知可信度的增加与警察行为的改变有关。我们发现,认为人工智能建议更值得信赖的警察也更有可能遵循这些建议。这对于人工智能在街头决策任务中的实施非常重要。人工智能可以增强基层管理者的工作,但当它不公平、有偏见或有缺陷时,也会产生不利的结果(Veale&Binns,2017)。这项研究的结果,特别是结合第一个结论,表明基层管理者很可能,至少在一定程度上,能够减轻这些不利结果。基层管理者不会盲目信任和遵循所有人工智能的建议,而是根据他们的专业知识来权衡这些建议。因此,本研究提供了微观层面的证据,证明了当产生不一致的建议时,保持人类推翻人工智能建议的判断力的重要性。
转自:“治理学术”微信公众号
如有侵权,请联系本站删除!