投稿问答最小化  关闭

万维书刊APP下载

ChatGPT在伦理审查管理方面的能力实测与影响分析

2023/7/11 14:54:32  阅读:73 发布者:

中华医学科研管理杂志, 2023,36(3) 洪雪, 傅瑜, 李海燕, .  

摘要

目的

本文旨在通过与ChatGPT进行一次关于伦理审查管理方面的对话,实际了解该应用在伦理管理领域的智能化程度,分析其当前和未来对伦理审查管理工作的影响。

方法

研究团队设计了43个问题,用中英文分别向ChatGPT提问,根据回答内容归纳分析其优势和问题。

结果

ChatGPT反应速度优势明显,回答内容有一定合理性,在表述严谨性和友好度方面表现较好,但是在一致性、全面性和专业性方面存在问题,在精确性上有缺陷,计算能力仍有瓶颈。

结论

人工智能取代专业人士为时尚早,但可以充分开发利用人工智能的优势,助力专业人士解脱低效劳动,发挥更好的作用。

1 研究背景

1.1 ChatGPT

ChatGPT是人工智能研究实验室OpenAI(开放人工智能研究中心)20221130日发布的一款在线人工智能聊天工具,官网自称是"用于对话的优化语言模型(Optimizing Language Models for Dialogue)"[]。该系统是基于生成型预训练变换模型(Generative Pre-trained TransformeGPT)3.5版开发的自然语言处理程序(Natural Language Processing, NLP),使用了Transformer神经网络架构,主要通过从互联网获得海量文本语言材料进行强化训练,根据概率模型预测聊天中的下一句话或者下一个单词最可能是什么来构建对话,并引入新技术基于人类反馈的强化学习(Reinforcement Learning with Human FeedbackRLHF),使得ChatGPT在海量的应用中不断"成长",更加符合人类的常识、认知和价值观。目前,ChatGPT在考试和创作等方面的"人性化"表现,以及为以色列总统撰写部分公开演讲内容[]等成功案例给了强人工智能的支持者们巨大的信心,全世界再一次掀起了AI取代人类激烈讨论。2023315日,更加智能的GPT 4.0版本发布,在很多测试当中都是接近满分通过[]

1.2 伦理审查

随着上个世纪三四十年代临床药害事件的不断出现,直至第二次世界大战德国纳粹的暴行以及日本731部队人体细菌试验丑闻的曝光,广泛地引起了人类社会关注和反思,国际上陆续出台了一系列伦理相关的规范和法规来保护人体参与者安全和权益免受伤害。近几年我国大力推动和鼓励科技创新,特别是生物医药的发展[]。然而涉及人的相关研究的健康有序发展,离不开伦理的规范和约束,而保护研究参与者权益的最佳手段就是知情同意和伦理委员会的审查。目前国家规定开展涉及人的生命科学与医学研究的单位必须设置伦理委员会,开展伦理审查工作[],研究者的伦理申请和伦理办公室的伦理审查管理已经是每个开展涉及人的生命科学与医学研究单位非常重要且必不可少的工作内容。

2 研究设计

本文的研究团队借助多年在临床科研和伦理审查管理领域的工作经验,参考在伦理培训和伦理审查中与临床研究者的沟通交流,结合ChatGPT的对话式工作模式,设计以模拟对话的方式,了解它目前在伦理审查管理领域的"学习成果"和智能程度,探讨和分析该系统对于当前和未来伦理审查管理工作可能产生的影响。

首先,我们针对研究者端培训视角向ChatGPT提问伦理审查相关概念性问题6项,包括伦理审查原则、适用范围、遵循的法规,以及撰写知情同意书的要素、知情同意的作用及具体要求。其次,按照研究者端提交伦理材料、撰写试验方案视角,选择"依达拉奉右莰醇联合阿替普酶静脉溶栓治疗急性缺血性脑卒中患者疗效的真实世界研究"(以下简称"依达拉奉右莰醇项目")这一已经顺利通过伦理审查且完成研究,但尚未公开发表文章的具体项目为基础,梳理出相关研究背景、诊断标准、入排标准设置、样本量设置等方案设计方面的问题,以及如何根据试验方案撰写知情同意书等问题共13项。最后,根据伦理办公室秘书形式审查要素,如文件清单、审查文件重点要素等问题8项。同时想测试ChatGPT对语种是否有干预,又将问题以英文表达进行了同步提问。为了避免干扰因素,我们将问题尽量标准化、完整化展示且与法规阐述方式保持一致,过程中ChatGPT3.5版本升级为4.0版本,我们选择部分问题进行了重复测试,以验证升级后的ChatGPT回答是否有本质变化。通过对比分析ChatGPT的回答内容来探讨ChatGPT对于具体伦理问题的解决能力,在此基础上进一步研究形成"ChatGPT"对涉及人的生命科学与医学研究伦理审查的影响分析结论。

ChatGPT回答内容对照的参考答案主要基于国际及国内法规,以及"依达拉奉右莰醇项目"的试验方案、知情同意书。"依达拉奉右莰醇项目"由研究团队内一位具有丰富临床经验的权威神经科专家主持,研究方案及相关伦理审查文件已通过学术审查和伦理审查,被专家委员会认定质量较高。

3 讨论

得到ChatGPT的回答内容后,本文的研究团队对每个问题的答案都进行了分析和讨论,汇总整理了好的表现和存在问题两个方面。

3.1 好的表现

ChatGPT最好的表现是反应迅速,每个问题几乎都是提交后即刻给予回答,"思考时间"很短,与人类的思考和表达时间相比,速度优势达到了几个甚至几十个数量级。此外,从回答内容上分析,好的表现可以归结为以下3项。

3.1.1 系统交互友好

问答过程拟人感、智能感充足,即使是自己的问题中没有明确的隐含内容,也会进行判断并影响回答内容,获取知识的过程比高度依赖用户输入关键词和语法的传统搜索引擎更友好。例如,在回答"开展涉及人的生命科学和医学研究应遵循哪些伦理方面的法规?"时,根据中文提问自动判断了用户的国籍,给出的法规中包括了《中国人类遗传资源管理办法》的内容,但是同样问题的英文版回答中,则不包括该法规。

3.1.2 表达形式严谨

从回答内容的形式结构上分析,多数分为问题引述、回答要点、补充和总结4个部分。如在回答"目前静脉溶栓治疗急性缺血性脑卒中的国际指南是什么"时,补充说明"在实际应用中,需要结合患者的临床状况和治疗窗口等因素进行个体化治疗",在回答"新药注册类临床试验进行伦理审查申请需要提交哪些文件即申请递交文件清单"时,补充说明"具体申请文件可能会因不同的国家或地区的法律法规而有所不同,上述文件只是一般情况下需要提交的文件",都使回答内容整体上更加严谨。在回答"国际上是否有与'依达拉奉右莰醇项目’相同的研究"问题时,既说出了没有确认到有相同的研究,又提出了研究成果发布和共享需要时间。

3.1.3 部分回答内容较为合理

例如,在回答如何设计"依达拉奉右莰醇项目"的评价指标时,甚至给出了实际研究方案没有涉及到、但确有参考价值的评价量表。在回答"依达拉奉右莰醇项目"推荐试验方法时,回答内容与研究者实际使用的方法完全一致。在回答推荐参加研究参与者的入排标准时,关于入选标准设计与实际方案设计的入选标准有较高的一致性。在回答"缺血性脑卒中的诊断及静脉溶栓标准是什么。"时,给出的答案也非常正确。在回答"依达拉奉右莰醇项目"的样本量和随访计划设计时,与研究者使用的真实样本量也比较接近,随访计划设计基本一致。

3.2 存在问题

虽然本次测试中,ChatGPT有好的表现和优势,但仍然存在一些不能忽视的问题。

3.2.1 不准确

可以归结为两类现象:一是个别回答内容中,采用的名词不准确。例如回答"开展涉及人的生命科学和医学研究应遵循哪些伦理方面的法规?"时,《世界医学协会伦理宣言》这种提法从各类文档和百度、谷歌搜索中都没有得到确认,而正确译法应为《世界医学协会赫尔辛基宣言》,《生物医学研究人类伦理审查暂行办法》和《中国人类遗传资源管理办法》这2个法规名称也不准确。在回答"目前中国及国际上伦理审查主要遵循哪些法律法规文件?"时,回答内容中的《中华人民共和国医疗卫生法》和《关于人类遗传资源的万隆宣言》法规名称更为离谱。二是回答内容的部分关键描述不准确,例如回答"依达拉奉右莰醇项目"的入排标准时,"具备足够的认知和语言能力,能够理解并签署知情同意书"这一入选标准没有考虑到此类研究的参与者存在限制和无民事行为能力者,需要由监护人代为签订知情同意书。

3.2.2 回答内容不全面

ChatGPT就像一位表达能力极强的专家在回答一个自己不太擅长的专业问题时,试图通过罗列很多特殊情况及条件来掩饰其知识和经验储备的不足。例如,在对2个版本GPT的提问中都有关于伦理审查的原则、适用范围、基本要求,以及知情同意书基本要求和伦理审查需要提交的文件清单等问题,回答内容都没能覆盖相关法规中的全部内容,有的甚至不足标准答案内容的半数准确率。在回答为"依达拉奉右莰醇项目"设计研究参与者知情同意书时,第7次完整回答的内容也与符合伦理审查要求的必备要素相差甚远。在回答"依达拉奉右莰醇项目"的入排标准时,自动忽略回答排出标准的内容,出现漏答现象。

3.2.3 前后回答不一致

同样提问"伦理审查的原则是什么",两次回答的内容完全不同,升级GPT 4.0版后的回答内容也并不比以前更完整。特别是在回答为"依达拉奉右莰醇项目"设计知情同意书时,中断的六次和成功的一次,每次回答内容均不一致。

3.2.4 计算能力仍然有瓶颈

在回答为"依达拉奉右莰醇项目"设计知情同意书时,提问6ChatGPT依然未能给出完整答案,都是在输出部分内容后中断,第7次提交才完成作答,输出了一份体例完整的知情同意书。

3.2.5 没有真正的语义理解

研究团队拟定的问题,翻译为英语版本测试,重复测试即关闭窗口后再重新登陆系统进行访问,从语义上讲,中英文提问的内容完全一致,但是回答内容确存在很大的差异。例如,在回答"伦理审查的意义是什么"时,中文回答有四条,英文回答却有6条,其中中文"增强公众对研究或治疗活动的信任"的答案在英文提问的回答中演变为"遵守国家规定和指导方针""提高研究质量"

4 结论

综合分析本研究中ChatGPT好的表现与存在问题,研究团队认为在"涉及人的生命科学与医学研究伦理审查管理"这一专业细分领域,ChatGPT的能力和作用都还有待于提高和完善,其影响主要体现在3个方面:

现阶段,利用类ChatGPT人工智能应用取代专业伦理管理人员的妄想或恐慌可以停止了。结合本次研究中ChatGPT的回答表现和各类对ChatGPT的技术性解读,研究团队认为其基于概率计算相关性从而得出答案的本质,决定了即使算法再优化、语料再增加,也难以在问题与答案之间建立准确且一致的逻辑链接,同时它的相关性计算深度高度受限于计算能力,所以目前在伦理审查这一细分领域尚未具备独立、正确、完整解决一项具体问题的能力。

长远看,此类应用在伦理审查管理领域还有较高的开发利用空间。研究团队初步判断,应能够通过为类ChatGPT应用(如百度"文心一言",阿里"通义千问")组织和提供一定量的伦理审查专业语料,并适当提高这批语料的领域权重,结合"基于人类反馈的强化学习"技术进行人工校正,应能够优化出一个伦理审查管理领域的专有人工智能应用,在具体伦理审查管理工作的前期提供一定的基础支撑,如为刚刚入职的相关工作人员提供理念培训,特别是为首次进行伦理审查申请的研究者创建伦理材料快速提供参考模板,为伦理管理人员提供待审核材料中客观要素的自动审核等,从而为伦理管理人员和临床研究者减轻部分重复性、基础性工作的压力,使其更聚焦于业务和研究本质。

更高层面上,近年来人工智能的快速发展和应用,特别是本次ChatGPT的发布,引起了全人类对于泛伦理的关注、思考与探讨,客观上有助于伦理思维和意识的普及,使伦理审查这一概念不再局限于专业管理人员和医学科研人员的知识体系和工作领域,真正成为能够左右人类社会发展决策的影响因素。

转自:“医学科研与管理空间”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com