当前位置:   article > 正文

人工智能会话代理在医疗保健中的有效性:系统综述_智能代理在医学的应用文献综述

智能代理在医学的应用文献综述

#论文泛读
##The Effectiveness of Artificial Intelligence Conversational Agents in Health Care: Systematic Review
翻译
人工智能会话代理在医疗保健中的有效性:系统综述
背景:对卫生保健服务的高需求和人工智能能力的不断增长导致了会话代理的发展,旨在支持各种健康相关的活动,包括行为改变、治疗支持、健康监测、培训、分诊和筛查支持。这些任务的自动化可以解放临床医生专注于更复杂的工作,并增加公众获得卫生保健服务的可能性。需要对这些药物在卫生保健中的可接受性、可用性和有效性进行全面评估,以整理证据,以便未来的发展能够针对需要改进的领域和可持续采用的潜力。

目的:本系统综述旨在评估会话代理在医疗保健中的有效性和可用性,并确定用户喜欢和不喜欢的元素,为未来这些代理的研究和开发提供参考。

方法:系统检索PubMed、Medline (Ovid)、EMBASE(摘录pta Medica数据库)、CINAHL(护理及相关健康文献累积索引)、Web of Science和计算机协会数字图书馆,检索自2008年以来发表的评估在医疗保健中使用的无约束自然语言处理会话代理的文章。采用EndNote (version X9, Clarivate Analytics)文献管理软件进行初步筛选,全文筛选由1名审稿人进行。数据被提取出来,由一名审查员评估偏见的风险,由另一名审查员验证。

结果:共选取31项研究,包括各种会话代理,包括14个聊天机器人(其中2个为语音聊天机器人),6个具身会话代理(其中3个为交互式语音响应呼叫、虚拟患者和语音识别筛选系统),1个上下文问答代理,1个语音识别分诊系统。总的来说,报告的证据大多是积极的或好坏参半的。可用性和满意度表现良好(27/30和26/31),四分之三的研究发现积极或混合有效性(23/30)。然而,在具体的定性反馈中强调了代理人的几个局限性。

结论:研究普遍报告了被调查的会话代理的有效性、可用性和满意度的积极或混合证据,但定性的用户感知更混合。许多研究的质量有限,需要改进研究设计和报告,以便更准确地评估这些制剂在健康方面的效用关注并识别需要改进的关键区域。进一步的研究还应该分析代理的成本效益、隐私和安全性。
关键词人工智能;《阿凡达》;聊天机器人;会话剂;数字健康;智能助理;语音识别软件;虚拟助理;虚拟教练;虚拟医疗;虚拟护理;语音识别软件

背景对话代理是被引入卫生部门的众多数字技术之一,以应对当前的卫生保健挑战,如卫生保健提供者短缺,这降低了卫生保健服务的可用性和可及性[1-3]。会话代理使用人工智能(AI),包括机器学习(一种用数据训练模型的统计方法,使模型能够基于各种特征进行预测)和自然语言处理(NLP;识别和分析口头和书面语言的能力),在移动、基于web或基于音频的平台上通过语音、文本或其他输入和输出与人类互动[1,4]。
许多这样的代理都设计为使用NLP,以便用户可以像对人一样对代理说话或写东西。然后代理可以分析输入并以对话的方式进行适当的响应[5]。
1966年,随着虚拟心理治疗师(ELIZA)的开发,会话代理首次作为医疗保健工具出现,它可以为基于文本的用户输入[6]提供预先确定的答案。在此后的几十年里,NLP的能力有了显著的进步,并帮助开发了更先进的AI代理。许多使用NLP的不同类型的会话代理已经被开发出来,包括聊天机器人、嵌入式会话代理(ECAs)和虚拟患者,并可通过电话、移动电话、计算机和许多其他数字平台访问[7-10]。会话代理能够接收和解释的输入类型也有所扩展,一些会话代理能够分析动作,如手势、面部表情和眼球运动[11,12]。
已经为卫生部门的许多不同方面开发了对话代理,以支持卫生保健专业人员和公众。具体用途包括健康状况筛查、分诊、咨询、家庭健康管理支持和卫生保健专业人员培训[8,13-15]。

随着电话、移动和在线平台的广泛使用,会话代理可以为获得卫生保健有限或卫生知识贫乏的人群提供支持[16,17]。
它们也有可能以可承受的价格扩大规模,以覆盖人口的很大一部分。由于这种可访问性,会话代理也是促进以患者为中心的护理的一种有前途的工具,可以支持用户参与自己的健康管理[17,18]。
个性化功能有可能进一步提高可用性和满意度,尽管还需要更多的研究评估他们在实现所述健康结果和降低成本方面的有效性,并确保对决策或隐私没有负面影响[10]。
尽管有大量关于会话代理在医疗保健中的应用的研究,但大多数综述都将其重点局限于特定的健康领域、代理类型或功能[10,19-22]。虽然最近有一些系统的审查审查了更全面的范围,但它们是对知识体系的全面综合。
一项综述开发了一种分类法,描述了医疗保健中会话代理的体系结构和功能以及该领域的状态,但没有评估其有效性、可用性或对用户[5]的影响。另一项系统综述调查了对话性代理研究的结果测量,但将纳入标准限制在使用自然语言输入并已在人类参与者[2]上进行测试的代理。此外,他们最初的数据库搜索只检索到1531篇文章,这让人担心一些相关文章可能被忽略了[2]。他们的研究在2018年2月进行了更新,但鉴于技术发展的快速步伐,有必要对之前的这些系统综述进行更新和扩展。
要使会话代理在医疗保健中取得成功,了解当前代理在实现预期结果方面的有效性是至关重要的。然而,了解用户对这些代理的感受和联系也同样重要,因为新健康技术的采用取决于用户的看法(例如,他们是否信任该技术,发现它易于使用,并感到隐私和数据安全受到尊重)[23]。如果会话代理要对医疗保健产生重大影响,就需要解决用户识别的问题,因为会话代理的影响取决于人们是否愿意使用它们,并更喜欢使用它们而不是替代方案。本综述中收集的信息确定了对话代理目前需要克服的问题,并可用于帮助确定代理的哪些元素最有可能在医疗保健的各个方面取得成功和有用。由于对话代理常常被吹捧为有可能减轻保健资源负担,因此也需要评估这些代理对改善保健提供和减少资源需求的影响。
本综述的主要目的是描述当前用于卫生保健活动的会话代理的范围(由患者、卫生保健提供者或一般公众),检查用户对这些代理的感知,以及评估他们的有效性。我们开发了3个主要的研究问题来解决这些目标。首先,被调查的对话代理是否有效地达到了预期的健康相关结果,其有效性是否因代理的类型而不同?第二,用户如何评价会话代理的可用性和满意度,他们喜欢和不喜欢代理的哪些具体元素?最后,会话代理在医疗保健中的应用目前有哪些限制和差距?这些目标建立在以前的系统回顾的基础上,同时扩大所纳入研究的范围,以更新卫生保健中会话代理的知识体系,并为未来的研究和开发提供信息。
本综述的全部方法已在系统综述协议[24]中详细发表。人群、干预、比较和结果框架[25]用于制定搜索策略,该策略遵循PRISMA-P(系统回顾和荟萃分析协议首选报告项目)清单[26]实施。没有使用研究设计过滤器;任何类型的研究都有资格入选。在与一名医学图书馆员协商后,根据不同的数据库确定了搜索策略。检索PubMed、Medline (Ovid)、EMBASE(摘录pta Medica数据库)、CINAHL(护理及相关健康文献累积索引)、Web of Science和计算机协会数字图书馆数据库。
搜索词被分组为3个主题(会话代理、健康应用和结果评估),以捕获所有符合关键纳入标准的研究:评估在医疗保健中使用的会话代理。随后对这些主题进行结构搜索:会话代理(MeSH OR关键词)和健康应用(MeSH OR关键词)和结果评估(MeSH OR关键词)。
完整的搜索策略可以在多媒体附录1中找到。搜索工作于2019年11月29日完成。
纳入和排除标准本系统综述旨在评估为卫生保健目的设计的会话代理。评估至少一种会话代理的研究被纳入。包括针对任何人口群体、地理位置以及心理或身体健康相关功能(如筛查、教育、培训和自我管理)的研究。建立这些广泛的包含标准是为了能够对会话代理的广泛应用进行评估。研究类型没有限制,只要对会话代理进行评估,并包括干预和观察研究,如横断面调查、队列研究和定性研究。干预性研究不要求有特定的比较国或任何比较国。
在筛选过程中,排除了无法通过无约束NLP与人类用户进行交互的会话代理的研究。其中包括只允许用户从预定义选项中选择的会话代理,或具有预先录制的响应的代理没有适应后续的用户响应。这种排除的基础是,如果没有使用NLP的能力,计算方法和技术是初级的,不能推进人工智能的目标自治计算代理。由于许多研究没有明确说明被调查agent是否有能力进行NLP,因此论文中对允许自由文本或自由言论输入的会话agent的描述被用作NLP的指标,这些研究也被纳入其中。没有报告制剂结构的研究被排除在外。
由于开发中的会话代理的数量和/或那些没有进展到开发的评价阶段的数量,完全描述性的研究被排除在外。
此外,由于近几十年来对话代理的发展速度,研究仅限于2008年期间或之后发表的研究。2008年,第一部iPhone发布,标志着数字技术的普及和性能的提高。为了确保作者的准确解读,只收录了用英文发表的研究。会议出版物也被排除在同行评议文献的审查之外。
本综述的主要目的是提供NLP会话代理在卫生保健中的使用概况。
因此,评估的主要结果是会话代理在实现其预期的健康相关结果方面的有效性和用户对代理的感知(包括但不限于可接受性、可用性、满意度和具体的定性反馈)。次要结果包括卫生保健提供的改善和对卫生保健系统的资源影响。
筛选和研究选择从数据库中检索到的所有研究都存储在文献管理软件EndNote(版本X9, Clarivate Analytics)中,该软件自动剔除重复。由于时间限制,我们使用EndNote搜索函数提取相关研究,然后由2名独立审稿人根据纳入和排除标准筛选引文。如果发现同一研究的副本或出版物,则选择最近的出版物或最详细的出版物列入审查。所有的异议都要进行讨论,如果不能达成一致意见,就征求第三位审查员的意见。完整的EndNote搜索细节见多媒体附录2。
符合入选标准的文章全文由一名审稿人筛选。在被认为有资格列入的筛选文章中,有58篇是会议摘要,没有全文;因此,他们被排除在外。这突出了许多这些制剂的早期发展阶段。
数据提取数据由一名审稿人提取,研究中的关键数据点,在协议中指定,并在进一步研究出版物时确定,记录在电子表格中,并由另一名审稿人验证。数据提取形式为根据Cochrane Handbook for Systematic Reviews[27]推荐的最低要求。类型
所有的质量评估由2名独立审稿人进行,分歧通过协商一致解决。如果不可能这样做,则征求第三名审查人的意见。
由于研究设计种类繁多,研究类型由一名审查员进行分类,另一名审查员进行验证,异议由第三名审查员讨论解决。由于广泛的纳入标准旨在涵盖所有相关研究,因此少数纳入的研究在人工智能研究中使用了超出经典公共卫生设计方法范围的实施模型。这导致一些研究设计被归类为其他。
采用Cochrane协作网偏倚风险工具评估随机对照试验(rct)[28]的偏倚风险。队列研究和定性研究的CASP(关键评价技能计划)工具被用于各自的研究[29],横断面研究评价工具(AXIS)工具被用于评估横断面调查研究[30]的质量。被编码为其他设计类型的研究也使用AXIS工具进行评估,AXIS被认为是最严格和适当的工具,因为它系统地评估了引言、方法、结果和讨论部分的元素,而且不限于偏向风险工具中使用的rct特定问题。

使用RevMan 5.3对Cochrane协作网偏倚风险工具的结果进行总结。计算CASP和AXIS分数时使用yes=1, no=0,不能回答或不知道=0。每个问题的分数被加起来,以提供每个研究的分数,根据研究类型取平均值,并显示在结果中。
由于人群、干预措施、结果和研究设计的可变性,不可能对研究进行meta分析。因此,我们报告了研究结果的结构化分析,以得出关于卫生保健中会话代理的有效性和用户感知的结论。本综述的目的是,如果与比较者或对照者相比,给定结果有统计学上显著的改善(P<.05),或随着时间的推移,该制剂被认为是有效的。如果两组之间或随着时间的推移,没有报告显著性或差异不显著或显著恶化,则认为该制剂没有显著证据支持。总结了研究的局限性和未来的研究方向。健康信息技术评估综合框架(SF/HIT)被用于构建研究的评价,因为它包括一整套结果变量[31]。这些因素包括效率、满意度和感知的易用性或有用性等。根据框架,每个结果变量的证据被编码为阳性或混合或中性或阴性。如果研究没有解决问题的结果,它被标记为中性或负面。
最后,在研究报告了定性用户反馈的地方,通过提取讨论定性感知的原文部分,将其简化为关键主题,然后在不同的研究中比较这些关键主题,来提取共同主题。
总共从6个数据库中检索到9441篇研究,其中重复研究2782篇。使用参考文献管理软件EndNote进行初步筛选,使用基于原始搜索类别的关键词排除不符合标准的研究。6次通过后,还剩下957篇引文进行抽象筛选。在筛选阶段被排除的主要原因是,该研究没有包括交互式、响应性会话代理(n=470),是一篇综述论文(n=65),与健康无关(n=48),或没有报告对会话代理的任何评价(n=46)。在这957篇引文中,选取293篇进行全文综述。在最后的评审中,纳入了31篇论文。在全文审查后被排除的原因详见图1,最常见的原因是会话代理没有使用NLP (n=81),无法获得全文(n=71),或者本研究中没有会话代理(n=51)。
31项纳入研究的特征见多媒体附录3[8,9,12-15,32-56]。在这些研究中,45%(14/31)评估了具有某种类型的音频或语音元素的会话代理。在代理中,45%(14/31)为聊天机器人(包括2个语音聊天机器人和1个还使用向导的聊天机器人),19%(6/31)为ECAs(包括1个虚拟医生),10%(3/31)为交互式语音应答(IVR)电话、虚拟患者和语音识别筛选系统。最后两个包括一个上下文问题回答代理和一个语音识别分诊系统。在26项研究中,他们的对话代理被用于设备上;35%(9/26)使用电脑,27%(7/26)使用网络应用,23%(6/26)使用手机应用,15%(4/26)使用电话;其中一项研究使用了平板电脑(由于一种药剂既可以用在电脑上,也可以用在电话上,所以比例加起来不等于100%)。
纳入研究的对话代理人针对的保健领域非常广泛。其中处理心理健康问题的比例最大(12/ 31,39%)[13,32-42],19%(6/31)提供某种形式的临床决策或分诊支持[8,12,40,42-44]和治疗支持(包括鼓励使用者进行筛查)[9,45-49],10%(3/31)用于支持卫生保健专业学生的培训[15,41,50]和使用者的筛查或诊断[14,38,51],7%(2/31)针对身体健康[52,53]和外行医学教育[54,55];设计了1个agent来帮助监控用户的语音[56]。这些百分比加起来并没有达到100%,因为一些涉及心理健康的研究也属于另一类。
研究设计也有很大差异,29%(9/31)采用横断面设计,26%(8/31)采用随机对照试验,23%(7/31)采用定性方法,19%(6/31)采用队列研究,1例采用聚类交叉设计。完整的数据提取表可在多媒体附录4[8,9,12-15,32-56]。
总的来说,大约四分之三的研究(22/ 30,73%)对大多数结果报告了积极或好坏参半的结果。SF/HIT中指定的11项结果中,共有8项研究报告了10项或以上的积极或混合证据;本综述的分析仅限于对研究作者报告的影响的解释,以反映评估结果。除1项仅为可接受性研究且未评估其他结果的研究外,被标记为阳性或混合结果的平均数量为67% (7.4/11,SD 2.5)。然而,每项研究获得的结果数量从1/11到11/11(9-100%)不等。
感知的易用性或有用性(27/ 30,90%)、服务提供过程或绩效(26/ 30,87%)、适当性(24/ 30,80%)和满意度(26/ 31,84%)是研究中得到最多支持的结果。超过四分之三(23/ 30,77%)的研究也报告了积极或混合的有效性证据。

然而,很少有研究讨论被评估制剂的成本效益(5/ 30,17%,编码为积极或混合)或安全性、隐私和安全性(14/ 30,47%,编码为积极或混合)结果。大约四分之一的研究(8/ 30,27%)对超过一半的SF/HIT结果没有积极或混合的报告证据。SF/HIT结果的评价总结于表2[31]。
在31项研究中,共有18项研究包含了更具体的用户反馈。会话代理最常被提出的问题(9项研究)是由于词汇量有限、语音识别精度或单词输入的错误管理而导致的理解能力差[13,32-37,41,52]。与此相关的是,由于对话代理经常要问不止一次问题才能处理应答,3项研究中的用户指出不喜欢与代理的重复对话[13,36,37]。
这两个问题都是未来会话代理研究和开发中需要改进的关键领域,因为它们代表了在现实环境中代理可用性的局限性。
5项研究的用户反馈表达了对交互性的偏好,其中1项研究的用户指出他们喜欢聊天机器人的交互性[35,37],其他4项研究的用户表示希望会话代理具有更强的交互性或关系技能[14,32,34,53]。类似地,4项研究的用户报告喜欢代理具有个性和/或表现出共情[13,32,34,42],而其他研究的用户报告不喜欢缺乏个人联系或难以与代理共情[35,37,50],或报告不喜欢代理有限的对话和反应[35,56]。
由于会话代理的种类繁多,它们的目的和医疗保健环境,许多定性用户感知数据涉及代理的不同方面。然而,几项研究报告了关于定制或功能选项可用性的反馈,其中两项研究给出了积极的评价(例如,拥有语音和触摸模式,使护士的分诊系统可以免提工作和快速数据输入)[8,35],还有3项研究希望有更多的功能和更多的控制[33,37,48]。此外,两项研究中的用户建议将代理与电子健康记录(EHR)系统更好地集成(对于虚拟医生[42])或卫生保健提供者(对于哮喘自我管理聊天机器人[48])将是有用的。
用户报告喜欢的代理的其他特征是提醒和帮助形成惯例[37,48],代理提供问责[13,34,48],促进学习[13,34,37],易于学习和使用[8,15]。在纳入的研究中,3个对话代理是虚拟患者,所有3个研究中的用户都表示喜欢它提供了一个无风险学习的平台,因为他们没有在真实患者身上练习[15,41,50]。
几项研究报告了特定于会话代理的用户反馈。这包括偏好电话IVR而不是基于网络的儿科护理指导[9],偏好计算机生成语音的简单化身而不是更逼真的录音语音代理[42]。在一项研究中,用户报告喜欢代理发起的对话[37]。在两项关于回复格式的研究中有相反的反馈,用户更喜欢聊天机器人[36]的预格式化选项,而一些用户更喜欢诊断聊天机器人的自由文本回复,因为它允许他们提供上下文信息。相反,其他人则发现要知道如何回应才能让代理理解[14]更加困难。
其他特定于代理的负面反馈是,虚拟医生没有能力深入到足够深或提供访问其他材料的途径[42],提供了太多的信息[13,33]或互动时间太长[13],化身使用非语言表达[35],聊天机器人[37]的目标不够明确。一些使用虚拟病人的学生也报告说,很难移情[50],代理没有充分包含真实的情景复杂性[15]。各种具体的反馈报告证明了检查可用性的重要性
单独的会话代理,并根据目标人群定制设计。虽然经常报告一些偏好和抱怨,但大部分反馈都是依赖于代理的。专题分析的摘要载于多媒体附录5。
遗憾的是,只有少数研究讨论了医疗保健提供的改善或对资源的影响;其中两项研究建议改善医疗保健服务,对虚拟病人进行评估[41,50],其中一项研究的学生报告称,他们对自己的临床技能和与病人面谈的能力明显增强了信心。超过80%的使用者还报告说,这些药物帮助他们更有效地遵循治疗[45],并为儿科就诊[9]做更充分的准备。在一项针对睡眠障碍筛查的ECA研究中,65%的用户报告认为该制剂可以为医生提供重大帮助[51]。关于资源的影响,研究发现,在儿科就诊前准备的IVR电话,与对照组[9]相比,IVR组的就诊时间明显缩短。

作者建议使用ECA来筛查抑郁症[38]和在急诊科(EDs)中为自杀患者使用虚拟医生[42],以节省医生的时间和减少自杀念头的急诊科就诊的相关费用,但这些结果没有进行评估。同样,另一项研究表明,通过虚拟教练[35]提供更划算的训练,正念冥想可能会更有用。
研究中经常提出这样的建议,即对话代理有可能改善医疗保健服务,节省医疗保健提供者的时间,并降低成本。然而,如上所述,很少有研究量化这些主张,更少用客观的方法衡量这些结果。这是整个研究的一个局限性。尽管很多都处于测试的早期阶段,但关于医疗保健系统在时间和金钱方面的潜在价值的主张应该得到证实。然而,正如评估中中性或负面编码的数量所证明的那样,许多研究没有考虑整个系统的实施结果。对于会话代理的未来发展来说,从一开始就考虑这些结果是很重要的,这样不仅可以接受和使用代理,而且还可以为医疗保健系统提供价值。
本综述包含了多种研究类型;因此,我们使用了几种不同的质量评估工具来评估纳入的31项研究的偏倚风险和质量。共有6项研究不能归类为rct、队列、定性或横断面研究,其研究设计被编码为其他[12,39,40,44,52,55]。这些研究大多是描述会话代理的发展和初步评价的论文,其中一半没有参与者[40,44,55]。最初,没有明确设计的研究分为定性研究和解释性研究。然而,进一步分析发现,许多研究并不符合定性研究的标准——评估主观、主题和非数值数据——因为它们评估的是诸如错误率[52]、准确性[12,39,40,52,55]、精度[44]和用李克特量表量化的用户体验[39]等性能指标。因此,这些研究被编码为其他研究,并使用横断面研究的AXIS工具进行评估,该工具被认为对研究的各个要素提供了最系统的评价[30]。对这些研究的质量进行了尽可能好的评估;但是,应当在这些限制的范围内考虑这些判断。
总体而言,这些研究的质量从差到中等。平均而言,rct[9,13,34,37,46,47,49,53]和定性研究[41,48,56]被评价的质量一般最高,偏倚风险最低,其他3种研究类型均未达到质量评价标准的一半以上。采用Cochrane协作网偏倚风险评估工具[28]对8项rct的偏倚风险进行评估(图2),采用RevMan 5.3软件(Cochrane)[57]对结果进行汇总。总体而言,rct在偏倚风险评估中表现相当良好(图3)。
由于适当的随机序列生成(5/8)和分配隐藏(4/8),大约一半的研究被评估为具有较低的选择偏倚风险,报告偏倚风险较低(4/8),因为报告的结果可以与先验方案或试验注册进行比较。大多数研究报告了结果评估者的盲目性(7/8)和由于组间低或相等的退出或使用意向治疗分析(6/8)而导致的低减员偏倚风险(6/8)。大多数研究(5/8)有较高的表现偏差风险,但这主要是因为盲法不可能考虑到干预的性质。
使用CASP检查表评估的队列(n=9)和定性(n=3)研究平均满足5/12(范围1-10)和7/10(范围4-9)标准,分别为[29]。在队列研究中,表现最好的问题是,“该研究是否解决了一个明确的焦点问题?”(8/9是),“随访时间够长吗?”(8/9是),以及“这项研究的结果是否与其他现有证据相吻合?”(6/9是)。在队列招募(1/9是)、识别和解释混杂因素(1/9是)、准确暴露和结果测量(2/9和3/9是)以及结果对当地人群的适用性(3/9是)等问题上,研究表现最差,要么是不符合标准,要么是没有报告它。另一方面,定性研究在定性方法是否适当、伦理问题的考虑、研究结果的明确陈述以及研究结果是否对当地有帮助等问题上表现最好(每个问题3/3是)。这3项研究都没有考虑到研究者和参与者之间的关系。他们在样本收集、数据收集和数据分析的问题上也表现不佳(各有1/3的人是)。
使用AXIS工具评估的横断面(n=5)和其他(n=6)研究平均分别满足50%(范围26-80%)和42%(范围29-70%)的标准[30]。报告的百分比而不是标准的确切数量,因为有几个问题不适用于研究;因此,每项研究评估的标准总数是不一样的(平均19和16;范围分别为18-20和10-19)。
总体而言,横断面研究在问题上表现最好
关于目标的清晰度(5/5是),目标的适当结果变量(5/5是),内部一致性(5/5是),基本数据的充分描述(4/5是)。他们在关于样本选择的问题上表现最差——样本选择是否来自一个适当的基础以代表总体(1/5是)以及该过程是否可能选择一个有代表性的样本(0/5是)——使用适当的结果测量(先前评估;0/5是),是否对复制方法进行了充分描述(1/5是),以及利益冲突(1/5否,大多数没有报告)。
其他研究在研究设计是否适合于目标和结论是否被结果证明的问题上表现最好(6/6都是)。总体而言,他们在结果变量的适当选择和内部一致性方面也做得很好(5/6都是)。然而,所有其他问题适用的研究在以下问题上表现不佳:样本量的合理性(0/5是)、选择过程是否可能获得代表性样本(0/5是)、处理无反应者(0/2是)、基本数据的充分描述(0/4是)、对无反应偏差的关注(0/3否)、方法中描述的所有分析结果的表示(0/6是)、虽然这主要是因为分析在方法中没有充分描述),以及利益冲突(0/6没有,再次因为没有报道)。此外,只有1项研究充分解决了使用先前评估结果指标的问题(1/5是),充分描述了复制方法(1/6是),并讨论了研究局限性(1/6是)。值得注意的是,用于评估其他研究的AXIS工具是为横断面研究设计的,并不完全符合这些研究的设计。因此,当使用特定于研究类型的工具进行评估时,这些研究可能会表现得更好。多媒体附录6-9[8,12,14,15,32,33,33,35,36,38 -45,48,50-52,54-56]描述了CASP队列中每个问题的判断和定性检查表以及横断面和其他研究的AXIS工具。
在本系统综述中,我们审查了31项评估卫生保健中会话代理的有效性和可用性的研究。总的来说,研究报告了适度数量的证据支持药物的有效性、可用性和积极的用户感知。平均而言,三分之二(67%)的研究报告了每种评价结果的积极或混合证据。然而,这一差异显著,可用性、代理性能和满意度在所有研究中获得了最多的支持,而成本效益几乎没有得到任何支持。还应指出,有效性的定义差异很大,质量评估中确定的方法局限性证明了有效性的评价很少像预期的医疗器械那样严格。
尽管报告的结果对会话代理在医疗保健中的使用很有希望,但在所分析的研究和本综述的结构中都存在一些限制,质疑这一发现的有效性。
关于用户对代理人的定性看法,具体的反馈意见非常复杂。用户强调了代理的许多积极因素,特别是他们的个性和提供同理心和情感支持的能力,他们支持学习,他们易于使用和访问,他们帮助他们负责,所有这些都支持可用性和满意度结果的普遍积极评价。然而,在报告定性反馈的研究中,这些制剂存在一些局限性。这些问题包括:代理难以理解它们,代理重复且互动性不足,用户难以与代理建立个人联系。这表明,尽管研究报告了普遍积极的可用性,但在医疗保健中成功使用会话代理还存在许多障碍,需要在它们实现最大影响之前解决这些障碍。需要指出的是,这篇综述只包括使用NLP的会话代理的研究,而自由文本输入可能会给理解带来更大的困难。
本系统综述的结果与文献的结果基本一致,特别是先前评估卫生保健[2]中会话代理的系统综述。他们还发现纳入研究的设计和证据质量有限,研究方法报告不一致(包括选择方法、减量方法和缺乏经过验证的结果测量方法)和利益冲突[2]。之前的系统综述发现,有效性和患者安全性的高质量证据有限,本综述也观察到了这一点。同样,它注意到,研究普遍报告了较高的总体满意度,但会话代理最常见的问题与语言理解或糟糕的对话管理有关,这与我们的发现[2]一致。结果上的一些相似性可能是因为纳入研究的重叠;他们纳入的17项研究中有7项也纳入了我们的综述[2]。
正如先前的系统综述[2]所指出的,许多纳入研究的质量存在重大问题。其中一个一致的问题是选择偏差的高风险。研究的很大一部分依赖于志愿者,其中许多人是通过传单、电子邮件等自我选择的方式招募的,或者是通过下载研究应用程序招募的。自我选择招募的风险在于,选择参加研究的参与者已经比那些不参加研究的参与者更积极地倾向于新技术,并倾向于更积极地评价该技术。更糟糕的是,一些研究也没有充分报告它们的招聘策略,因此它们潜在的选择偏差无法准确评估。在这样的研究中,用户感知是主要结果,这是一个严重的问题。未来的研究应注意实施招聘策略,将这种选择偏差的风险降到最低,或通过积极招聘不太倾向于新技术的参与者来平衡评估中的潜在偏差。
许多研究的另一个局限性是样本量小。近三分之二的研究(19/31)使用的样本少于100名参与者或分析项目(如语音片段和临床场景),所有研究的中位数样本量为48。许多国家也没有充分报告人口统计数据,也没有报告他们的样本是否能代表目标人口。尽管这些研究中的许多都是早期的可行性和可用性试验,但这是未来研究中需要解决的一个重要问题,以测试这些代理,以确定一种代理是否会被其目标人群使用并有效地使用。
从纳入的研究中提取的证据的有效性也受到本综述结构的局限性的影响。
利用SF/HIT提供了一组结构化的整个系统实现结果来评估会话代理[31]。然而,在分析过程中发现,使用这一框架的一个问题是,许多纳入的研究是描述制度创新的。因此,他们没有处理SF/HIT所描述的许多结果,也没有提供证据。此外,由于纳入的数据表明在有效性研究中有自我报告的影响,因此研究的有效性倾向于作者报告的影响。
在本综述中使用框架的这种限制也突出了许多这些研究中的一个限制,即它们没有从代理设计、开发和测试的早期阶段考虑整个系统实现。缺乏对保健服务提供者和资源的影响的评价可能是因为强调技术发展和评价,而不是系统集成。这在技术创新中是一个普遍存在的问题,以至于它推动了不采用、放弃、扩大、传播和可持续性框架的发展,作为预测和评估新卫生技术[58]的成功的一种手段,并开发和评估新的对话代理,以确保卫生保健提供的这些后期影响、成本效益、而且从创新的早期阶段就充分考虑到了隐私和安全问题。它们还必须用大量的用户样本进行适当的评估,而不是简单地以未经证实的说法提出,说这种代理将降低成本并节省医疗保健提供者的时间。
此外,根据SF/HIT框架,结果对每个结果的影响被编码为积极或混合或中性或消极。然而,这种积极和混合结果的组合降低了结果的粒度。在编码过程中,一些结果被明确地编码为积极或混合,将2个结果影响整理为1个降低了呈现给读者的信息的准确性。此外,没有评估相关结果的研究被标记为中性或负面,因为它们确实为结果提供了明确的支持。在分析中,结果最初被分别编码为阳性、混合、阳性或混合(对于报告阳性结果但没有提供充分统计证据的研究)、中性或阴性。该表可在多媒体附录10。积极的和混合的结果被结合起来,以符合框架的数据的最终呈现。然而,区分那些试图为一个结果找到重要证据但没有找到的研究和那些没有这样做的研究可能更有用。这将提供一个更清晰的画面,哪些结果没有得到证据的支持,应该针对哪些结果进行改进,哪些结果仍然需要检查。
将来,值得评价的是是否应该调整编码系统,以提供更详细和更翔实的证据摘要。
这篇综述的进一步局限性在于,我们将重点限制在只包括无约束NLP和交互。之所以选择这一点作为重点,是因为NLP为模拟人与人之间的交互提供了优势。然而,它可能排除了相关对话代理的研究,这些研究可能是令人满意的、有用的和有效的,以应对当前的卫生保健挑战。此外,没有使用爬行搜索来识别在初始搜索中遗漏的纳入研究的参考文献中潜在的相关研究。排除会议摘要也可能导致被分类为摘要的相关论文被遗漏;然而,在之前的一次系统审查中,在他们的搜索中包括了会议摘要,只有1入选了他们的最终选择[2]。只纳入用英语发表的研究也可能排除在其他国家进行的有关会话代理的研究。在未来的研究中应解决这些限制,以确保对全部相关文献进行审查。
未来的发展方向对医疗保健中会话代理的未来回顾可以扩展到包括受约束的NLP和非NLP会话代理。综合这里确定的证据与医疗保健中其他类型的会话代理(可能根据Montenegro等人[5]建议的分类法进行组织),可以用于检查总体趋势,并提供关于正在使用什么、什么有效、什么无效的更好的图景,以进一步指导最有可能成功的会话代理的开发。
未来的研究还应该包括更多用户喜欢和不喜欢的功能的定性评估。在这篇综述中,只有一半(18/31)的研究报告了特定的用户反馈,尽管事实上其余13个研究中有7个包含了一些可用性或用户感知的度量。如果会话代理要实现其在改善医疗保健提供和减少医疗保健资源压力方面的潜力,那么必须确定使用的所有结构、物理和心理障碍。为此,它将有助于未来的研究围绕行为变化框架(如行为变化轮框架[59])来构建对话代理的评估。这不仅在评估以行为变化为中心的会话代理的有效性时很重要,而且在确定采用新的会话代理技术是否以及如何成功时也很重要。
对于未来的会话代理研究来说,注意正确地组织和报告他们的研究将是非常重要的
提高证据的质量。如果没有高质量的证据,就很难评估卫生保健中对话代理的当前状态——什么是有效的,以及需要改进什么才能使它们成为更有用的工具。
同样,关于这些制剂的卫生经济学的证据也存在差距。在这篇综述中,甚至很少有研究讨论了问题中的代理的成本分析,更不用说提供实质性的证据证明其成本效益。对新技术及其隐私、安全性和互操作性的成本和结果进行评估对于推进基于价值的医疗保健[60]是必要的。然而,很少有证据表明本综述中所研究的会话代理考虑或解决了这些问题。
用户对其中两项研究的反馈甚至指出,代理与EHRs或卫生保健提供者之间更好的互操作性将提高其有效性。
本系统综述的目的是综合会话代理在医疗保健中的可用性、有效性和满意度的证据。尽管研究普遍报告了与药物可用性和有效性有关的积极结果,但证据的质量不足以提供有力的证据来支持这些主张。本研究扩展了文献,通过扩展其摘要来检查整个系统的评估结果集,包括成本效益、隐私和安全,这些在以前的综述中没有系统地检查过。此外,通过对代理商的定性用户感知进行专题分析,它提供了独特的贡献。需要进一步研究这些制剂在卫生保健方面的成本效益和价值,包括其当前和潜在状态。更高质量的研究——设计方法的报告更一致,样本选择更好——也需要更准确地评估有用性,并确定当前对话代理需要改进的关键领域。对会话代理的设计、开发和评估采用更全面的方法将有助于推动创新并提高它们在医疗保健中的价值。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家自动化/article/detail/840611
推荐阅读
相关标签
  

闽ICP备14008679号