当前位置:   article > 正文

文献学习-11-内镜下黏膜下切除术中智能手术流程识别的实时动物研究_cholec80数据集

cholec80数据集
5.1.11 Intelligent surgical workflow recognition forendoscopic submucosal dissection with realtime animal study

Authors: Jianfeng Cao, Hon-Chi Yip, Yueyao Chen, Markus Scheppach, Xiaobei Luo, Hongzheng Yang, Ming Kit Cheng, Yonghao Long, Yueming Jin, Philip Wai-Yan Chiu, Yeung Yam,Helen Mei-Ling Meng & Qi Dou
Source: Nature Communications 14, 6676 (2023).
在这里插入图片描述
摘要
最近人工智能的进展已经达到了人类水平的性能;然而,对于治疗过程的AI辅助认知还没有得到充分的探索和临床验证。 在这里,我们提出了AI-Endo,一种智能手术流程识别套装,用于内镜下黏膜下切除术(ESD)。 我们的AI-Endo是在一位专家内镜医生的高质量ESD案例上进行训练的,涵盖了十年的时间扩展,包括201,026个标记帧。 学习模型在验证数据上表现出色,包括来自技术水平不同的相对初级内镜医生的案例,使用不同内窥镜系统和治疗技术进行的操作,以及来自国际多中心的队列。 此外,我们将AI-Endo与奥林巴斯内窥镜系统集成,并在活体ESD培训课程中使用动物研究验证了AI辅助认知系统。 通过手术阶段识别结果的专门数据分析总结在自动生成的报告中,用于技能评估。

背景
AI辅助的视频数据分析在微创手术的各种临床需求中提供认知辅助具有很大的潜力。
分析手术工作流程的进展,即在每一秒钟识别正在进行的手术步骤/阶段,对于手术护理的标准化和支持非常重要。 例如,在内镜下黏膜下切除术(ESD)中,一种治疗早期胃肠道(GI)癌症的方法,其切除阶段的顺利和熟练程度可以展示外科医生的技能。 利用人工智能来实现这种分析评估具有促进的潜力。更加高效和标准化的手术操作,然而,相关研究仍处于起步阶段。随着计算机辅助手术在临床实践中的进展,智能手术工作流分析引起了计算机科学家和外科医生的越来越多的关注。 尽管取得了有希望的进展,但自动化手术数据分析仍面临技术挑战。 一个核心未解决的困境是平衡人工智能预测模型的准确性和效率。 一方面,准确的手术工作流识别依赖于考虑视频中丰富的时间信息非常重要,因为时间上下文意识对于理解连续动作至关重要。 这需要AI模型从一系列帧中提取长距离特征。

现有的方法,如3D CNNs和时间卷积网络,仍然在如何有效捕捉全局时间信息方面存在困难,因为手术持续时间很长。 另一方面,需要实时预测识别的手术阶段,以便在手术中进行内部部署。 在不压缩模型参数和牺牲模型性能的情况下,实现如此高的效率是具有挑战性的。 尽管一些代表性的作品,如TMRNet和Trans-SVNet,通过多功能模型取得了有希望的结果,但它们对大量计算资源的依赖限制了它们在临床应用中的潜力。 迄今为止,如何有效解决这个困境,在手术室中成功部署AI模型仍然是一个悬而未决的问题。作为维持相位识别高准确性的关键角色,数据集质量通过具有代表性样本和通用特征的AI模型学习过程。 与传统基于视频的动作识别原理不同,专家知识可能影响ESD手术中操作模式的建模,从而决定AI模型在临床应用阶段对各种情况的适用性。 因此,开发外科AI模型需要建立一个专家数据集,涵盖解剖目标、手术工具的变化以及外科医生如何操作工具的情况。 数据集的标准化和专业性不仅可以提供常见的ESD治疗程序中的典型样本,还可以基于识别结果促进未来的下游分析。 然而,由于专家的稀缺性和注释协议,这样的数据集构建仍然有待完成。

尽管外科数据科学已经研究了一段时间,但在真实世界复杂情境和/或实时临床前设置中,对深度学习模型的实验验证仍然非常有限。 现有文献仍然缺乏关于如何验证开发的人工智能模型的系统实验,考虑到不同的外科医生专业知识(例如,从新手到有经验的医生),以及长时间的数据扩展。(即手术器械随时间改变)和手术场所之间(从回顾性人体数据到体外/体内动物试验)的变化。 所有这些因素都会引入数据分布的变化,并且对实验中的考虑非常重要,因为它们可能降低数据驱动模型的泛化能
力。 此外,如何将这种自动化数据分析融入临床工作流程并满足临床需求是非常复杂和不清楚的。 在这些方面,系统性的实验,甚至是活体动物研究,是必要的,以实验验证AI模型在真实世界临床应用中的有效性。 一些研究探索了将智能功能应用于程序性技能评估和未来帧预测的可能性,但这些研究仅限于离线模式下使用手术数据分析,很少考虑模型在实践中的效率。 为了提高AI模型的临床价值,智能医疗

相关指南经常建议在真实世界环境中进行实验结果验证。 迄今为止,尚未有关于在活体动物预临床环境中验证ESD的AI模型的报道。在这项研究中,我们提出了一种基于深度学习的方法(名为AI-Endo),用于内镜下黏膜下切除术中智能手术流程识别。为了实现准确的阶段识别和实时临床部署,我们引入了一系列特征提取和融合模块,具有时空推理能力。 当内窥镜视频流进入框架时,它不仅可以提取代表性的逐帧特征,还可以提取时间关系来描述复杂的手术场景。 此外,我们设计了一个轻量而强大的特征骨干和动态特征融合的框架,以适应测试效率的权衡。

结果
构建用于模型训练数据集
从香港威尔斯亲王医院内窥镜中心记录的四十七个内窥镜视频,包含完整的黏膜下切除术过程(持续时间为71.28 ± 36.71分钟),被用作训练组。 所有病例均由一位在黏膜下切除术方面拥有十多年经验的专家执行。专家的手术视频被选择为训练材料,因为AI模型将该数据集视为黄金标准,并且演示的内窥镜和设备操作技巧应该代表在安全关键情况下的专业水平。 该数据集涵盖了从2008年7月到2020年3月的长时间段。 这些视频是使用内窥镜视频处理器(CV-260和CV-290,日本东京奥林巴斯医疗公司)录制的,分辨率为352×240或720×576,帧率为25fps,分辨率为1920×1080,帧率为50fps(即每秒帧数)。 这导致每个单独病例的文件大小高达3GB,并且总体数据集中有数百万帧。 所有患者的敏感信息,包括ID、性别和年龄,已经去标识化,并且对于回顾性队列,患者同意书被豁免。 该研究已获得香港中文大学伦理委员会的批准。

所包含的病例涵盖了病变大小、位置(即直肠、胃和食管)和手术工具(即双头/隔离头/三角刀)的广泛变异。尽管数据集跨越了12年的时间,但在整个期间内,内镜医生已经达到了专家水平。 在队列持续时间的起始点(2008年),内镜医生在直肠、胃和食管的每个器官上都进行了100多例ESD病例。 根据文献33–35中报道的学习曲线,由于所进行的病例数量超过了建议的标准(直肠/胃/食管分别为80/30/30例),内镜医生可以被视为专家。 对所有回顾性数据集进行了手术阶段识别的注释。

ESD工作流注释协议流
为了对开发数据集和外部验证数据集进行注释,我们提出了一个标准化的ESD注释协议(见图1a)。已经定义了四个手术阶段:(1)标记:目标病变的周边将被识别,然后通过在病变周围以2毫米间隔的5毫米处施加多个电凝标记来进行标记;(2)注射:通过注射含有生理盐水、肾上腺素或透明质酸的混合溶液来实现黏膜下隆起。由于回顾性注释的困难和通常持续时间极短(1–2秒),通过电切刀内的通道进行瞬时盐水注射无法单独注释,因此会被包括在切除阶段而不是注射阶段中;(3)切除(黏膜切口和黏膜下切除):标记点周围的黏膜被切开,然后从底层肌层分离黏膜下层,直到目标病变被切除和移除。由于其持续时间短,电刀止血被包括在内;(4) 空闲:内镜医生用于交换工具或调整内镜的等待时间。 每个单独的帧只标记了四个阶段中的一个,这是基于识别每个阶段的起始和结束帧以及其时间连续性来确定的。

对于所有病例,我们在肿瘤完全切除后排除了帧。 我们还将视频降采样到1 fps以提高注释效率fi。 为了确保高质量的数据,注释工作流程包括三个阶段。 首先,两名经过良好培训的医学注释员根据附图1中的数据流独立注释了约10%(5例,20,446帧)的专家数据集。用皮尔逊相关系数(PCC)来衡量两个评分者之间的一致性,结果为0.93。这表明了两个评分者之间标注的高一致性,利用了我们提供的注释协议。附图3展示了两个评分者的注释示例。 然后,两个评分者共同标记了整个数据集,将所有队列大致平均分成两半,每个评分者分别标记一部分。 在他们完成所有的注释任务后,注释经过了另外两名经验丰富的内镜医生的质量控制。 注释评估不仅依赖于视觉线索,还依赖于实际经验来确定手术阶段。 讨论发生在手术场所非常复杂或关键标志物不明显的情况下。 有关数据流、注释时间表和注释结果的详细信息请参见附注1。 图1b显示了三个最终注释示例(具有不同的视频持续时间)。 专家数据集中注释的帧数在每个病例中都有所不同。

手术中,黏膜下切除术的阶段占据了大部分的手术时间,这也是ESD中最重要和技术要求最高的阶段。每个阶段的详细统计数据列在图1c中。 总体上,共标记了201,026帧和166,527帧用于开发训练和外部验证(下文描述)数据集。 本研究中的所有注释都遵循相同的注释协议。

用于模型验证的外部数据集
考虑到解剖场景的复杂性和手术过程的多样性,验证AI模型在不同内窥镜医生和操作技能中的适用性至关重要。 为此,我们首先收集了在香港威尔斯亲王医院于2021年4月至2022年8月期间进行的15例ESD手术,并总共标记了122,114帧,帧率为1 fps。这些手术由三名年轻的内窥镜医生进行,分别拥有6年、3年和2年的ESD经验。 与开发数据集不同,开发数据集集中在稳定和熟练的专家临床医生的数据上,验证数据旨在反映手术技能的差异,以评估模型的泛化能力和在临床实践中支持技能评估(如培训课程)的潜力。 验证数据集中内窥镜医生经验的变化有助于评估AI模型对与不同水平的专业知识相关的人为因素的容忍度。这对于需要长时间学习曲线的ESD来说尤为重要。我们还对我们的AI模型在ESD手术中进行了进一步验证,即使用了未见过的手术技术,即手术技巧在开发数据集中不存在。 我们从威尔斯亲王医院获取了三例采用口袋创建方法的ESD病例和一例采用线辅助牵引方法的病例。 特别是口袋创建技术用于通过在小黏膜切口进入后在黏膜下层创建一个口袋来改善切除平面的可视化。 牵引方法涉及使用额外的器械(如带有线、环或其他商用牵引装置的夹子)施加对抗牵引力。 该数据集总共有19,254个标注帧。

对这些技术的研究有助于观察人工智能模型在遇到新的工具组织相互作用方式时的性能。此外,我们设计了离体和体内动物试验,以验证人工智能模型与现有内镜系统的整合。 为了初步验证可行性,我们进行了四次离体动物试验,以简化人工智能辅助数据流入标准内镜黏膜下切除术工作流程。随后,我们进行了实时体内实验,以验证整个系统。 在一个外科培训课程中,共进行了12例内镜黏膜下切除术,使用两只活猪进行。此外,我们收集了外部多中心数据集,以验证AI-Endo在不同内窥镜系统和人口统计学上的普适性。 第一个队列包含来自中国广州南方医科大学南方医院的四例内镜黏膜下切除术病例。该数据集是从富士胶片内窥镜系统收集的,以验证其适用于不同的成像设备。 第二个队列包含来自德国奥格斯堡大学医院第三内科-胃肠病学的四例内镜黏膜下切除术病例。该数据集是从奥林巴斯内窥镜系统收集的,与我们的开发数据相同,但该外部数据集的目的是验证模型在来自不同国家的患者上的普适性。 这两个队列根据我们的注释协议进行了标记,并总共产生了25,159帧。
在这里插入图片描述
图1 | ESD手术阶段识别的发展和外部数据集建立。 a四个手术阶段的说明和定义:标记、注射、切除和空闲。开始和结束帧的示例见附图2。b手术视频的阶段注释示例。c我们开发训练中四个标注帧的统计数字数据和外部验证数据,并且对标注帧的分布进行了相应的小提琴图。 盒子表示中位数,作为盒子中的白点,并排除数据的上下25%(四分位数),而须端延伸到极值(发展数据 n= 47例;外部数据 n= 15例)。

AI-Endo模型在开发数据集上使用5折交叉验证的性能
为了自动化ESD手术阶段识别,我们提出了一个基于深度学习的框架,称为AI-Endo,它将视频流作为输入,并将每一帧嵌入到高维特征空间中。

为了充分利用时间信息以获得准确的模型性能,我们将特征提取级联与时态卷积网络和基于全局注意力的转换器相结合,提取时空特征。 我们的AI-Endo基于5个折叠中的47个训练案例(大小分别为10、10、9、9、9),其中一个用于性能评估,而其他4个折叠用于训练学习算法。 不失一般性,这种交叉验证策略使得开发的框架能够在整个开发数据集上进行验证。

通过在输出概率上取最大值或设置一个最优阈值,可以获得阶段预测。 整体和阶段度量可以从四个集合中得出,即真实正例(真正例)、真反例(真反例)、假正例(假正例)和假反例(假反例)。 对于整体性能,我们采用三个常用的标准,即平均准确率、平均精确率和平均召回率。平均准确率( 真正例 +真反例 真正例+真反例+假正例+假反例)捕捉到了正确分类帧的整体比例。平均精确率( 真正例 真正例+假正例)和召真正例 真正例+假反例)分别表示了所有检索样本中相关样本的比例和相关集合的完整性。此外,为了检查AI-Endo在每个阶段的性能,我们绘制了接收器操作特性曲线(ROC)并评估AI推断的结果,使用ROC曲线下面积(AUROC)。同时,我们参考了ROC曲线的一个总结性测量指标,Youden指数,以应用最佳阈值进行阶段预测,得到每个阶段的一组真正例^ 、真反例^ 、假正例^ 和假反例^ ,用于计算特异性和敏感性为了与尤登指数和ROC曲线保持一致,我们定义了每个阶段的工作流程。 此外,我们定义了有序性度量用于阶段性评估,以衡量目标帧在每个阶段中的正确排序程度。有关此度量的详细信息,请参见补充说明2。

对于开发数据集上的5折交叉验证的评估结果,我们的AI-Endo模型获得了平均准确率91.04%(CI:89.57%,92.51%),平均精确度88.48%(CI:85.98%,90.97%)和平均召回率88.77%(CI:85.99%,91.54%)。高性能归功于从专家手术视频中学到的代表性特征。 对于每个阶段的AI-Endo性能,图2a显示了四个ESD阶段的ROC曲线,具体的AUROC得分分别为97.69%(CI:94.37%,100.00%),98.40%(CI:96.48%,100.00%),97.85%(CI:96.73%,98.97%)和96.69%(CI:95.94%,97.44%),用于标记、注射、切除和空闲。 总体而言,对于所有四个阶段,特异性、敏感性和有序性都高于90%(详见图2b的详细结果)。 这证明了该模型在准确预测复杂手术过程中正在进行的手术阶段方面的良好性能。 值得注意的是,ESD手术场景具有显著的类内变异性,同时存在相当的类间相似性。 图2c展示了在这些挑战下成功识别出的每个阶段的帧。 例如,在切除阶段,切除的轨迹以及黏膜下层的切除表面经常呈现出变化,使得阶段识别变得困难。 同时,标记和注射阶段的任务在手术工具与周围组织之间的交互方面显示出相似性,例如在黏膜层上的插入和远离目标点的牵拉。尽管这些情况可能导致AI模型在不同阶段的相似帧上发生错误分类(见图2d中的混淆矩阵),但提出的AI-Endo模型仍然具有出色的性能来区分它们。
在这里插入图片描述
图2 | 在开发数据集上进行的5折交叉验证的分析结果-a四个阶段的接收器操作特性(ROC)曲线; b基于Youden指数的AI-Endo在四个阶段上的统计得分(n= 47个案例)。数据以95%的置信区间呈现;c;在四个阶段中的示例帧,具有阶内差异和阶间相似性;d;跨四个手术阶段的混淆矩阵。

在这里插入图片描述图3 | 在不同的外科医生和技能下,验证数据集上的实验结果。 aAI-Endo在由不同外科医生进行的n=15个验证ESD案例上的阶段识别准确率。 每个柱状图代表一个案例; b阶段持续时间的比例和阶段转换的频率(橙色时间步长)外科医生A、B和C使用不同的切割工具; c展示了开发数据和来自不同外科医生和技能的外部数据中使用的不同切割工具; d外部数据中使用的线辅助牵引工具用于ESD牵引技术。

AI-Endo模型在验证数据集上的性能与不同外科医生和技能有关
学习为基础的框架的优势主要在于其能够识别手术动作并从手术视频数据中学习内在特征。 对于AI-Endo来说,它建模的空间嵌入和时间关系使其能够应对各种情况。 对于不同外科医生的评估,我们对由三名内窥镜医生进行的15名外部患者进行了AI-Endo模型的测试,这些医生具有不同水平的ESD经验。 该模型对于外科医生A(6年经验)的平均准确率为90.93%(CI: 88.52%,93.33%),对于外科医生B(3年经验)的平均准确率为92.93%(CI: 89.81%,96.04%),对于外科医生C(2年经验)的平均准确率为92.28%(CI: 82.96%,100.0%)。 这15个病例的阶段性指标见附表2。

这三位外科医生进行的每个案例的具体结果显示在图3a中。 这些不同内窥镜医生的结果证明了AI-Endo方法适应ESD手术技能水平变化的普适能力。 这种变化会影响手术过程的熟练度和顺利性,可以通过每个手术阶段的持续时间和它们之间的转换频率来反映(见图3b)。 此外,外部验证数据中使用的ESD工具与专家开发数据中使用的工具并不完全相同,因为ESD工具的设计和用途随着时间的推移而不断发展。 如图3c所示,开发数据集中的ESD刀具包括双刀、绝缘尖(IT)和三角尖(TT)(日本东京奥林巴斯医疗公司),而外部验证数据集还使用了更新的针式刀具,除了双刀和IT。AI-Endo模型可以克服这种变化,具有稳定的性能,无论使用不同的工具,显示其区分能力主要依赖于对动态手术行为的理解,而不是工具外观。

为了验证在另外四个包括在开发数据中未见过的操作技巧的案例上,AI-Endo在使用创口创建方法的案例中显示出了平均准确率为93.07%(CI: 83.44%,100.0%)的结果。 即使创口创建是相对较新且未包含在我们的开发数据集中,AI-Endo仍然保留了识别创口创建过程中的手术阶段的能力。 这一优势主要归功于其捕捉组织背景和组织工具相互作用特征的潜力,这些特征在传统手术和创口创建中是共享的。 ESD中使用线辅助牵引的准确率为75.22%(其中一个案例未计算CI)。 准确率的限制是由于在牵引应用过程中出现了新的功能工具(图3d),这与我们的预期相符,因为将其应用于外观与其他工具非常不同的专用工具是具有挑战性的。 我们的模型在涉及该工具的帧上预测为Idle阶段,而在其他帧上通常预测正确。
在这里插入图片描述
图4 | 临床前动物实验的实验设置和实时性能。 a整个系统的数据 flow,将AI-Endo与现有的临床奥林巴斯内窥镜系统集成在一起。 每个单独的组件都相应地标记为(b),分别用于离体(左)和体内(右)实验设置,其中 "A"表示动物模型, "B"表示内窥镜,"C"表示内窥镜处理器用于视频流传输, "D"表示现有的奥林巴斯屏幕, "E"表示AI-Endo屏幕提供数据分析结果。 此外,计算了整个系统的处理时间以及每个关键技术部分的细分。 结果基于 n= 13,341帧计算。 方框表示中位数,作为方框内的
一条线,并排除数据的上下25%(四分位数),须由箱子延伸1.5倍的四分位距(IQR)。

离体动物研究验证AI-Endo模型
现有的关于手术阶段识别的研究尚未明确调查将AI-Endo模型纳入临床工作流的整合,因此我们设计了一项离体动物研究来优化和验证我们的提出的框架,从第三方监视器的布局到图形用户界面的设计。 与直接进行体内动物研究相比,采用初步的离体研究更具成本效益,以确保AI辅助能够提供有用的数据分析结果,并减轻附加AI功能引起的中断。 为了确认如何将AI-Endo计算工具无缝集成到内窥镜系统中,我们在香港中文大学赛马会微创外科技能中心的培训实验室中实施了整个系统。具体来说,在离体猪结肠经过水冲洗清洁后,将其固定在塑料托盘中,然后将一个超导管连接到结肠上以模拟结肠内部环境。图4a展示了整个系统的流程和数据流,即通过内窥镜对动物模型进行手术操作并通过内窥镜处理器进行实时传输;视频被导入到AI-Endo模型和自动分析结果实时显示给外科医生。

我们为外科医生提供了第三方监视器(除了现有的内窥镜视图显示屏之外),以便在屏幕上可视化AI预测的手术阶段,其中手术阶段被叠加到每个帧的左上角,而不遮挡主要的手术场景(见图4b)。 我们测量了I/O数据 flow的计算开销,总共花费了4毫秒用于数据 flow输入(即从现有外科系统导入视频流到AI-Endo)和输出(即将AI-Endo预测阶段显示到屏幕上供外科医生可视化)。 AI-Endo模型推理花费了17毫秒,其中ResNet50模块花费了6毫秒,融合模块花费了3毫秒,变换器模块花费了8毫秒(详见“方法”中AI模型架构的详细信息)。 请注意,变换器模块使用了最多的时间,因为它需要聚合关键的时空信息以保持识别准确性。 总体而言,整个AI-Endo识别系统的效率达到了47帧每秒,可以满足实时使用的要求,而不会感到视觉延迟。 在上述离体设置中,设置了两个站点,每个站点为培训课程中的两个新手提供服务。 对于这四名学员,我们的AI-Endo在总共四个案例中取得了88.88%的平均准确率(CI:79.95%,97.82%),显示出在流式离体设置中应用AI模型作为整体系统的潜力。 阶段性指标表明在注射和切除的关键阶段具有很高的敏感性和特异性(附表3)。

活体猪动物实验验证AI-Endo模型在临床前环境中的应用
已经提出了许多自动化手术阶段识别的方法,然而,其中没有一个结合了活体动物试验来展示系统在真实世界手术中的临床应用。基于离体动物实验的成功,我们进一步进行了带有活体动物试验的ESD
手术培训,旨在展示具有在线评分分析和自动生成报告的智能阶段识别系统的临床适用性。 活体实验的实时系统集成和数据流与离体实验相同。

为了支持AI-Endo的临床使用,我们将AI-Endo打包为一款与常见手术设置无缝配合的桌面软件。 AI-Endo的可访问性对于更倾向于要求具有用户友好的图形界面的内窥镜医生来说更加容易实现。 在动物试验中,在消化道的直肠、胃和食管三个不同部位标记了多个2厘米大小的病变,模拟ESD手术。 在两只活体猪上进行了12次ESD手术,其中包括五次(直肠/胃/食管为1/2/2)由经验丰富的内窥镜医生进行,七次(直肠/胃/食管为2/3/2)由新手内窥镜医生进行。 AI-Endo在所有活体手术中的平均准确率为83.53%(CI,81.48%–85.58%)。 相对性能下降可能是由于猪和人体组织之间的解剖差异以及假病变的实验设置所致。 幸运的是,对于ESD最重要的切除阶段,AI-Endo实现了91.57%(89.89%,93.24%)的特异性和86.68%(CI,83.22%,90.14%)的敏感性(附表4)。 此外,AI-Endo在直肠、胃和食管上分别实现了83.29%(CI:77.43%,89.15%)、83.05%(CI:78.11%,87.99%)和84.31%(CI:78.77%,89.85%)的准确率,显示出不同消化道器官之间的轻微差异。

体内动物实验旨在作为一个有前途的试验研究,探索AI-Endo在实时复杂手术中的认知辅助的适用性和能力。 在这方面,我们试图从基于AI的工作流识别结果中得出有意义的技能评估分数,自动分析初学者在培训过程中的操作技能。 正如以前的研究所示,具有更高水平外科技能的外科医生倾向于更顺利地操作手术工具,这得益于他们对手术工具轨迹和切除表面的清晰计划。 在一定程度上,手术的顺利程度可以通过犹豫的频率和手术工具的交换来反映,这可以通过外科医生在不同阶段之间更换的频率来量化。 在ESD培训过程中,实时监测他们的操作技能是有用的,这可以反映他们的学习曲线。 在这方面,AI-Endo系统动态计算了在手术阶段之间的转换次数,例如从切割到空闲的转换,当刀片收回。 由于病变的大小可能会影响整个手术过程的持续时间,我们将总过渡频率除以肿瘤的长度,以消除其对相位转换次数的偏差。 提出的在线手术评分标准化过渡指数(NT-指数)定义为过渡次数与时间和病变大小的除法,从而得到一个NT-指数曲线来描述手术过程中过渡频率的动态变化。这条曲线越低,内窥镜医生的技术水平就越高。在图5a中,我们展示了四个体内手术案例的指数曲线,其中两个分别由经验丰富和新手内窥镜医生进行。 分析结果表明,资深医生的NT-指数曲线通常低于新手的曲线。 在手术结束时,资深医生和新手在直肠、胃和食管上的标准化过渡指数得分分别为(13.94 vs 21.71)、(4.39 vs 10.72)和(10.23 vs 16.85)。根据动物试验设置,提出的在线评分NT-指数在ESD技能水平上显示出统计学差异(p= 0.048),与我们的预期一致。 基于指数曲线,专家内窥镜医生,例如外科培训中的教练,可以就特定的手术步骤提供建议和监督。

此外,我们提出自动生成智能报告,对手术工作流程进行总结和展示,以供内镜医生参考。如图5b所示,摘要报告直观地显示了每个阶段的持续时间和比例。 与先前的手动注释或重复推导不同,AI-Endo可以立即为内镜医生提供手术过程的概览,并详细说明可能反映手术技巧的因素,如每个内镜医生在各个阶段的持续时间及其相应比例。 所提出的在线标准化转换指数评分,以及摘要报告中添加的几个简单评分,被认为是研究程序知识和决策能力的重要参考,为AI-Endo的潜在临床应用迈出了重要一步。

多中心验证不同内窥镜系统和国家的数据
为了拓宽AI-Endo的应用范围,观察其在不同内窥镜系统和多个中心的普适性是很有趣的。 我们评估了AI-Endo在中国广州南方医院南方医科大学的四个病例中的表现。这些病例使用的是富士film内窥镜系统,与我们开发数据集中使用的奥林巴斯内窥镜系统不同。 为了评估AI-Endo在国际队列中的潜力,我们进一步在德国奥格斯堡大学医院内科三-胃肠病学的四个病例上测试了AI-Endo。这些病例是使用奥林巴斯系统记录的,但在不同国家之间存在地理差异。我们利用AI-Endo处理了中国广州南方医院南方医科大学的四个病例。所有病例都以与开发数据集相同的方式进行了注释和处理。 AI-Endo finally在每个阶段产生了90.75%的平均准确率(CI: 88.50%, 93.01%)和出色的ROC曲线(图6a). 所有阶段的性能指标均高于88%(图6d). 这项研究表明,AI-Endo’s的性能在不同内窥镜系统中具有鲁棒性和普适性,与我们对ESD手术设置的期望相一致。 在内窥镜手术过程中,通常使用常规白光图像,这些图像在不同品牌的内窥镜中基本保持一致。 此外,AI-Endo的智能算法的设计和实施并不依赖于所使用的仪器类型的假设。 AI-Endo可以接受视频流并相对独立地处理数据,这意味着推理速度不应过多地依赖于内窥镜系统。然后,使用德国奥格斯堡大学医院第三内科-胃肠病学的四个病例展示了AI-Endo在地理变化下的稳健性。尽管这些案例是在国际中心进行的,AI-Endo保持了其高性能,并实现了平均准确率87.34% (CI: 84.43%, 90.25%),特异性为86.01% (CI: 71.48%, CI:96.27%),平均敏感性为86.60% (CI: 74.21%, 96.36%)。AI-Endo在四个阶段上呈现出有希望的ROC曲线,AUROC值超过90.67% (图6b, d)。基于来自广州(中国)和奥格斯堡(德国)的多中心数据集,我们进一步统计分析了AI-Endo在不同器官上的表现,包括食管、结肠和胃,其中AI-Endo保持了大于86.68%的高平均准确率 (图6c)。这些智能手术工作流识别在实时动物研究中的内镜黏膜下切除术应用研究结果表明,AI-Endo可以稳健地处理多中心病例,无论其地理位置或肿瘤位置的差异,表明AI-Endo在国际医疗中心具有广泛应用的潜力。
在这里插入图片描述
图5 | 通过AI-Endo阶段识别从体内动物实验中得出的数据分析结果。 a这是高级外科医生(橙色线条表示的2个案例)和新手(棕色线条表示的2个案例)食道部位计算得出的标准化转换指数的曲线。插入的照片代表被切除的样本,刻度尺对应1厘米;bAI-Endo系统在临床前试验中自动生成的AI摘要报告的设计。

在这里插入图片描述
图6 | 广州(中国)和奥格斯堡(德国)的多中心验证数据集上的实验结果。 aAI-Endo在广州(中国)的案例上的ROC曲线(n= 4个案例); bAI-Endo在奥格斯堡(德国)的案例上的ROC曲线(n= 4个案例); c多中心数据集中食管、结肠和胃的平均准确率; d按阶段的性能AI-Endo在多中心数据集上的指标。 数据以95%的置信区间(CI)的形式呈现,如果适用的话。 由于广州中心的案例中只有一个案例涉及标记,因此不计算标记阶段的CI。

在这里插入图片描述
图7 | AI-Endo深度学习模型用于实时识别手术阶段的架构。视频流的每一帧都经过ResNet50顺序编码,然后通过一个时序卷积网络融合时空信息。 然后,在变换器模块中,将空间嵌入 t用作预测逐帧手术阶段的查询。 不同的颜色代表不同的特征嵌入或输出值。

讨论
本研究旨在研究从实验室到床边的智能手术阶段识别。 我们建立了一个高质量的专家操作ESD数据集,以及一个明确定义的手术阶段识别注释协议。 基于此,我们开发了AI-Endo模型,利用代表性的时空特征识别手术阶段,在开发和外部验证数据集上取得了高性能。 这表明在专家数据上训练的AI-Endo模型适用于不同技能水平的初级外科医生,不同ESD技术和内窥镜系统的各种病例。 更重要的是,AI-Endo无缝地集成到临床前设置中,并通过实时的离体和体内动物试验进行验证。 该系统表现稳定,并通过用户友好界面向外科医生提供术中认知辅助和术后培训评估的分析结果。内镜黏膜下切除术(ESD)是一种新颖的内镜手术程序,用于完全切除早期胃肠道(GI)癌症,这是全球最常见的癌症。 尽管ESD在围手术期结果方面表现良好,具有高切除率和低局部复发率,但对于新手来说,手术仍然具有挑战性和长时间的学习曲线。 临床上希望使用人工智能技术,可以从专家经验和数据中学习,以了解手术背景,并进一步识别、预防和减轻手术中的安全关键事件。 首先,手术阶段识别是基本任务,即只有在自动识别正在进行的手术步骤后,智能系统才能进行后续功能。 由于缺乏专家数据、算法限制和临床前验证不足,现有研究尚未系统地研究这一关键任务。本研究在提高关注和激发AI辅助ESD解决方案方面起到了开创性的作用。

根据实验结果观察到,我们的AI-Endo模型成功解决了内镜黏膜下切除术中准确性和效率之间的困境。使用一台配备Intel Xeon® 3.7 GHz CPU和一块NVIDIA GeForce RTX 3090 GPU的推理计算机,该模型能够以47帧每秒的速度实现良好的在线部署准确性。需要注意的是,这种效率包括整个集成系统中的数据分析所花费的时间,而不仅仅是AI模型本身的计算。 考虑到原始数据的流式传输现有的奥林巴斯系统最高帧率为50 fps,根据我们的人类反馈,使用提供的用户界面时没有感觉到视觉延迟。 这表明AI模型在标准工作站级配置的硬件支持下可以满足实时要求。 这表明在低收入国家应用先进的外科AI工具的潜力。关于如何将AI-Endo模型正确整合到现有的临床工作流中,我们实际上在工程和临床团队成员之间进行了多轮讨论和优化。 现有的关于计算机辅助手术的文献尚未明确研究这个重要问题。 基本上,我们认为整合系统设计应考虑至少两个要点。 第一个是确保系统提供有用的数据分析结果,否则无法在没有AI辅助的情况下获得。 第二个是避免附加的AI功能改变外科医生在当前常规中的操作习惯。 在这些方面,我们建议将AI预测显示在第三方屏幕上,与现有的奥林巴斯屏幕并排放置。

正在进行的手术阶段由AI-Endo在幕后监控,呈现出手术进展的稳定性。 更重要的是,我们根据手术阶段识别得出一个在线评分,用于技能评估,并将其应用于ESD培训会议。 该评分是根据ESD的熟练程度和顺畅程度自动计算的。尽管它尚未从临床使用中得到充分验证,但我们认为这是推动AI在帮助新手外科医生方面的一个鼓舞人心的初步步骤。 在我们未来的工作中,我们的目标是将AI-Endo集成到内窥镜系统中作为现成的软件,并以直观的方式在嵌入式监视器上显示分析结果。

我们工作的局限性存在两个方面。 首先是发展数据集中相对较少的案例数量,这实际上是大多数现有外科人工智能工作的一个常见缺点。目前最大的公共数据集,即腹腔镜胆囊切除术的Cholec80,有80个高帧率的完整手术视频。 小规模的训练数据仍无法与其他深度学习应用(如人脸识别和自动驾驶)中使用的大规模数据相媲美。 幸运的是,我们收集的数据在专家技能水平、长时间扩展、各种解剖位置和多样化的手术场景方面具有高质量,这有助于弥补不足。明确定义的注释协议对于确保标记的0.2百万个训练帧一致作为模型学习的基本事实也很重要。 这项工作的第二个局限性涉及模型的普适性,在体内/体外动物实验中观察到了性能下降(附表3和4)。 尽管这可以解释为动物组织和人体组织之间的外观差异,但在新工具出现的情况下(图3d),预计也会遇到类似的退化,这些工具在开发数据中没有涵盖。 相对较小的数据集限制了模型对于识别有效工具特征或手术场景的鲁棒性,尤其是在涉及未见过的ESD技术时。 我们目前开发的方法尚未特别解决这个问题,但可以通过领域泛化48和测试时适应49策略进行扩展。 值得期待的是,所提出的模型在手术环境中遇到的变化,如地理位置和内窥镜系统的差异,显示出了值得注意的适应性。 这对于其在未来的广泛应用和多中心部署中非常重要。

最后但并非最不重要的,本研究的未来工作将继续关注内镜黏膜下切除术的人工智能辅助。自动阶段识别的好处不仅仅局限于生成统计报告和计算在线NT指数,这些只提供了有限的手术技能评估视角。 我们鼓励社区研究人员利用我们提供的开源代码和数据来探索手术阶段的统计学意义,并推动手术培训和相关领域的进展,例如建立大规模结构化和分段的手术阶段数据库50。 此外,基于高性能的手术阶段识别,我们将在未来的工作中将视频分析扩展到手术场景的语义分割,例如黏膜下层、肌肉层和血管。 我们在本研究中实施了初步的分割模型’在体动物实验中,同时也实现了实时预测速度。 我们将进一步提高其准确性,并相应研究如何利用它帮助外科医生减少对安全关键组织的不良事件。

此外,AI-enabled数据分析将为手术提供认知辅助和决策支持,这在提高手术安全性方面具有巨大潜力。 随着人工智能在外科应用中的研究越来越多,它在手术室中的整合方式和对外科医生的益处的临床角色也将得到强调。我们的目标是在整个系统经过更多外科医生和临床中心的广泛验证后,将临床试验纳入我们的未来工作,确保侵入性程序中参与者的安全。

在这里插入图片描述
图8 | AI-Endo的桌面软件。用户界面包括基本信息、阶段预测、AI结果显示和摘要报告生成按钮。 该软件已集成到实时临床环境中。

方法
数据收集
在本研究中,开发数据集来自香港威尔斯亲王医院,验证数据集来自香港威尔斯亲王医院、中国广州南方医科大学南方医院和德国奥格斯堡大学内科三-胃肠病学。这些回顾性队列中的所有患者信息均已去标识化,仅保留了影像系统和外科医生的姓名用于数据分析。 在香港中文大学赛马会微创外科技能中心的动物试验期间进行了离体和体内动物实验。我们已获得香港中文大学伦理委员会的批准(编号22-145-MIS)。

问题的制定和网络学习
给定一个ESD视频流,本研究根据我们之前的工作,将阶段识别任务形式化为在线分类任务。给定一个视频流 V = { X t ∈ R H × W × 3 } i = 1 T V=\{X_t∈ R^{H × W × 3}\} ^T_{i=1} V={XtRH×W×3}i=1T对于t= 1到T帧,我们将阶段识别模型作为一个函数Fθ,根据概率预测将每个帧xt分类为四个手术阶段之一。其中每个元素表示帧xt属于{标记、注射、切割、空闲}阶段的概率。由于识别具有大的类内变异性和类间相似性的手术阶段的复杂性,我们将Fθ分解为两个阶段:Gω作为特征提取器,为每个单帧编码出具有区分性的表示;Hϕ作为后续的时空特征聚合器,用于生成最终的阶段预测,结合视频动态信息。 我们的AI-Endo网络概览如图7所示。

在ESD手术中,解剖结构和病变位置的差异引入了相当大的类内差异,对Gω学习区分性逐帧表示提出了挑战,这是空间-时间特征学习的基础。 我们建议在训练过程中依赖于自监督学习和对比损失,通过制定 L c o n L_{con} Lcon(见公式1)来增强类内帧嵌入的相似性(即正对)并扩大类间帧嵌入的距离(即负对)。 使用预训练的ResNet50作为骨干网络,提取每个帧xi的嵌入ei。同时,为了增强学习到的特征对于相位识别任务的区分能力,我们还根据每个帧的相位标签添加了交叉熵损失。 在这些方面,整体损失函数Gω的训练如下:
在这里插入图片描述
其中 i表示小批量 I中的帧索引.A(i) 和 N(i)分别表示与 xi具有相同和不同的相位注释的帧,并且 τ 2 R+表示标量温度参数.负对数似然函数的标签指示符 1fyi= = kg在 yi = k时等于1,否则为0. 此外,为了实现实时部署,预训练的特征骨干网络通过移除两个线性投影头进行了修剪。 对比学习策略使得剩余的模块仍然能够提供有意义的嵌入,而不增加计算开销。每个帧的最终嵌入被顺序用作后续时空特征学习的输入。时间推理对于AI-Endo来捕捉过程中的动态信息至关重要,例如手术工具的轨迹及其与目标组织的相互作用。 在这方面,我们利用融合模块结合时间卷积网络(TCN)提取长程时间信息。 为了聚合空间和时间信息并提升表示能力,我们进一步引入基于全局注意力的变换器模块,以基于空间和时间嵌入捕捉支持关系。

高吞吐量的在线预测
应用这个框架需要高效的部署,同时需要术中视频流传输。 为了实现这个目标,我们通过分析每一帧的特征嵌入是如何根据初始化进行更新来降低计算复杂度。 对于融合模块,我们不是持续存储所有的空间嵌入,而是选择性地保留其内部的嵌入,以进行时间推理。具体来说,给定TCN的初始field为512,空间嵌入et+1仅与前511帧进行交互,即在我们的推理速度为47 fps下,相当于超过10秒。我们建立了一个first-in-first-out(FIFO)队列来动态存储。 当空间嵌入超出初始范围时,它从队列中移除。值得注意的是,这个框架保持了高推理效率,同时完全保留了其准确性。

动物研究的描述
活体动物实验的研究设计。 在香港中文大学赛马会微创外科技能中心(CUHK MISSC)进行了两只健康的30公斤左右的母猪作为内镜下黏膜下切除术(ESD)实验的体内猪模型。手术使用高清内窥镜(GIF-H190,奥林巴斯医疗器械有限公司,东京,日本)和ESD刀(Dual knife J,奥林巴斯医疗器械有限公司,东京,日本)。VIO3(德国Erbe Elektromedizin GmbH)作为电切术的电力平台。 在ESD手术过程中,圆形病变在猪食道、胃和直肠中预先标记,直径为2厘米,用于后续动物实验中的ESD模拟。 由于在胃、食道和直肠中进行ESD的难度不断增加,每个手术所需的时间也相应增加,尤其是对于新手内镜医生来说。 因此,每个内镜医生执行的手术数量是不同的。 具体来说,有经验的内镜医生执行了七个手术,包括3个胃部手术、2个食道手术和2个直肠手术,而新手内镜医生执行了五个手术,包括2个胃部手术、2个食道手术和1个直肠手术。 这样设计的动物实验可以涵盖各种情况,因此可以观察到AI模型的有效性。

统计分析
所有统计分析均使用Python(v3.6)进行。对于开发和外部数据集上的性能定量结果,我们采用了95%置信度的学生t分布。置信区间(CI:下限%,上限%)。 为了比较不同组的分析结果,我们使用双侧成对T检验来检查它们的统计差异。 P值<0.05被认为是统计学上显著的。

Reference
[1] Cao, J., Yip, H. C., Chen, Y., Scheppach, M., Luo, X., Yang, H., … & Dou, Q. (2023). Intelligent surgical workflow recognition for endoscopic submucosal dissection with real-time animal study. Nature Communications, 14(1), 6676.

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/IT小白/article/detail/820114
推荐阅读
相关标签
  

闽ICP备14008679号