赞
踩
面向更长时间的外科工作流识别
分析手术流程对于手术辅助机器人理解手术至关重要。通过了解完整的手术流程,机器人能够在手术中协助外科医生,例如当外科医生进入特定的按键或高风险阶段时,机器人会发出警告。
近年来,深度学习技术被广泛应用于外科工作流程的识别。许多现有的时间神经网络模型在处理数据中的长期依赖关系方面能力有限,相反,它们依赖于底层的逐帧可视化模型的强大性能。
我们提出了一种新的时间网络结构,它利用特定于任务的网络表示来收集由充分统计模型(SSM)传播的长期充分统计信息。我们在LSTM骨干中实现了手术阶段识别的任务,并探索了几种传播统计的选择。
我们在两个腹腔镜胆囊切除术数据集上展示了优于现有和新的最先进的分割技术的卓越结果:公开可用的Cholec80数据集和MGH100数据集,这是一个具有更具挑战性和临床意义的段标签的新数据集。
前人的不足
手术阶段识别尝试对给定视频帧It(t= 0…T)的正确手术阶段标签进行分类,,我们用yt∈1…N表示框架It的ground真值标签。N是不同手术阶段的数量。我们通过CNN视觉模型(基于ResNet模块[41])处理单个帧,将视觉内容编码为单个矢量vt,然后将其反馈给LSTM,形成标准的CNN-LSTM结构。
在时间过程分析中,当推理主要依赖于最近的信息时,循环神经网络如lstm表现良好。然而,当需要长期的时间信息进行推理时,性能会受到影响。为了解决长期信息的缺乏,人们提出了扩张卷积[42],但它们未能利用手术解释中涉及的几个现象:
由于估计量的维数以及捕捉阶段和感知限制的不确定性的需要,很难提取出过去的完美充分的统计数据,上述现象使得定义一组近似的足够统计量成为可能,这些统计量可以从基于LSTM隐藏状态lt的某些转换的时间聚合的数据中计算出来。这使得网络更容易进行短期的时间推理(如变化检测和视觉处理),以及中期和长期推理(如计算每个阶段的过去帧)。总体方法在算法1中给出,如图1所示。
架构使用 上一个LSTM的隐藏层,并将其通过一个转换(阶段识别模块),得到一个矢量mt时间矢量信号。然后对转换后的信号mt进行汇总统计,得到一个充分统计特征流 S={s1. .st}。通过串联vt,然后将它们作为增强特征ct反馈到当前时间阶段LSTM推断。串联后,以ct为输入,使用LSTM输出每个阶段的似然度。请注意,无论是训练还是测试,历史内存Mt都用0初始化。
上图所示。SSM网络架构。来自网络阶段估计头的信息被处理成一个多通道的时间信号。生成的统计信息与可视化嵌入连接在一起,并传递给LSTM。
尽管只利用了阶段标签,没有纳入其他特征(工具,运动学),如endonet[7]或mtrcnet - cl[12],我们提出的SSM-LSTM模型在不同模型中具有90.0%的最佳正确率,在精度、召回率和F1评分方面表现相似。我们提出的方法的结果之后是一个HMM来进一步平滑[7]。结合因果特征和因果特征的结果显示为演示离线应用程序,以衡量因果信息的效果。
MGH100数据集的结果见表III。LSTM是类似于[24]的CNN-LSTM结构的基线。使用单个SSM特征(例如Gabor, CSL)的消融研究也被展示出来。模型的准确性和F1得分得益于SSM的多个特征。结合不同的SSM特征,表示为“SSM”,所提出的模型在四个指标中都取得了最好的性能,在LSTM的基础上有了显著的改进。
我们还对不同相位长度的模型的性能进行了评估(表IV)。我们注意到LSTM在短相位(<30s)内的性能有显著下降。然而,我们的SSM特征在这种情况下有助于改善。由于SSM提供了关于工作流结构的额外信息,我们的方法能够在这个更具挑战性的数据集的短期内显著提高性能。我们还在图4中展示了不同长度相位的精度曲线,从图中可以看出,在较短相位时,SSM-LSTM(紫色)明显优于(LSTM)。
我们还分析了SSM-LSTM在各个阶段的性能,如图5所示。在MGH100数据集上,该算法在“Release GB腹膜”、“Dissection of Calot’s Triangle”等长阶段上表现良好,准确率达到90%以上。短阶段的性能更差,因为由于缺乏数据可变性,一些短阶段可能更难推断(例如,阶段检查点2的准确率为37%)。然而,在SSM中,短阶段性能超过了LSTM,如表4所示。
以上内容均为作者本人平时阅读并且汇报使用,内容整理全凭个人理解,如有侵权,请联系我;内容如有错误,欢迎留言交流。转载请注明出处,并附有原文链接,谢谢!
此外,我还喜欢用ipad对论文写写画画(个人英文阅读的水平有限),做一些断句、重点勾画等,有兴趣大家可以按需下载:链接
更多论文分享,请参考: 深度学习相关阅读论文汇总(持续更新)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。