R语言机器学习之影像组学分析的原理详解

作者：煮酒与君饮 | 2024-06-20 11:51:21

踩

影像组学

概要

影像组学从常规医学图像中高通量提取大量的放射学定量数据，并以非侵入性方式探索它们与临床结果的相关性，在医学研究中得到广泛的应用。

01 影像组学（Radiomics）的概念：

影像组学（Radiomics）和机器学习技术结合是AI影像辅助诊断的常用方法。

影像组学研究的一般步骤如下：从CT、PET或MRI等医学图像中高通量地提取并分析影像学特征，而后基于图像分割、提取筛选特征、构建预测模型等机器学习算法来实现疾病的诊断、评估、预测等临床应用。

即，获取图像、勾画感兴趣区（Region of interset, ROI）、从 ROI中提取定量特征及降维、筛选特征，最后基于不同机器学习模型利用筛选得到的特征构建预测和分类模型。

02 影像组学特征的介绍：

影像组学特征：影像组学可从医学图像中提取大量定量特征,在一定程度上反映生物医学图像中隐藏的潜在病理生理学信息。

影像组学特征可分为语义特征和不可知特征：

① 语义特征包括：尺寸、形状等参数；

② 不可知特征包括：一阶、二阶和高阶特征；

一阶特征描述个体体素值分布而不考虑空间关系；二阶特征主要描述图像的纹理特征；高阶特征则需以多种滤波器网络获取，包括小波变换和拉普拉斯变换等。

影像组学通过图像分割和标注获取特征。在图像分割前通常需要预先对医学影像数据进行标注，而后通过机器学习等算法模型展开训练，进行自动图像分割。目前国内外标注软件多是功能单一的附带简单标注功能的医学图像处理软件。例如，LabelImg和LabelMe是两款常见的标注工具，可支持对图像进行多边形、圆形、线段和点等形式的勾画，但不具备获取、存储和管理医疗数据及数据统计等功能，且不同专病医学影像检查涉及的设备不同，医学图像格式类型各异，常见的标注工具难以同时支持多种格式类型的医学图像标注。

影像组学所需的特征工程：不同专病影像涉及的器官位置、需提取的图像特征（如轮廓、灰度、纹理、毛刺、边缘等）不尽相同，且特征选择的过程非常复杂。通常需要先提取成百上千种图像特征，经过相关性分析后筛选出少数几种和任务具有强相关的特征。特征选择的过程对模型诊断的准确率至关重要，但需要计算机视觉的专业知识。

03 影像组学分析平台：

影像组学分析平台包含：数据管理、阅片标注、课题管理和丰富的影像组学及机器学习组件。

通过本平台，临床医生无需任何编程便可完成影像组学的全流程分析，包括特征提取、特征分析、模型选择等，并生成相应的结构化分析报告（英文表述）。该报告可直接用于科研论文的撰写。

640?wx_fmt=png&tp=wxpic&wxfrom=5&wx_lazy=1&wx_co=1

影像组学分析平台一般流程如下：平台提供了基于影像组学和机器学习技术的分析建模全周期功能，所有过程都提供中间数据，并根据中间数据生成对应图表，作为分析报告提供给用户，以便进行分析总结。

① 分析数据选择：在进行课题分析时，用户可根据数据分布情况选择部分或全部当前课题组所有的案例进行分析。为了避免模型过拟合，所选案例最少不低于20例。

② 特征值计算：对所选案例，平台可自动提取每个案例的1688个影像组学特征，特征包括灰度特征、三维特征、纹理特征、小波变换特征。

③ 分析特征选择：用户可从影像组学特征和临床特征中选择部分或全部特征，进入模型建立模块。单次可只选择影像组学特征或临床特征分别建模，也可联合两部分特征共同建模。

④ 数据分组：在建模模块时，平台提供了2种数据分组方法：随机法和K折法，随机法将按指定比例进行数据分组；K折法将数据随机分为等量的K组，进行K次训练，第X次训练以第X组作为测试集，其余组作为训练集。

⑤ 特征筛选：根据影像组学方法，在进行机器学习建模前，需要筛选所选特征。平台提供了3种特征筛选方法：方差选择法（Variance Threshold）、单变量特征值选择法（SelectKBest）和最小绝对收缩算子（Lasso）。

⑥ 机器学习建模：平台提供了12种常见的机器学习算法模型组件供用户调用。按照学习方式，这些模型可分为监督式学习、非监督式学习、半监督式学习、增强学习4类。按照学习任务，这些模型可分为分类、回归、聚类3类。其中，分类与回归都属于监督学习，前者是预测一个离散的标签，后者是预测一个连续的数量，聚类则属于无监督学习。

平台模型库中共包含13种机器学习算法模型，用于数据分析建模，分别是：K近邻（k-nearest neighbor, KNN）、支持向量机（support vector machines, SVM）、极端梯度提升（extreme gradient boosting, XGBoost）、梯度提升树（gradient boosting machine, GBM）、伯努利贝叶斯分类（Bernoulli NB）、高斯朴素贝叶斯（Gaussian NB）、决策树（decisiontree, DT）、线性判别分析（linear discriminant analysis, LDA）、随机森林（random forest, RF）、逻辑回归（logistic regression, LR）、自适应（adaptive boosting, AdaBoost）、多项式朴素贝叶斯（Multinomial NB）以及随机梯度下降（stochastic gradient descent, SGD）。

⑦ 模型验证：分析模型建立后，为了评估模型的性能，平台会自动计算模型在训练集和测试集上的敏感性（sensitivity, SE）、特异性（specificity, SP）、

准确率（accuracy, Acc）、曲线面积（area under curve, AUC）、可信度等指标，部分指标公式如下：

SE=TP/(TP+FN) (1)
SP=FP/(FP+TN) (2)
Acc=(TP+FN)/(TP+TN+FP+FN) (3)

式中：TP、FP、FN、TN分别是指模型预测为阳性的阳性案例、预测为阳性的阴性案例，预测为阴性的阳性案例，预测为阴性的阴性案例。

⑧ 分析报告：平台将数据分析和模型运行的中间过程生成的图表汇总，生成分析报告。报告中包括特征筛选过程图、筛选后的特征列表、模型在训练集和验证集上的性能表、ROC曲线图等。

04 总结：

今天的内容就到这里，欢迎点赞收藏转发，感谢声明：本文内容由网友自发贡献，转载请注明出处：【wpsshop】

推荐阅读

相关标签