赞
踩
本文我们描述了参加ISIC2019皮肤病变分类比赛。比赛中有两个任务,一是通过皮肤病变来分类皮肤病图像。二是利用图像和附加的患者元数据进行分类。包含25000张图像的庞大数据集提供给训练过程,共包含8个类别。最后的测试集包含附加、未知的类别。我们介绍一个简单、数据驱动的方法来解决这个挑战,该方法引入了训练集未包含的外部皮肤病变数据。此外,多类别皮肤病分类还有严重的类别不平衡问题。我们尝试使用损失平衡来解决这个问题。同时数据中包含的图像有着不同分辨率,我们通过输入不同模型不同分辨率、裁剪策略来考虑这种特性。为了聚合元数据,比如年龄,解剖位置、性别,我们使用额外的全连接层并将特征与cnn特征进行融合。我们使用了一个集合策略聚合了所有模型,从而我们能搜索最优模型的子集。我们最好的集合达到了平衡的准确率74.2%,使用了无折交叉验证。在官方的测试集合上,我们的方法在两个任务上都排名第一,任务一准确率63.6%,任务二准确率63.4%。
关键词:皮肤病变分类、深度学习、损失平衡、efficientNet
自动皮肤病变分类是一个挑战性的任务,目前经典方法是卷积神经网络。最近, ISIC 2018 SkinLesion Analysis Towards Melanoma Detection 比赛,得出了一系列高表现的模型,评估皮肤镜图像结果与人类专家相似。为了进一步提高诊断表现,ISIC 2019挑战赛提出了一些旧的问题和一些新的问题。特别是ISIC 2019的测试数据,包含了未知类别。同时,现实生活中严重的类别不平衡问题也是一个需要解决的关键问题。此外,训练数据在之前的HAM10000基础上,扩充了BCN_2000 和MSK数据。图像被不同预处理和准备方案处理后有着不同分辨率也需要我们考虑。
本文,我们描述在 ISIC 2019 Challenge比赛当中参加两个任务的流程。对于任务一,皮肤病变分类只基于皮肤镜图像。对于任务二,皮肤镜图像和附加的患者元数据都需要使用。我们主要建设了一个皮肤病分类方法,该方法包括损失平衡,数据增强,预训练,state-of-the-art cnn和广泛的集合策略。我们通过a color constancy algorithm和 cropping algorithm处理生数据、未处理的皮肤镜图像,已提供数据多变性。
处理测试集合的未知类别数据,我们采用了一个使用外部数据的数据驱动方法。对于任务二,我们融合了附加的元数据信息到模型中,使用全连接网络与cnn特征融合。
主要的训练数据包含25331个皮肤镜图像,从多个地方采集并被不同处理方法处理过。包含类别:
训练数据的一部分是HAM0000,包含600450的图像,已经被中心化并提供患处周围的裁剪。其中一些图像已经被数据管理人员做了直方图矫正。另一个数据集是BCN_20000,包含10241024的图像。该数据尤其具有挑战性,因为图像没有被裁剪,并且病变出现在各种不寻常的位置。最后一个数据,是MSK,包含各种尺寸的图像。
数据中也包含元信息,比如患者年龄组,解剖部位,性别。元数据是不完整的,很多图片的元数据有缺失值。
除此之外,我们使用了外部数据。我们使用了7-point数据集中的995个皮肤镜图像。我们使用in-house数据,其中包含1339张图像。in-house数据中也包含353张图像我们用来标记未知类别。。。。(省略一句废话),我们的主要想法是建立一个广泛的皮肤病变类别,从而激励模型能够分析任何一个不属于8个类别的图像。如果在外部数据中可以获得,我们也考虑三个类别的元数据。
在内部数据评测中,我们划分训练数据为5个部分。数据中包含同个病变的多幅图像,因此我们确相同病变的所有图像均等划分到每个部分。我们把外部数据添加到每个训练集合中,值得注意的是,我们没有包含任何未知类别的数据在评估中,因为我们不知道是否他们能准确表示实际情况的未知类别。因此,我们的模型训练去预测九个类别。但我们评估过程在已知的八个类别上。
我们使用平均敏感度来进行内部评估:
TP是真正例,FN是假反例,C是类别数量。该策略也被比赛排名采用。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。