赞
踩
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
在免疫组化片子的分析中,一般有两种方法用来评估阳性指标。一种是完全基于颜色识别,精确到像素级的分类,和像素级的语义分割稍有区别,感受野为1个像素。还有一种评估方法则是识别出所有的细胞,对细胞内部的像素颜色进行统计,这一步也是像素级。所以精确的像素级颜色识别对组化阳性对免疫组化的分析至关重要。
由于颜色的识别需要精确到每一个像素,对每个像素做标签是不现实的,所以我们决定采用机器学习的方式用逻辑回归来做分类,一共四类,背景、间质、阴性、阳性。效果如下图所示。
不同等级的阳性像素用黄橙红颜色标记,阴性像素用蓝色标记,间质区域像素用绿色标记,空白区域不做标记。
在初版开发完后,我们基于这个结果制作了数据标签,训练了一个UNet模型(acu98%),效果对比如下:
UNet的结果和逻辑回归的并没有明显的提升,并且在一些科研和病理上不可忽略的细微区域,UNet可能会不够敏感。并且UNet数据集是通过逻辑回归得出来的,天花板被限制。所以最终初版我们还是采用的逻辑回归的模型。
后来在初版的发布应用中,通过全国各地医院高校的海量数据测试后,明显的短板还是出现了。我们的模型是通过像素的绝对值做分类,但是各地高校医院的数据由于制片的环境设备还有人为因素影响,大多数片子都不是理想的色彩,有的亮有的暗,有的偏黄有的偏蓝,下面是我挑选的少部分各类数据,每张图的色彩都有很强的特异性。
显而易见,如果只用一个模型的话难以覆盖所有的场景,会显得捉襟见肘,如果所有的片子用同一个标准,有些片子里的阳性在其他片子里可能是阴性,有些片子里的阴性细胞核在其他片子里可能只是间质。下面是我挑选的少部分各类数据,每张图的色彩都有很强的特异性。
所以后来我们想到了一个很独到的方法,我们先肉眼把部分数据分成了6类,然后对这6类图片制作txt标签训练6个逻辑回归模型。然后用pyqt5写了一个可以根据效果自动训练6个模型的软件,给我们的数据团队,经过大量的数据迭代6个模型后,基本可以覆盖绝大部分数据(近百万张)。
点击打开文件夹按钮,选择图片集所在路径,然后点击开始计算,所有模型的计算结果就会显示出来。
红色方框内的6个矩形框分别是6个模型的识别结果,蓝色框中为原图,因为算法中有去背景以及颜色拉伸的算法,所以结果图比原图稍微要亮一些鲜明一些。
接下来就需要人眼来比较了,因为我们有专业的医生和生物背景团队,所以这个活就全交给他们了。比如这里模型1的效果最好,那么就点击第一个矩形框(图中绿框部分),然后点击保存,我们的算法会保存下该模型检测结果的像素,当累积到五张图的会把模型一训练一次。在点击保存前如果勾选了“保存图片”的话,这张图会存到模型一对应的文件夹中。下面的两张滑动条可以对比较满意但却稍有误差的模型结果进行微调。
如果觉得6个模型效果都不好,那么就点击原图对应的矩形框,这张图会被单独放到另一个文件夹里,留待后续单独准备新的模型。
在软件的平级文件夹下我们创建了一个workspace文件夹,里面有两个子文件夹,modes和selected_class
modes里面有6个子文件夹,从class01-class06,里面分别存放着6个模型
selected_class里面有7个子文件夹,从class00到class06, class01-class06里面是每隔模型效果最好的图。class00里面存放的是6个模型效果都不好的图。
提示:这里对文章进行总结:
例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。