赞
踩
首先考虑这样一个实际场景:在医学影像领域中的癌症监测任务中,病理切片的分辨率高大200000 x 100000。很明显,这样的巨大的图片数据很难一次性在内存中进行 分类。所以我们我们需要将一张完整的病理切片进行裁剪,分别进行图像分类。但是这样又会造成一个问题,我们只知道 这张完整的 病例切片 是否包含 癌症,但是我们并不知道 癌症信息 被 裁剪到了哪个图片中,从而无法用全监督的方法进行学习。 这样一个问题,其实就是 Multiple Instance Learning 所要解决的问题。
多示例学习的概念:假设训练数据集中的每个数据是一个包(Bag),每个包都是一个示例(instance)的集合,每个包都有一个训练标记,而包中的示例是没有标记的;如果包中至少存在一个正标记的示例,则包被赋予正标记;而对于一个有负标记的包,其中所有的示例均为负标记。(这里说包中的示例没有标记,而后面又说包中至少存在一个正标记的示例时包为正标记包,是相对训练而言的,也就是说训练的时候是没有给示例标记的,只是给了包的标记,但是示例的标记是确实存在的,存在正负示例来判断正负类别)。
多实例学习模型的基本流程:
Code: MIL在MNIST 数据集上的应用
更多的应用场景:
视频分类:判断包含10000帧的视频中是否包含气球
文本分类:判断一篇文章中是否包含’气球‘的句子
网页推荐:用户对某网页很感兴趣,但是不知道具体哪部分吸引用户,可以抽象为MIL。
参考文献:
https://wenku.baidu.com/view/a66fab43f12d2af90242e6da.html (多实例学习(周志华) 强推 !)
https://zhuanlan.zhihu.com/p/386282264
https://zhuanlan.zhihu.com/p/40812750
https://blog.csdn.net/tkingreturn/article/details/39959931
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。