赞
踩
目前找不到论文配套代码, 本文弃坑)
注意
看数据特点适应的方法创新
找两篇和项目相似的看数据量极少的怎么做的(心电图),和特征工程理论是否能用到
高维小样本上用遗传编程(GP)多分类
T. Wei, W. -L. Liu, J. Zhong and Y. -J. Gong, "Multiclass Classification on High Dimension and Low Sample Size Data using Genetic Programming," in IEEE Transactions on Emerging Topics in Computing, doi: 10.1109/TETC.2020.3034495.
2020(JCR Q1)
使用了Genetic Programming (GP),一种intrinsic evolutionary分类算法,实现自动特征构建(automated feature engineering)。本文提出了一种基于集成的GP分类框架,即基于sigmoid的集成Gene Expression Programming(SEGEP) "
参考人工智能数据集介绍:
https://zhuanlan.zhihu.com/p/71634872
生物信息(bio-information)数据集4个
基因表达数据集6个
图像信息,多分类数据集1个
1http://portals.broadinstitute.org/cgi-bin/cancer/datasets.cgi
2https://archive.ics.uci.edu/ml/datasets/SCADI
3https://archive.ics.uci.edu/ml/datasets/Lung+Cancer
4https://schlieplab.org/Static/Supplements/CompCancer/datasets.htm
5http://featureselection.asu.edu/old/datasets.php
6https://archive.ics.uci.edu/ml/datasets/Urban+Land+Cover
7https://archive.ics.uci.edu/ml/datasets/Wine" github.com/YingBi92/BookCode
http://portals.broadinstitute.org/cgi-bin/cancer/datasets.cgi
在疾病数据集中区分其子类别Subclass Mapping: Identifying Common Subtypes in Independent Disease Data Sets
传统数据挖掘方法依赖于模型假设,在高维小样本(HDLSS)上容易过拟合。
本文使用GP算法进行自动特征构建(feature construction automatically),无模型假设。
本文提出基于sigmoid的集成遗传表达规划Sigmoid-based Ensemble Gene Expression Programming (SE- GEP)。
改进:
1.对于GP多类分类器的输出冲突,需要所结合有二进制分类器的输出。提出采种具有连续松弛的概率表示(flexible probability representation with continuous relaxation)来更好地结合各输出。
2.一种数据分割策略,提高集成性能
3.采样策略,改进现有的GP的二分类器。
实验结果:SE-GEP与其他GP方法或其他具有代表性的机器学习方法的比较,SE-GEP效果好,是具有竞争力的HDLSS数据多分类方法。
分类器用输入数据
样本 | |
样本特征 | |
特征数量 | |
样本量(sample size) | |
多分类问题方法
1. 生成式学习,如 Naive Bayes
2. 判别式方法:
softmax回归的神经网络(neural networks with softmax regression)、决策树方法如随机森林、GBM(gradient boosting machine)、XGBoost
3. 二分类方法->多分类:纠错输出码Error-Correcting Output Codes (ECOC), 层次分类(hierarchical classification)
数据维数较大时,过拟合会迅速变严重。为了克服过拟合问题,一般将机器学习方法与特征选择(feature selection)或特征构建(feature construction)方法相结合。
特征选择的进化算法evolutionary algorithm (EA):人工蜂群Artificial Bee Colony (ABC)、粒子群优化Particle Swarm Optimization (PSO)等进化算法。
特征选择和分类的同时进行
这些进化方法必须与机器学习分类器一起进化。根据机器学习分类器相关的适应度函数,通过搜索特征子集并限制子集的大小,实现单目标或多目标的特征选择或特征构建。进化算法的评估过程对每个机器学习分类器需要额外的训练过程,不够灵活。
相比之下,GP由于其树形结构,可以同时(simultaneously)完成特征选择和分类。
为解决符号回归symbolic regression,分类,知识发现knowledge discovery等问题,产生GP变体(variants): Gene Expression Programming(GEP)、Cartesian Genetic Programming、Semantic Genetic Programming和Self Learning Gene Expression Programming
GP适用场景
1. 高维问题-自动选择和构造特征
2. 小样本问题(基于统计的学习方法难以实现)-GP是基于表达式树的计算,对于大规模数据集可能会非常慢,样本量小时则有所缓解。
提出GP多分类框架-集成GEP(Ensemble Gene Expression Programming,SE-GEP):
1.对于GP多类分类器的输出冲突,需要所结合有二进制分类器的输出。采用概率表示(probability representation)结合各输出,并使用连续松弛(continuous relaxation)提升分类器性能。
2.使用数据划分,使基分类器具有多样性,提高集成精度。
3.采样策略,改进现有的GP的二分类器。
实验结果:SE-GEP与其他GP方法或其他具有代表性的机器学习方法的比较,SE-GEP效果好,是具有竞争力的HDLSS数据多分类方法。
自动化特征工程(automated feature engineering,autoFE)中,GP构建隐式特征对于自动分析数据至关重要。
本文贡献
1. 提出一个多分类框架
2. 提出一种连续松弛技术来提高GP二分类器的分类性能
3. 改进其中采样组件,以提高GP分类器的收敛性能
4. 对基于gp的分类器和机器学习分类器全面比较
文章结构
第二节: GP分类的相关工作
第三节: 基分类器RSL-GEP
第四节: 二元分类器的组合策略
第五节: 实验
第六节: 结论
GP是基于群体(population-based)的优化算法.
Swarm intelligence algorithms are a cluster of population-based meta-heuristic stochastic algorithms for optimization. 基于群体的优化算法也就是群智能. |
GP有两种方式解决分类问题:
1. GP选择/重构特征+ML分类
2. 直接GP分类(本文主要使用)
使用GP选择和构造特征,辅助机器学习方法进行高维分类
大多数基于GP的特征选择或构造方法, 主要区别在于适应度(fitness)函数:
1. (Muharram) 过滤式特征选择(filter feature selection)的排序结果作为适应度函数(排序函数包括: 信息增益information gain of entropy、基尼系数GINI index、卡方chi square等). 利用GP的自动合成能力.
2. (Guo) 线性判别分析Linear Discriminant Analysis作为适应度函数, 使其最大化类间距离.
3. (Tran) GP特征构建, 由于GP的个体(individuals)是基于树结构的,对比GP个体输出(叶节点、中间节点和根节点)的不同组合, 提高决策树、朴素贝叶斯和GP的分类性能.
4. (Cava) 基于给定的分类距离度量(metric),用M4GP(GP的改进)实现非线性特征变换. 结合有针对性地设计的representation, archives, selection 方法,输出特征提高基于距离的分类性能.
GP个体建立规则,直接解决分类问题.
GP可进行符号回归, 通过在回归问题中设置一个阈值作为决策边界, 可像ML一样分类(GP分类应用包括光谱图像分类、雷达图像识别、医疗诊断、信用审批等).
GP分类研究
二分类: (Bhowan)为不平衡数据情况的分类设计的适应度函数
多分类:
基于GP的二分类器+避碰技术(collision avoidance)对规则选择或组合->得到最终输出
由于多分类方法常基于二分类器,组合策略为其关键区别
1. (Lin)多种群(multi-population)GP解决多分类问题,GP个体深度小,算法输出逐层产生(outputs are produced layer by layer),每层由多个种群组成.
2. (Muni) 设计了GP的进化算子(evolutionary operators),并提供了元启发式规则以避免各二分类器的输出冲突
3. (Carno) 通过三个标准(召回率recall,精度precision,和规则数量rule size)衡量每条规则. 通过随机选择标准,选择不同的规则作为最终决策的一部分.
4. (Zhou) 用了特殊的适应度函数(信息理论的最小描述长度minimum description length of information theory)演化出一系列紧凑规则compact rules.
紧凑compact rules参考: The compact genetic algorithm | IEEE Conference Publication | IEEE Xplore cGA 将种群表示为一组解的概率分布,在操作上相当于具有均匀交叉(order-one behavior)的 GA 的单序行为(order-one behavior). 独立处理每个基因,需要的记忆比GA少。 能用于比较的启发式算法才能结合compact思想 |
由于上述的避碰策略是非自然的,且很大程度上依赖于作者设计的规则,使得多分类器复杂,不稳定,不灵活,很难组合。
本文采用第二种策略, GP分类(无ML),对输出碰撞采用松弛的连续表示(continuous representation with relaxation),简单灵活易于扩展.
multi-objective GP-based classifier
二分类
(Wang)提出使用一组non-dominated分类器来最大化ROC表现.
再加选择机制(selection mechanism),提高针对多目标问题的receiver operating characteristic convex hull (ROCCH).
多分类
(Nag)用过滤式(Filter)特征选择进化non-dominated种群, 通过同时优化(规则数量、查全率和查准率),non-dominated二分类器集成可以控制每一类数据.
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。