东北三省数学建模竞赛,省一等奖,我主要负责模型的建立和求解。版权所有,转载请注明出处。
A题:医保欺诈行为的主动发现
摘 要
针对近年来中国医保制度的完善,医保医疗保险基金积累,在享受医疗保险的过程中可能存在一定的医疗欺诈行为,需要我们从给出的数据中找出可能的欺诈记录。本文提供了两种有效的找出欺诈记录的模型:评价类数学模型和多元统计分析模型。
本文(1)使用评价类数学模型,采用改进的主成分分析法,从明细指标中提取主成分,主成分很好地保留了明细指标所携带的信息,我们建立了一个综合评价函数,该主函数的涉及到的主成分有病人科室,医嘱子类,单价,医嘱数量,费用,核算分类。从而得到综合评价值,所给的数据求出的综合评价值的范围是-4.78708--26.49655,从而建立综合评价标准(MIF);(2)使用多元统计模型,采用系统聚类法进行聚类分析,对新加入的数据用SPSS画出聚类分析图,从而判定新加入的数据属于综合评价标准的哪一个等级;(3)使用多元统计分析模型,为了说明我们的结果有效可信,采用判别分析法中的马氏距离判别法,Fisher判别法和Bayes判别法,进行判定医疗保险记录属于哪个分类等级。同时得到相关系数得分,来验证综合评价值的准确性,因此我们认为用综合评价标准(MIF)对医疗保险明细进行分级是合理和科学,然后根据错判概率确定可能存在欺诈记录属于哪种分类级别,我们来确定哪种欺诈性质。
最后,本文对两种模型进行了比较,并对它们的优缺点进行分析,提出了改进方向。
文中分别利用上述模型对可能存在的欺诈记录进行了分级,把欺诈分为不可能存在欺诈,可能存在欺诈,存在一般欺诈,存在严重欺诈,见表1;欺诈的判断结果见附录Ⅲ。
表1 医疗保险欺诈的综合评价标准(MIF)
综合评价标准 |
>=21 |
11-20 |
1-10 |
<=1 |
分类等级 |
4 |
3 |
2 |
1 |
欺诈的性质 |
存在严重欺诈 |
存在一般欺诈 |
可能存在欺诈 |
不可能存在欺诈 |
关键字:改进主成分分析 综合评价标准 多元统计分析模型 判别分析 相关分析
。。。。。。。。
。。。。。。
。。。
。。。
3.模型假设
1.所有表征和影响变化的明细指标都是在医疗保险基金系统下确定的;
2.不考虑医保卡拥有人年龄;
3.假设不考虑主观因素对欺诈明细指标的影响
4.病人的基本资料,费用明细表等相关表间的一个指标明细不会影响另外一个指标明细
5.不考虑在信息数据的统计与录入上的存在问题
6.假设表中所给的统计数据的明细具有一定的代表性
7.假设问题中明细指标都可以反映实际情况
4.模型Ⅰ:改进的主成分分析法数学模型
本小节,我们要处理的问题是建立了一个综合评价函数,从而得到综合评价值,从而建立综合评价标准(MIF)。对可能存在的欺诈记录进行了分级,把欺诈分为不可能存在欺诈,可能存在欺诈,存在一般欺诈,存在严重欺诈。分为4个部分:1.符号约定,2.模型建立,3.模型求解,4.结果分析。
4.1符号约定
:明细指标中第个数据的第项明细指标
:医疗保险明细指标向量
:最小负数的相反数
:为样本平均值
:为标准差
:表示方差贡献率
:表示累积贡献率。
:综合评价函数,即综合评价指标
:为明智指标提出来的主成分值。
:表示第个原始明细指标对第个主成分的荷载值
:表示第个主成分的协方差
4.2 模型建立
1.医疗保险明细指标欺诈的提取基于题目中所给的明细指标数量太多,我们舍弃了医疗保险的无关明细指标,选取医疗保险中相关的明细指标作为判断医疗保险欺诈的属性值。分别为:流水号,病人科室,医嘱子类,单价,医嘱数量,费用,核算分类。
传统的主成分分析是一种线性降维技术,但是本文中医疗保险明细指标呈现非线性,主成分分析的降维效果不理想,甚至出现评价偏差很大的结果。为此,我们通过对传统主成分进行改进,使其适用于非线性数据。
2.数据的线性化改进
在对数据进行标准化处理之前,为了防止矩阵中的数据为非正数,可以将所有数据加上一个略小于最小负数的相反数,这样平移不会改变结果,按平移后的矩阵进行如下对数变换:
通过对医疗保险明细指标的计算,我们将原始数据与线性化处理后的原始数据进行对比,可以看到在累积贡献率方面,传统方法要选择前五个达到83%,而改进的主成分分析法只需要选择前面的四个就能达到84%以上的累积贡献率,同时改进前第一主成分的贡献率为1.688,改进后的第一主成分的贡献率达到2.078,几乎是传统方法前两个主成分之和。这说明对初始数据进行线性化处理具有一定的优越性。改进前后的主成分累积贡献率对比见表4-1。
表4-1 改进前后的主成分累积贡献率对比 |
||||||
成份 |
初始特征值(改进前) |
初始特征值(改进后) |
||||
合计 |
方差的 % |
累积 % |
合计 |
方差的 % |
累积 % |
|
1 |
1.688 |
24.111 |
24.111 |
2.078 |
27.111 |
29.111 |
2 |
1.280 |
18.289 |
42.400 |
1.580 |
20.209 |
52.400 |
3 |
1.120 |
16.006 |
58.406 |
1.363 |
18.506 |
68.406 |
4 |
1.013 |
14.473 |
72.880 |
1.113 |
16.273 |
84.880 |
5 |
.838 |
11.979 |
84.858 |
|
|
|
6 |
.683 |
9.760 |
94.618 |
|
|
|
7 |
.377 |
5.382 |
100.000 |
|
|
|
提取方法:主成份分析。 |
3.医疗保险明细指标主成分的提取与综合评价函数
主成分分析是一种降维的统计方法,它的工作目标是在力求数据信息丢失最少的原则下,对高维变量空间进行降维处理,在降低计算复杂度的同时又不失计算的准确性。它的主要步骤如下:
(1)为了消除量纲的影响,首先需要将原始数据进行标准化。以医疗保险明细指标为例,医疗保险明细指标向量为,对数据进行如下的标准化变换:
其中,为样本平均值,;为标准差,;于是得到标准化矩阵。
(2)求出标准化矩阵的相关系数矩阵
(3)解相关矩阵的特征方程,得到个特征根,计算各主成分的方差贡献率和累积贡献率,用表示方差贡献率,表示累积贡献率。
根据累积贡献率的大小在保证数据累积贡献率超过80%的前提下,选取最少的m个主成分。
(4)构造综合评价函数,即综合评价指标。评价函数可表示为
其中,为提出来的主成分值。
4.3模型求解
正文中我们以医疗保险明细指标为例研究判定医疗保险欺诈之间的关系,主成分分析中每个原始指标对主成分的信息量提供反映在主成分荷载矩阵见表4-2,公因子方差见表4-3。
表4-2 医疗保险明细指标主成份荷载矩阵a |
|||||
|
成份 |
|
|||
|
1 |
2 |
3 |
4 |
|
流水号 |
.142 |
-.300 |
.690 |
-.083 |
|
病人科室 |
-.085 |
.488 |
-.588 |
-.050 |
|
医嘱子类 |
-.381 |
.252 |
.253 |
.735 |
|
单价 |
.693 |
.333 |
.118 |
.404 |
|
医嘱数量 |
-.198 |
.611 |
.402 |
-.538 |
|
费用 |
.762 |
.462 |
.111 |
-.061 |
|
核算分类 |
-.644 |
.437 |
.216 |
.082 |
|
提取方法 :主成分分析法。 |
|
||||
|
|
表4-3 公因子方差 |
||
|
初始 |
提取 |
流水号 |
1.000 |
.593 |
病人科室 |
1.000 |
.594 |
医嘱子类 |
1.000 |
.813 |
单价 |
1.000 |
.769 |
医嘱数量 |
1.000 |
.863 |
费用 |
1.000 |
.810 |
核算分类 |
1.000 |
.659 |
提取方法:主成份分析。 |
从表中可知:
(1)费用,核算分类,单价,医嘱子类在第一主成分中有较高的载荷,说明第一成分基本反映了这4个指标。
(2)医嘱数量,病人科室,费用,核算分类在第二主成分中较高的荷载,说明第二主成分基本反映了这4个指标。
(3)流水号,病人科室,医嘱数量在第三主成分中有较高的荷载。
(4)医嘱子类,医嘱数量,单价在第三主成分中有较高的荷载。
总之这7个指标在这四个主成分因子中都得到了很好的反映。
为了挑选出医疗保险明细指标中最具有影响力的明细指标,我们对每一个原始明细指标定义一个影响力因子,它的定义为
其中,表示第个原始明细指标对第个主成分的荷载值;表示第个主成分的协方差;。
根据影响力因子的大小我们对原始医疗保险明细指标进行了影响力评定,由于第一成分的协方差最大,所以它对影响因子的影响也较大,经过计算我们挑选了个影响因子较大的原始医疗保险明细指标,如表4-4所示。
表4-4 大影响因子及明细指标
明细指标 |
病人科室 |
医嘱子类 |
单价 |
医嘱数量 |
费用 |
核算分类 |
影响因子 |
0.594 |
0.813 |
0.769 |
0.863 |
0.810 |
0.659 |
利用主成分分析法中的综合评价函数
其中,表示类主成分的方差贡献率;为提取出来的个主成分值。
计算出多个流水账号的的得分,这个分数综合体现了客观因素医疗明细直指标在各个流水账号间的差异。得到表4-5
表4-5 明细指标分类等级与综合评价值结果
流水号 |
因子1得分 |
因子2得分 |
因子3得分 |
因子4得分 |
Y(综合评价值) |
39629128 |
33.57704 |
21.4767 |
8.77449 |
19.63547 |
26.49655 |
38761051 |
33.51887 |
21.63872 |
8.34834 |
19.69245 |
26.4299 |
38228382 |
33.48318 |
21.73814 |
8.08685 |
19.72742 |
26.38901 |
…… |
…… |
…… |
…… |
…… |
…… |
40017584 |
26.98308 |
18.96599 |
6.95949 |
0.82314 |
18.7669 |
40022135 |
20.96244 |
12.14692 |
6.55069 |
12.12521 |
16.40657 |
39921419 |
20.95569 |
12.16572 |
6.50125 |
12.13183 |
16.39884 |
…… |
…… |
…… |
…… |
…… |
…… |
39105002 |
13.3631 |
8.01966 |
3.37781 |
5.0676 |
9.819741 |
38196937 |
13.30225 |
8.18915 |
2.93204 |
5.1272 |
9.75003 |
38209912 |
13.5123 |
8.57873 |
3.09601 |
2.78695 |
9.521273 |
…… |
…… |
…… |
…… |
…… |
…… |
37798421 |
1.57724 |
1.90533 |
1.06745 |
-2.33781 |
0.999784 |
38364378 |
0.96632 |
2.24059 |
1.5016 |
-2.00468 |
0.999783 |
39252220 |
2.14275 |
0.94924 |
-0.26578 |
-0.64654 |
0.999727 |
38752021 |
-0.81093 |
0.1971 |
1.39297 |
-0.15508 |
-1.26722E-06 |
38229554 |
-0.76771 |
0.30258 |
1.11723 |
-0.07731 |
-1.56845E-06 |
40014234 |
-0.67437 |
-0.06496 |
1.18339 |
0.16705 |
-2.42833E-06 |
…… |
…… |
…… |
…… |
…… |
…… |
我们根据医疗保险明细指标对存在医疗保险欺诈可能进行分类,综合评价值在-4.78708---26.49655之间。根据统计学分组原则,分为4个等级:存在严重欺诈,存在一般欺诈,可能存在欺诈,不可能存在欺诈,见表4-6;由医疗保险明细指标的得分大小,由于数据量较大,所以我们随机选取每一个等级的二十项数据,不足的选取所有的数据,得到各个流水账号分类区间情况,见表4-7。
表4-6 医疗保险欺诈的综合评价标准(MIF)
综合评价标准 |
>=21 |
11-20 |
1-10 |
<=1 |
分类等级 |
4 |
3 |
2 |
1 |
欺诈的性质 |
存在严重欺诈 |
存在一般欺诈 |
可能存在欺诈 |
不可能存在欺诈 |
表4-7 分类等级结果
分类 等级 |
分类区间 |
流水账号 |
||||
4 |
>21 |
39629128 |
38195417 |
37031092 |
38480050 |
|
4 |
38761051 |
38076991 |
40016500 |
37912544 |
||
4 |
38228382 |
37606917 |
38935407 |
36542288 |
||
|
||||||
3 |
11---20 |
40017584 |
39657082 |
38605624 |
37617059 |
35814679 |
3 |
40022135 |
39631004 |
38345810 |
36711226 |
38483152 |
|
3 |
39921419 |
39418058 |
37377571 |
36257878 |
…… |
|
…… |
||||||
2 |
1---10 |
39105002 |
38071148 |
37620226 |
37797518 |
37797083 |
2 |
38196937 |
39531565 |
37800314 |
37797463 |
37797104 |
|
2 |
38209912 |
37767721 |
37797534 |
37797388 |
…… |
|
…… |