当前位置:   article > 正文

2020 全国大学生数学建模竞赛C题思路+代码_2020年数学建模c题

2020年数学建模c题

题目链接天翼云盘 珍藏美好生活 家庭云|网盘|文件备份|资源分享

前言

又是一年数据挖掘题型,第一次接触这种题型还是在去年的mathorcup上,这种题的难度就在于指标的建立和数据的处理上。后面会出一份关于数据挖掘题型,我的相关经验,常用的工具和代码。

下面的一,二问实际都在解决

  1. 贷不贷款?
  2. 贷款金额多少?

数据清洗

这道题的附件数据没有出现缺省或者异常数据,因此对于数据的预处理,更多的是根据问题的需求来做的。

  1. 将是否违约,违约设置为1,不违约设置为0

  2. 信誉等级ABCD分别对应4,3,2,1

  3. 发票状态,有效发票为a,作废发票为b

  4. 我将销项和进项所有数据,以公司代码为区别,提取到了不同的sheet当中,对于该公司有效发票数作废发票数负数发票数,方便对数据观察。

  1. # 遍历所有sheet数据
  2. for xsn in sn.sheet_names[1:]:
  3. # 读取文件
  4. datas = pd.read_excel(file_pos, sheet_name=xsn)
  5. datas['date']=pd.to_datetime(datas['date'],format='%Y/%m/%d')
  6. datas.set_index('date', drop=True)
  7. # 找到全部公司名称代号
  8. code_list = list(set(list((datas['code']))))
  9. for name in code_list:
  10. tmp_datas = datas[datas['code'] == name]
  11. tmp_datas.index = range(len(tmp_datas))
  12. # 转换日期未object类型
  13. tmp_datas['date'] = [x.strftime('%Y/%m/%d') for x in tmp_datas['date']]
  14. count1 = tmp_datas['tax_status'].value_counts()
  15. tmp_datas['a_count'] = list(count1)[0]
  16. if(len(count1) > 1):
  17. tmp_datas['b_count'] = list(count1)[1]
  18. tmp2 = tmp_datas[tmp_datas['cost'] < 0]
  19. tmp_datas['neg_value_tax'] = len(tmp2)
  20. if xsn == sn.sheet_names[1]:
  21. tmp_datas.to_excel(writer1,sheet_name=name,index=False)
  22. else:
  23. tmp_datas.to_excel(writer2,sheet_name=name,index=False)

负数发票:在之前购买的物品,并开具了相关正向发票,后来退货所以开具了值为负数的发票,抵消前面正数发票的值。

提取到信息:

  • 部分公司数据记录很少,或者时间跨度大,需要综合数据指标,抵消数据数量和跨度大的影响
  • 有些负数发票,在之前找不到对应的正数发票,可能是因为在数据记录日期之前购买的,在之后退款,因此在附件中找不到记录。

问题一

建立指标

进项发票作废率进项负数发票率进项每月平均交易额进项每月交易次数

销项发票作废率销项负数发票率销项每月平均交易额销项每月交易次数销售收入增长率

提取出相关指标到附件

  1. for xsn in sn.sheet_names[1:]:
  2. # 读取文件
  3. datas = pd.read_excel(file_pos, sheet_name=xsn)
  4. code_list = list(set(list((datas['code']))))
  5. for name in code_list:
  6. tmp_datas = datas[datas['code'] == name]
  7. tmp_datas.index = range(len(tmp_datas))
  8. insert_datas.append(name)
  9. # 作废数
  10. cacel_count = len(tmp_datas[tmp_datas['tax_status'] == 'b'])
  11. # 有效数
  12. valid_count = len(tmp_datas[tmp_datas['tax_status'] == 'a'])
  13. # 发票作废率
  14. count1 = (cacel_count / (cacel_count + valid_count))*100
  15. # 负数发票数
  16. neg_count = len(tmp_datas[tmp_datas['cost'] < 0])
  17. # 负数发票率
  18. count2 = (neg_count / valid_count) * 100
  19. # 转换时间
  20. tmp_datas['date'] = [x.strftime('%Y/%m/%d') for x in tmp_datas['date']]
  21. # 时间最大值
  22. max_time = tmp_datas.iloc[0:,1].max()
  23. # 时间最小值
  24. min_time = tmp_datas.iloc[0:,1].min()
  25. # 时间差
  26. diff_time = months(max_time, min_time) + 1
  27. # 有效票
  28. valid_tax = tmp_datas[tmp_datas['tax_status'] == 'a']
  29. # 平均月交易额
  30. avg_money = valid_tax['totle_cost'].sum() / diff_time
  31. # 平均每月交易次数
  32. trans_count = len(tmp_datas) / diff_time
  33. insert_datas += [count1, count2, avg_money, trans_count,]
  34. if flag:
  35. df1.loc[len(df1)] = insert_datas
  36. df1.to_excel(writer1,sheet_name='进项信息',index=False)
  37. else:
  38. merge_time = tmp_datas.groupby(tmp_datas['date']).sum()
  39. # 销售收入增长率
  40. income_info= list((merge_time['cost'] - merge_time['cost'].shift(1)).fillna(1))
  41. diff_time_day = days(max_time,min_time)
  42. income_tax = (sum(income_info) / diff_time_day)*100
  43. insert_datas.append(income_tax)
  44. df2.loc[len(df2)] = insert_datas
  45. df2.to_excel(writer1,sheet_name='销项信息',index=False)
  46. insert_datas = []
  47. flag = False

并将是否违约插入到最后一列

  1. # 提取是否违约的列表
  2. m = []
  3. for name in code_list:
  4. m.append(datas[datas['code']==name]['break_contract'].tolist()[0])
  5. df1.loc[:,len(df1)] = m
  6. df1.to_excel(writer3,sheet_name='sheet1',index=False)

建立模型

Logistics违约率预测模型

使用Logistics违约预测模型,代入所有的指标数据为自变量,是否违约为因变量,预测出违约率。

  1. X=datas[['进项发票作废率','进项负数发票率','进项每月平均交易额','进项每月交易次数','销项发票作废率','销项负数发票率','销项每月平均交易额','销项每月交易次数','销售收入增长率']]
  2. y=datas['是否违约']
  3. X_train, X_test, y_train, y_test = train_test_split(X,y, test_size=0.2,random_state=2020)
  4. X_validation, X_test, y_validation, y_test = train_test_split(X_test,y_test, test_size=0.1,random_state=2020)
  5. model = LogisticRegression()
  6. model.fit(X_train,y_train)
  7. a=model.predict_proba(X_validation)
  8. result=[]
  9. for i in range(len(a)):
  10. if a[i][1]>0.5:
  11. result.append(1)
  12. else:
  13. result.append(0)
  14. from sklearn import metrics
  15. print('误差: %.4f' % (1-metrics.recall_score(y_validation,result,average='weighted')))

最终得到一张我们的分析表格

通过预测是否违约,我们就能解决贷不贷款的问题。

贷款金额

贷款金额的确认,根据该公司不违约率在所有公司中的权重,乘以总贷款金额确认:

ri=1Zij=1123(1Zi)×M

因此,我们得到的贷款金额是违约率和贷款总金额组成的关系式,这在第二问中能起到重要作用。

贷款年利率

绘制出年利率与客户流失率图,可以分析出两者应该是有关系的。利用SPSS拟合出不同信誉等级,年利率与客户流失率的关系式。

信誉等级R平方关系式
A0.9977y = 37.97x^3-258.57x^2+640.944*x -1.121
B0.9982y = 33.995x^3-225.051x^2+552.829*x-1.017
C0.9982y = 32.157x^3-207.386x^2+504.717*x-0.973

银行获利=贷款金额x贷款年利率x(1-利率对于信誉评级客户流失率)

在贷款金额确认,贷款年利率范围在0.4~1.5的情况下,利用上面拟合的关系式,我们能够暴力跑出最优年利率。

  1. double turnover_rate(double x, char ch) {
  2. double y = 0, result = 0;
  3. switch (ch) {
  4. case 'A':
  5. y = 37.969520 * pow(x, 3) - 258.570452 * pow(x, 2) + 640.944427 * x - 1.121484;
  6. result = x * (1 - y / 100.0);
  7. break;
  8. case 'B':
  9. y = 33.994698 * pow(x, 3) - 225.050538 * pow(x, 2) + 552.829151 * x - 1.016503;
  10. result = x * (1 - y / 100.0);
  11. break;
  12. case 'C':
  13. y = 32.156864 * pow(x, 3) - 207.385880 * pow(x, 2) + 504.716993 * x - 0.973497;
  14. result = x * (1 - y / 100.0);
  15. break;
  16. default:
  17. cout << "输出有误!" << ch << endl;
  18. }
  19. return result;
  20. }

问题二

  1. 利用代码,重新计算出各指标数据
  2. 代入Logistics违约率预测模型,预测出各公司的违约率
  3. 根据标准普尔评级建立,主标尺,对不同违约率进行A~D等级划分,信誉等级D不予贷款
  4. 将违约率代入,之前得到的公式,得到具体贷款金额
  5. 最优年利率沿用上一问
  1. # 信用等级
  2. cs = []
  3. # 最优年利率,客户流失率,利率值
  4. tax = []
  5. for i in m:
  6. if i <= 0.0069264:
  7. cs.append('A')
  8. tax.append([0.083,0.503173,0.0412366])
  9. elif i > 0.0069264 and i <= 0.22619:
  10. cs.append('B')
  11. tax.append([0.097,0.505215,0.0479942])
  12. elif i > 0.22619 and i <= 0.509915:
  13. cs.append('C')
  14. tax.append([0.1069,0.506501,0.052755])
  15. elif i > 0.509915:
  16. cs.append('D')
  17. tax.append([0.15,0,0])
  18. else:
  19. print('违规')
  20. parr = []
  21. for arr in list(a):
  22. parr.append(list(arr)[0])
  23. sum_val = sum(parr)
  24. amount = []
  25. for ival in parr:
  26. tmp = ival / sum_val * 100000000
  27. if ival < 1 - 0.509915:
  28. amount.append(0)
  29. else:
  30. amount.append(tmp)

可以看到,贷款金额也都在10w~100w之内。

问题三

这一问,我们做得有些匆忙了,有其他想法的可以按照自己的想法做做,这里只拿我们的做参照。

疫情对公司影响最大的就是每月平均销售额每月平均销售数量,因此,

  1. 每月平均销售额每月平均销售数量,分别取随机数,数量取10w组,其他指标数据值不变,是否违约数据根据第二问结果,设为初始值
  2. 代入Logistics模型中,预测出每一组的违约率
  3. 判断每个公司违约率的变化情况,根据变化情况来增/减贷款金额和年利率。
  1. rand_num = pro_rand()
  2. data_form = {'E377':[], 'E311':[], 'E297':[], 'E386':[], 'E233':[], 'E367':[], 'E194':[], 'E196':[], 'E249':[], 'E205':[], 'E159':[], 'E300':[], 'E346':[], 'E395':[], 'E360':[], 'E200':[], 'E195':[], 'E247':[], 'E317':[], 'E303':[], 'E135':[], 'E217':[], 'E298':[], 'E325':[], 'E335':[], 'E157':[], 'E287':[], 'E270':[], 'E286':[], 'E212':[], 'E261':[], 'E423':[], 'E390':[], 'E189':[], 'E129':[], 'E366':[], 'E191':[], 'E246':[], 'E406':[], 'E357':[], 'E349':[], 'E387':[], 'E372':[], 'E385':[], 'E209':[], 'E267':[], 'E414':[], 'E316':[], 'E341':[], 'E281':[], 'E206':[], 'E363':[], 'E166':[], 'E190':[], 'E140':[], 'E130':[], 'E225':[], 'E347':[], 'E356':[], 'E185':[], 'E192':[], 'E207':[], 'E234':[], 'E136':[], 'E379':[], 'E274':[], 'E383':[], 'E242':[], 'E361':[], 'E408':[], 'E198':[], 'E204':[], 'E413':[], 'E389':[], 'E253':[], 'E226':[], 'E231':[], 'E182':[], 'E318':[], 'E392':[], 'E275':[], 'E425':[], 'E388':[], 'E305':[], 'E155':[], 'E348':[], 'E400':[], 'E256':[], 'E351':[], 'E201':[], 'E345':[], 'E278':[], 'E306':[], 'E308':[], 'E215':[], 'E382':[], 'E407':[], 'E376':[], 'E291':[], 'E369':[], 'E139':[], 'E296':[], 'E260':[], 'E145':[], 'E257':[], 'E216':[], 'E125':[], 'E312':[], 'E354':[], 'E380':[], 'E326':[], 'E268':[], 'E186':[], 'E179':[], 'E223':[], 'E319':[], 'E422':[], 'E224':[], 'E151':[], 'E293':[], 'E302':[], 'E309':[], 'E378':[], 'E373':[], 'E364':[], 'E144':[], 'E162':[], 'E208':[], 'E399':[], 'E355':[], 'E197':[], 'E375':[], 'E368':[], 'E334':[], 'E172':[], 'E254':[], 'E352':[], 'E230':[], 'E313':[], 'E255':[], 'E273':[], 'E220':[], 'E169':[], 'E126':[], 'E237':[], 'E153':[], 'E164':[], 'E344':[], 'E284':[], 'E320':[], 'E328':[], 'E143':[], 'E338':[], 'E290':[], 'E251':[], 'E314':[], 'E330':[], 'E424':[], 'E183':[], 'E248':[], 'E181':[], 'E271':[], 'E403':[], 'E359':[], 'E324':[], 'E304':[], 'E213':[], 'E412':[], 'E337':[], 'E235':[], 'E371':[], 'E283':[], 'E391':[], 'E370':[], 'E173':[], 'E158':[], 'E171':[], 'E299':[], 'E310':[], 'E174':[], 'E295':[], 'E402':[], 'E419':[], 'E327':[], 'E294':[], 'E339':[], 'E203':[], 'E285':[], 'E410':[], 'E241':[], 'E152':[], 'E228':[], 'E245':[], 'E263':[], 'E404':[], 'E160':[], 'E292':[], 'E397':[], 'E329':[], 'E163':[], 'E301':[], 'E365':[], 'E178':[], 'E288':[], 'E175':[], 'E211':[], 'E252':[], 'E276':[], 'E156':[], 'E232':[], 'E321':[], 'E128':[], 'E150':[], 'E148':[], 'E161':[], 'E222':[], 'E142':[], 'E134':[], 'E238':[], 'E396':[], 'E239':[], 'E227':[], 'E147':[], 'E188':[], 'E243':[], 'E401':[], 'E362':[], 'E418':[], 'E272':[], 'E333':[], 'E405':[], 'E416':[], 'E358':[], 'E202':[], 'E259':[], 'E180':[], 'E409':[], 'E244':[], 'E394':[], 'E282':[], 'E210':[], 'E124':[], 'E398':[], 'E374':[], 'E277':[], 'E265':[], 'E421':[], 'E342':[], 'E322':[], 'E165':[], 'E340':[], 'E381':[], 'E331':[], 'E280':[], 'E393':[], 'E353':[], 'E221':[], 'E219':[], 'E323':[], 'E336':[], 'E199':[], 'E170':[], 'E137':[], 'E168':[], 'E350':[], 'E141':[], 'E214':[], 'E177':[], 'E250':[], 'E269':[], 'E167':[], 'E307':[], 'E420':[], 'E411':[], 'E262':[], 'E176':[], 'E218':[], 'E229':[], 'E315':[], 'E264':[], 'E127':[], 'E132':[], 'E154':[], 'E133':[], 'E332':[], 'E138':[], 'E258':[], 'E266':[], 'E236':[], 'E415':[], 'E146':[], 'E193':[], 'E187':[], 'E384':[], 'E417':[], 'E289':[], 'E279':[], 'E131':[], 'E184':[], 'E240':[], 'E149':[], 'E343':[]}
  3. df = DataFrame(data_form)
  4. for val in rand_num:
  5. a = rate_func(val)
  6. rate_list = get_rate(a)
  7. df.loc[len(df)] = rate_list
  8. df.to_excel(writer,sheet_name='违约率变化',index=False)

销售数量和销售金额的随机数范围是:0~MAX

最后

代码文件:文件分享

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/361736?site
推荐阅读
相关标签
  

闽ICP备14008679号