当前位置:   article > 正文

2019年用户流失分析(二)——Python实现_情感分析用词语集(beta版)

情感分析用词语集(beta版)

3.3 工单情况分析(舆情分析)

       13241个用户一年内的工单数为8480条,里面有用户投诉与报障的具体内容信息。我们可以对投诉与报障内容进行情感分析,利用LDA主题模型提取内容关键信息,了解用户的需求、意见,提出改善的建议。

       有价值的内容信息数据需要通过中文分词、停用词处理、语义歧义处理、情感打分、情感修正等等一系列的文本处理。(本次使用的情感词表是2007年10月22日知网发布“情感分析用词语集(beta版)”)

       首先绘制情感词云图如图5所示。其中故障,上门,来电,信号,催促,受理,投诉,重启,运行,异常等负面情感词出现的频数较高,可以看出情感分词分析能较好的将关键内容抽取出来。

5

       情感分词之后用潜在狄利克雷分配,即LDA生成模型进行主题分析。经过LDA主题分析后,每个主题下生成10个最有可能出现的词语以及相应的概率。表格1为文本中的潜在主题,主题1中的高频特征词主要关注点在故障、受理、异常、视频、播放、取消这几方面,视频播放异常、取消受理业务的问题;主题2中的高频特征词主要与上门、工作人员、电视这几方面,反映电视故障等问题;主题3中的高频特征词主要与业务受理有关,即主要反映业务处理进度存在问题。

表格 1

Topic 1

Topic 2

Topic 3

故障

故障

故障

客户

客户

受理

上门

催促

受理

受理

异常

CM

视频

来电

客户

播放

CM

来电

用户

工作人员

下线

信号

下线

机顶盒

取消

电视

上门

       综合以上对主题及其中的高频特征词分析得出,用户的投诉或报障主要是电视播放异常、宽带信号不好、机顶盒设备故障、售后服务慢、催促多(出现多次催促)等。当安装设备时,完整测试电视和宽带能够正常显示与使用,并且提醒用户注意事项,注重售后服务;当用户提出取消业务、停机等明显的流失倾向时,尽量挽留或者询问原因,便于后续优化。

4 、 用户流失模型分析

       在分析完各部分数据的情况后,可以构建用户特征指标为用户流失模型建立做准备。如表格2所示,对用户的基本数据、收视行为数据、账单数据、工单数据构建用户特征,得到13241个互动用户的6个特征指标数据。

表格 2

特征指标

构建方法

收视时长

计算每个用户的总收视时长

距最近一次收视时长

计算每个用户最近一次收视距当前时间的时长

在线天数

计算每个用户5个月内收视的天数

入网时长

计算每个用户入网至今的天数

办理活跃度

计算每个用户半年内的主动性行为办理业务和缴费次数(包括主动缴费与被动缴费)

投诉与故障次数

计算每个用户近1年内的报障和投诉次数

4.1 构建算法流失预测模型

       用户流失预测模型可通过聚类和分类两种方式来实现,比较常用的聚类算法有kmeans聚类,常用的分类预测算法有决策树、随机森林、支持向量机、神经网络和KNN算法,各个模型算法各有优点,故采用这6种方法构建用户流失预测模型。

(1)、kmeans聚类算法模型

        首先对用户根据特征指标进行聚类,将他们分为5个类别。然后结合业务对聚类结果进行分析,比较各个特征在不同类别之间的区别。如图6所示,可以看到这5个类别的用户在雷达图中区分度明显。

6

       各个用户群的特征评价分析具体结果如表格3所示。

表格 3

       将6维特征降为2维平面特征进行可视化,便于查看用户群体的分布情况。

 

Python用户流失系列文章一月一更!

 

文章未经博主同意,禁止转载!

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/AllinToyou/article/detail/545210
推荐阅读
相关标签
  

闽ICP备14008679号