赞
踩
2021/01/30 upd:2020年美赛C题(数据分析题)O奖论文笔记 (2) 已经上传,可戳这里查看!
这是我的第1篇论文笔记,如有哪里不好还请见谅并批评指正,之后会不断改进!首先复现一下题目:
读了第一段,我们感觉这应该是一道挺接地气的题目。你想知道想淘宝、京东这些购物巨商是怎么从用户点赞、评论的数据中调整战略的吗?接着往下看。
Sunshine公司要我们做的有两件大事:1)告诉他们销售策略;2)告知他们商品潜在的重要特性,好让商品变得更有营销力。
公司给我们提供了一些数据集。数据集有三个,代表三类不同产品,类似如下形式:
这些字段的含义如下:
接着介绍了本次题目的一些要求,我们一起来学习一下:
第1题是要我们数学建模,分析出star ratings,reviews,helpfulness ratings的内外关系。
2a:确定基于rating和review的评价衡量标准(给评价)
2b:确定基于时序的方法,评判一个产品的声誉是在上升还是下降
2c:确定基于文本和星级的方法,评判一个产品是成功还是失败的
2d:特定星级会引起更多的评论吗?
2e:特定评论的关键词,与星级有较大关联吗?
第3题是我们写一封建议信。
之后是一些要求和说明:
以上就是C题的要求,下面简单做一下其中一篇O奖论文的笔记。
标题直接告诉我们:探寻rating和review的秘密,直接量出论文分析处理的关键词。
论文Summary写作思路:
接下去是Introduction,和summary区别不大,只是加上了一些文章结构的描述。
The rest of the paper is organized as follows. In section 2, we list…
接着是假设和符号说明(Assumptions and Notations),下来逐个解决问题。
此部分主要构建文本打分模型。
本部分介绍了CE模型和VADER模型的一些建模实现:
筛选出种子词:
作者在此处将词语分成了5类,恰好对应五星级评价系统。
CE块:
这里用的应该是上下文本信息熵,反正就是各种秀,用上了各种机器学习的公式。处理完之后到一个五维向量,从左到右,向量的每个值依次代表强负,弱负,中性,弱正,强正的概率。
VADER块:
vader是一种基于词库和语法规则来进行文本情感识别的方法,发表于2014年的AAAI会议, github上地址是Github地址,这里处理完之后也是得到一个五维的向量。
CE和VADER的融合:
上面得到两个五维向量的凸线性组合,得到一个文本的综合评价。
这一部分确定出基于文本和评价的解决方案。提出了评论重要性(IMP),星级度量VEC(Sid)和文本度量INT(Rid)的关系式子:
很复杂。。。
这里用了DTW相似性评估了一下模型的效果(鲁棒性)。
商品名誉的变化可以通过下面公式进行计算:
同样还是挺复杂的,这篇文章的作者们似乎对公式理论的理解洞察深刻。
评价模型:
时间序列预测使用AR模型
用朴素贝叶斯给不同类情感词打分
这里主要是根据数据分析的结果,提炼出商品受欢迎所具有的特征。
这里根据建模结果提出一些销售战略建议:
还有5~6条,这里就不一一列举了。
Strengths
Weaknesses
- Information Evaluation Model can combine the text-based measure with the rating-based
measure, where we propose a novel CE-VADER hybrid model for the sentiment analysis as the text-based measure.- We employ the Difference Equation Model to construct a “reputation rate” to quantify the
reputation of three products- In analyzing the distribution of star ratings and specific words, we identified special review descriptors by employing a continuous extreme rating and a set of special words.
信件的细节就不细讲了。这里写的信件高中生也是可以看懂的,毕竟写给企业高管,不要太学术化:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。