当前位置:   article > 正文

2020年美赛C题(数据分析题)O奖论文笔记 (1)_text based measure

text based measure

2021/01/30 upd:2020年美赛C题(数据分析题)O奖论文笔记 (2) 已经上传,可戳这里查看!

这是我的第1篇论文笔记,如有哪里不好还请见谅并批评指正,之后会不断改进!首先复现一下题目:
在这里插入图片描述
读了第一段,我们感觉这应该是一道挺接地气的题目。你想知道想淘宝、京东这些购物巨商是怎么从用户点赞、评论的数据中调整战略的吗?接着往下看。
在这里插入图片描述
Sunshine公司要我们做的有两件大事:1)告诉他们销售策略;2)告知他们商品潜在的重要特性,好让商品变得更有营销力。
在这里插入图片描述
公司给我们提供了一些数据集。数据集有三个,代表三类不同产品,类似如下形式:
在这里插入图片描述
这些字段的含义如下:
在这里插入图片描述
接着介绍了本次题目的一些要求,我们一起来学习一下:
在这里插入图片描述
第1题是要我们数学建模,分析出star ratings,reviews,helpfulness ratings的内外关系。
在这里插入图片描述
2a:确定基于rating和review的评价衡量标准(给评价)
在这里插入图片描述
2b:确定基于时序的方法,评判一个产品的声誉是在上升还是下降
2c:确定基于文本和星级的方法,评判一个产品是成功还是失败的
在这里插入图片描述
2d:特定星级会引起更多的评论吗?
2e:特定评论的关键词,与星级有较大关联吗?
在这里插入图片描述
第3题是我们写一封建议信。
之后是一些要求和说明:
在这里插入图片描述

以上就是C题的要求,下面简单做一下其中一篇O奖论文的笔记。

在这里插入图片描述
标题直接告诉我们:探寻rating和review的秘密,直接量出论文分析处理的关键词。

论文Summary写作思路:

  • 1段:紧扣材料重述问题
  • 2段:概述问题1的解决思路
  • 3段:概述问题2的解决思路,先提出了建模分析之后的结论
  • 4段:说写了一封信给Sunshine公司
  • 5段:夸一下自己的模型

接下去是Introduction,和summary区别不大,只是加上了一些文章结构的描述。

The rest of the paper is organized as follows. In section 2, we list…

接着是假设和符号说明(Assumptions and Notations),下来逐个解决问题。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
此部分主要构建文本打分模型。
在这里插入图片描述
本部分介绍了CE模型和VADER模型的一些建模实现:

  • 筛选出种子词:
    在这里插入图片描述
    作者在此处将词语分成了5类,恰好对应五星级评价系统。
    在这里插入图片描述

  • CE块:
    这里用的应该是上下文本信息熵,反正就是各种秀,用上了各种机器学习的公式。处理完之后到一个五维向量,从左到右,向量的每个值依次代表强负,弱负,中性,弱正,强正的概率。

  • VADER块:
    vader是一种基于词库和语法规则来进行文本情感识别的方法,发表于2014年的AAAI会议, github上地址是Github地址,这里处理完之后也是得到一个五维的向量。
    在这里插入图片描述

  • CE和VADER的融合:
    上面得到两个五维向量的凸线性组合,得到一个文本的综合评价。

在这里插入图片描述
这一部分确定出基于文本和评价的解决方案。提出了评论重要性(IMP),星级度量VEC(Sid)和文本度量INT(Rid)的关系式子:
在这里插入图片描述
很复杂。。。

在这里插入图片描述
这里用了DTW相似性评估了一下模型的效果(鲁棒性)。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
商品名誉的变化可以通过下面公式进行计算:
在这里插入图片描述
同样还是挺复杂的,这篇文章的作者们似乎对公式理论的理解洞察深刻。

评价模型:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
时间序列预测使用AR模型
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
用朴素贝叶斯给不同类情感词打分
在这里插入图片描述
在这里插入图片描述
这里主要是根据数据分析的结果,提炼出商品受欢迎所具有的特征。

  • pacifier:size,appearance,convenience,safety
  • microwave:appearance,price,component
  • hair dryer:power,appearance,safety,working volume

在这里插入图片描述
这里根据建模结果提出一些销售战略建议:

  • 具有较多helpful votes的reviews应该得到重视
  • 维持五星级,这跟产品名誉紧密相关
  • 在这里插入图片描述

还有5~6条,这里就不一一列举了。
在这里插入图片描述
Strengths

  • 创新:首次提出使用CE-VADER模型来评价文本信息
  • 准确:使用文本信息打分和星级打分高度一致
  • 普适:换个数据集过来也可以分析
  • 鲁棒:参数鲁棒

Weaknesses

  • 注解关键词非常耗时
  • CE-VADER不能识别过去时动词、形容词比较级等
  • 分析特定评价时,没有将Amazon当时的营销战略考虑在内

在这里插入图片描述

  1. Information Evaluation Model can combine the text-based measure with the rating-based
    measure, where we propose a novel CE-VADER hybrid model for the sentiment analysis as the text-based measure.
  2. We employ the Difference Equation Model to construct a “reputation rate” to quantify the
    reputation of three products
  3. In analyzing the distribution of star ratings and specific words, we identified special review descriptors by employing a continuous extreme rating and a set of special words.

在这里插入图片描述
信件的细节就不细讲了。这里写的信件高中生也是可以看懂的,毕竟写给企业高管,不要太学术化:

  • 一段:说明一下工作成果
  • 二段:信息评价模型帮助您跟踪评价内容,并提出三种商品受欢迎的特征
  • 三段:根据商品声誉评测,断定三类商品未来的发展趋势
  • 四段:提出一些建设性意见(参考建模过程)
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/2023面试高手/article/detail/141225?site
推荐阅读
相关标签
  

闽ICP备14008679号