当前位置:   article > 正文

2020年美赛C题思路详解_2020美赛c

2020美赛c

代码已经放在github上,本人水平有限

这是上一篇翻译的文章

题目分析以及思路

a题

Identify data measures based on ratings and reviews that are most informative for Sunshine Company to track, once their three products are placed on sale in the online marketplace.

题目中明确说明了1.基于ratings和reviews。2.在上线售卖后的影响

  1. 那么应该怎么做呢。首先是确定相关性。分析数据我们可以知道,给的数据中review_body无疑是最重要的review。它和star_rating的关系是挖掘中的基础。你如果模型建立出来这两个没有极强的正相关肯定说明你模型搭错了。
  2. customer_id和total_votes是这个题可以扩展的点

工具推荐

有很多小伙伴私信我说没有做这方面的经验而且小组里面的代码手不熟悉nlp
我给大家提供一些集成的nlp分析工具使用

企业级别的(中文英文都有):

  1. bonos
  2. 腾讯
  3. google

实验室级别的(中英)

  1. 斯坦福
  2. AY
  3. 清华

自己写的一个京东分词的
给个star可以吗
说明:自己写的使用的jd爬虫的数据,换成本次大赛数据即可

b题

在每个数据集中识别并讨论基于时间的度量和模式,这些度量和模式可能表明产品在在线市场中的声誉在上升或下降。

题目中明确说了基于时间,那么时间这个变量应该怎么处理呢

常见的时间建模方法:

  1. 按照时间的顺序把随机事件变化发展的过程记录下来就构成了一个时间序列。对时间序列进行观察、研究,找寻它变化发展的规律,预测它将来的走势就是时间序列分析
    AR( p )模型

  2. ARMA(p,q)模型
    ARMA模型的全称是自回归移动平均(auto regression moving average)模型,它是目前最常用的拟合平稳序列的模型,它又可细分为AR模型(auto regression model)、MA模型(moving average model)和ARMA模型(auto regression moving average model)三大类。

    可通过spss实现这里链接

  3. lstm模型

  4. rnn模型

c题

这个题要求我们找到度量的组合,核心就是怎么说明找到的组合是合理的

附送一些论文链接
Determinants of online merchant rating: Content analysis of consumer comments about Yahoo merchants

Personalizing Yelp Star Ratings: a Semantic Topic
Modeling Approach

写了个脚本py处理数据,可自取

这里是脚本链接,麻烦star一下

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/花生_TL007/article/detail/141234
推荐阅读
相关标签
  

闽ICP备14008679号