当前位置:   article > 正文

NLP实战之–螺蛳粉评论情感分析和建模分类

评论情感分析

NLP实战之–螺蛳粉评论情感分析和建模分类

写在前面:

本文首发于我的微信公众号。新文章首发都会在微信公众号上。

自然语言处理(Natural Language Processing)是目前人工智能的大方向之一。上一篇文章提到的两大方向,计算机视觉(CV)和自然语言处理(NLP)。啥是自然语言?人们日常使用的语言就是自然语言呐,比如汉语,英语。那为啥要对自然语言做处理呢?当然是为了让计算机“智能化”啦。计算机可不认得什么英语、汉语的,你对着计算机喊一声,它肯定不理你。所以才要把自然语言处理成计算机认得的语言。

那什么样的语言,计算机才认得?答:二进制。因为计算机只能读取并且储存0和1。所以,自然语言处理(NLP),就是把咱们人类的语言(例如汉语、英语),处理成为计算机认得的语言。处理完之后能做啥?这就涉及到NLP的应用了,这个应用范围是在是太广范了。有文本分类、机器翻译、情感分析、问答系统、对话系统、知识图谱等等。

硬核实战:

为啥选择螺蛳粉评论做分析?因为最近的一个多月螺蛳粉吃得有点上头,每天都要吃一顿,不吃不舒服。干脆,索性整点好玩的,做一下这个螺蛳粉评论。

还记得,上一篇文章的机器学习流程,跟西红柿炒番茄,啊不,是西红柿炒鸡蛋流程一样的。

机器学习: 数据采集—>数据清洗—>特征工程—>数据建模。

西红柿炒鸡蛋:采集西红柿和鸡蛋—>清洗—>切西红柿、将蛋搅拌—>开炒

第一步,采集数据。

采集数据,最简单粗暴的办法,上百度找,去一些竞赛网搜,比如kaggle、和鲸社区、阿里天池。果不其然,真的有。

图片

点进去,一看,竟然才只有两千条数据。这也太少了吧…

那我再重新去淘宝复制一些(手动复制是不可能的,当然得用爬虫啊)。干脆选一样的店铺把,我就进去李子柒淘宝店铺里面找了个螺蛳粉的,往下拉,直接看到了总评数:200万条评论。这么多,我只要一万就肯定够用了!

很快,我终于知道为什么别人的那个数据集只有两千条了。因为淘宝只能展示最近的两千条评论。也就是说,你最多只能复制最新的2千条。

图片

好吧,新爬下来的两千加上下载的两千,总共4千条,勉强能用吧。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/2023面试高手/article/detail/691923
推荐阅读
相关标签
  

闽ICP备14008679号