当前位置:   article > 正文

2024年[NLP]如何进行情感分析,赶紧学起来_基于nlp的情感分析

基于nlp的情感分析

面试复习路线,梳理知识,提升储备

自己的知识准备得怎么样,这直接决定了你能否顺利通过一面和二面,所以在面试前来一个知识梳理,看需不需要提升自己的知识储备是很有必要的。

关于知识梳理,这里再分享一下我面试这段时间的复习路线:(以下体系的复习资料是我从各路大佬收集整理好的)

  • 架构师筑基必备技能
  • Android高级UI与FrameWork源码
  • 360°全方面性能调优
  • 解读开源框架设计思想
  • NDK模块开发
  • 微信小程序
  • Hybrid 开发与Flutter

知识梳理完之后,就需要进行查漏补缺,所以针对这些知识点,我手头上也准备了不少的电子书和笔记,这些笔记将各个知识点进行了完美的总结:

Android开发七大模块核心知识笔记

《960全网最全Android开发笔记》

《379页Android开发面试宝典》

历时半年,我们整理了这份市面上最全面的安卓面试题解析大全
包含了腾讯、百度、小米、阿里、乐视、美团、58、猎豹、360、新浪、搜狐等一线互联网公司面试被问到的题目。熟悉本文中列出的知识点会大大增加通过前两轮技术面试的几率。

如何使用它?

1.可以通过目录索引直接翻看需要的知识点,查漏补缺。
2.五角星数表示面试问到的频率,代表重要推荐指数

《507页Android开发相关源码解析》

只要是程序员,不管是Java还是Android,如果不去阅读源码,只看API文档,那就只是停留于皮毛,这对我们知识体系的建立和完备以及实战技术的提升都是不利的。

真正最能锻炼能力的便是直接去阅读源码,不仅限于阅读各大系统源码,还包括各种优秀的开源库。

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

但是在自然语言处理中是如何进行判断的呢?下面就对基本的情感分析方法进行介绍。

1.准备


1.1 种子词库

在真正开始前,首先想想人看到一句话是如何思考的。

比如:今天天气不错。对于今天和天气来说,只是具体的对话对象,表明讨论的是今天的天气;而真正起作用的是‘不错’,表明今天的天气令人很舒畅,或者心情变好。因为才会得出‘今天天气不错’是正面的评价。

这里我们不关心具体的评价对象,但是可以很清楚看出某些词对于情感倾向识别是起关键作用的。那么我们是否可以建立一个标准情感词库作为情感分析的种子词库呢?答案是肯定的。

情感倾向的种子词库建立是通过分析语料库,首先对语料库去除停用词,然后对与其中的词进行分类,分别为:正面、负面、中性。比如:


正面:不错、很好、很棒、伟大

负面:不好、很坏、讨厌、无用

中性:手机、地球、一般、还行



  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9

1.2 文档频率和文档共现频率

文档频率是指某一个词在文档中出现的次数,用 p(w) p(w)表示。

文档共现频率是指在同一个文档中共同出现的词的出现次数,用 p(w1,w2) p(w_1,w_2)表示。

假设我们有很多商品评价或者微博比如下面的形式:


1.xxxxxxxx

2.xxxxxxx

3.xxxx

4.xxxxxx



  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11

那么如何统计 p(w) p(w)和 p(w1,w2) p(w_1,w_2)的呢?

p(w) p(w)通过 (词出现的文档数)/(总文档数) (词出现的文档数)/(总文档数)计算得到。

p(w1,w2) p(w_1,w_2)通过 (w1,w2共同出现的文档数)/(总文档数) (w_1,w_2共同出现的文档数)/(总文档数)计算得到。

1.3 PMI

PMI(Pointwise Mutual Information),中文称为互信息,描述的是两个事件在概率分布上的近似度量。计算公式如下:

pmi(w1,w2)=log(p(w1,w2)p(w1)∗p(w2))

pmi(w_1,w_2)=log(\frac{p(w_1,w_2)}{p(w_1)*p(w_2)})

如果 w1 w_1和 w2 w_2分布是相互独立的,那么 p(w1,w2)=p(w1)∗p(w2) p(w_1,w_2)=p(w_1)*p(w_2), pmi(w1,w2)=log1=0 pmi(w_1,w_2)=log1=0。

相反,如果 w1 w_1和 w2 w_2的分布不是相互独立的,那么 p(w1,w2)>p(w1)∗p(w2) p(w_1,w_2)>p(w_1)*p(w_2),并且相关性越强pmi的值越大,说明 w1 w_1和 w2 w_2共现携带的讯息越多。这个也很好理解,比如美国和川普是经常一起出现的,因为美国的总统是川普。相反,川普和我的名字大概率是不会共现的,因为我两根本没啥关系。

1.4 情感分析

我们给每一个句子都给出一个得分score,得分通过 ∑(待测短语的正面情感词的PMI)−∑(待测短语的负面情感词PMI) \sum(待测短语的正面情感词的PMI)-\sum(待测短语的负面情感词PMI)得到。

对于socre:


score>0表示正面情感



score=0表示中性情感



socre<0表示负面情感

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11

最后

以前一直是自己在网上东平西凑的找,找到的东西也是零零散散,很多时候都是看着看着就没了,时间浪费了,问题却还没得到解决,很让人抓狂。

后面我就自己整理了一套资料,还别说,真香!

资料有条理,有系统,还很全面,我不方便直接放出来,大家可以先看看有没有用得到的地方吧。

系列教程图片

2020Android复习资料汇总.png

flutter

NDK

设计思想开源框架

微信小程序

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

再深入研究,那么很难做到真正的技术提升。**

需要这份系统化学习资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/804825
推荐阅读
相关标签
  

闽ICP备14008679号