当前位置:   article > 正文

情感分析——深入snownlp原理和实践,2024年最新字节跳动Golang研发岗这些知识点内部泄露出来了_阿里云 百度 snownlp 情感分析

阿里云 百度 snownlp 情感分析

注意:若是想要利用新训练的模型进行情感分析,需要修改代码中的调用模型的位置。

data_path = os.path.join(os.path.dirname(os.path.abspath(file)),‘sentiment.marshal’)

三、snownlp情感分析的源码解析

snownlp中支持情感分析的模块在sentiment文件夹中,其核心代码为__init__.py

如下是Sentiment类的代码:

class Sentiment(object):

def __init__(self):
self.classifier = Bayes() # 使用的是Bayes的模型

def save(self, fname, iszip=True):
self.classifier.save(fname, iszip) # 保存最终的模型

def load(self, fname=data_path, iszip=True):
self.classifier.load(fname, iszip) # 加载贝叶斯模型

分词以及去停用词的操作

def handle(self, doc):
words = seg.seg(doc) # 分词
words = normal.filter_stop(words) # 去停用词
return words # 返回分词后的结果

def train(self, neg_docs, pos_docs):
data = []

读入负样本

for sent in neg_docs:
data.append([self.handle(sent), ‘neg’])

读入正样本

for sent in pos_docs:
data.append([self.handle(sent), ‘pos’])

调用的是Bayes模型的训练方法

self.classifier.train(data)

def classify(self, sent):

1、调用sentiment类中的handle方法

2、调用Bayes类中的classify方法

ret, prob = self.classifier.classify(self.handle(sent)) # 调用贝叶斯中的classify方法
if ret == ‘pos’:
return prob
return 1-probclass Sentiment(object):

def __init__(self):
self.classifier = Bayes() # 使用的是Bayes的模型

def save(self, fname, iszip=True):
self.classifier.save(fname, iszip) # 保存最终的模型

def load(self, fname=data_path, iszip=True):
self.classifier.load(fname, iszip) # 加载贝叶斯模型

分词以及去停用词的操作

def handle(self, doc):
words = seg.seg(doc) # 分词
words = normal.filter_stop(words) # 去停用词
return words # 返回分词后的结果

def train(self, neg_docs, pos_docs):
data = []

读入负样本

for sent in neg_docs:
data.append([self.handle(sent), ‘neg’])

读入正样本

for sent in pos_docs:
data.append([self.handle(sent), ‘pos’])

调用的是Bayes模型的训练方法

self.classifier.train(data)

def classify(self, sent):

1、调用sentiment类中的handle方法

2、调用Bayes类中的classify方法

ret, prob = self.classifier.classify(self.handle(sent)) # 调用贝叶斯中的classify方法
if ret == ‘pos’:
return prob
return 1-prob

从上述的代码中,classify函数和train函数是两个核心的函数,其中,train函数用于训练一个情感分类器,classify函数用于预测。在这两个函数中,都同时使用到的handle函数,handle函数的主要工作为:

  1. 对输入文本分词
  2. 去停用词

情感分类的基本模型是贝叶斯模型Bayes,对于贝叶斯模型,可以参见文章简单易学的机器学习算法——朴素贝叶斯。对于有两个类别
c1

c

1

c_1和
c2

c

2

c_2的分类问题来说,其特征为
w1,⋯,wn

w

1

,

,

w

n

w_1,\cdots ,w_n,特征之间是相互独立的,属于类别
c1

c

1

c_1的贝叶斯模型的基本过程为:

P(c1∣w1,⋯,wn)=P(w1,⋯,wn∣c1)⋅P(c1)P(w1,⋯,wn)

P

(

c

1

w

1

,

,

w

n

)

=

P

(

w

1

,

,

w

n

c

1

)

P

(

c

1

)

P

(

w

1

,

,

w

n

)

P\left ( c_1\mid w_1,\cdots ,w_n \right )=\frac{P\left ( w_1,\cdots , w_n\mid c_1 \right )\cdot P(c_1)}{P\left ( w_1,\cdots ,w_n \right )}

其中:

P(w1,⋯,wn)=P(w1,⋯,wn∣c1)⋅P(c1)+P(w1,⋯,wn∣c2)⋅P(c2)

P

(

w

1

,

,

w

n

)

=

P

(

w

1

,

,

w

n

c

1

)

P

(

c

1

)

P

(

w

1

,

,

w

n

c

2

)

P

(

c

2

)

P\left ( w_1,\cdots ,w_n \right )=P\left ( w_1,\cdots ,w_n\mid c_1 \right )\cdot P\left ( c_1 \right )+P\left ( w_1,\cdots ,w_n\mid c_2\right )\cdot P\left ( c_2\right )

3.1、贝叶斯模型的训练

贝叶斯模型的训练过程实质上是在统计每一个特征出现的频次,其核心代码如下:

def train(self, data):

data 中既包含正样本,也包含负样本

for d in data: # data中是list

d[0]:分词的结果,list

d[1]:正/负样本的标记

c = d[1]
if c not in self.d:
self.d[c] = AddOneProb() # 类的初始化
for word in d[0]: # 分词结果中的每一个词
self.d[c].add(word, 1)

返回的是正类和负类之和

self.total = sum(map(lambda x: self.d[x].getsum(), self.d.keys())) # 取得所有的d中的sum之和

这使用到了AddOneProb类,AddOneProb类如下所示:

class AddOneProb(BaseProb):

def __init__(self):
self.d = {}
self.total = 0.0
self.none = 1 # 默认所有的none为1

这里如果value也等于1,则当key不存在时,累加的是2

def add(self, key, value):
self.total += value

不存在该key时,需新建key

if not self.exists(key):
self.d[key] = 1
self.total += 1
self.d[key] += value

注意:

  1. none的默认值为1
  2. 当key不存在时,total和对应的d[key]累加的是1+value,这在后面预测时需要用到

AddOneProb类中的total表示的是正类或者负类中的所有值;train函数中的total表示的是正负类的total之和。

当统计好了训练样本中的total和每一个特征key的d[key]后,训练过程就构建完成了。

3.2、贝叶斯模型的预测

预测的过程使用到了上述的公式,即:

P(c1∣w1,⋯,wn)=P(w1,⋯,wn∣c1)⋅P(c1)P(w1,⋯,wn∣c1)⋅P(c1)+P(w1,⋯,wn∣c2)⋅P(c2)

P

(

c

1

w

1

,

,

w

n

)

=

P

(

w

1

,

,

w

n

c

1

)

P

(

c

1

)

P

(

w

1

,

,

w

n

c

1

)

P

(

c

1

)

P

(

w

1

,

,

w

n

c

2

)

P

(

c

2

)

P\left ( c_1\mid w_1,\cdots ,w_n \right )=\frac{P\left ( w_1,\cdots , w_n\mid c_1 \right )\cdot P(c_1)}{P\left ( w_1,\cdots ,w_n\mid c_1 \right )\cdot P\left ( c_1 \right )+P\left ( w_1,\cdots ,w_n\mid c_2\right )\cdot P\left ( c_2\right )}

对上述的公式简化:

P(c1∣w1,⋯,wn)=P(w1,⋯,wn∣c1)⋅P(c1)P(w1,⋯,wn∣c1)⋅P(c1)+P(w1,⋯,wn∣c2)⋅P(c2)=11+P(w1,⋯,wn∣c2)⋅P(c2)P(w1,⋯,wn∣c1)⋅P(c1)=11+exp[log(P(w1,⋯,wn∣c2)⋅P(c2)P(w1,⋯,wn∣c1)⋅P(c1))]=11+exp[log(P(w1,⋯,wn∣c2)⋅P(c2))−log(P(w1,⋯,wn∣c1)⋅P(c1))]

P

(

c

1

w

1

,

,

w

n

)

=

P

(

w

1

,

,

w

n

c

1

)

P

(

c

1

)

P

(

w

1

,

,

w

n

c

1

)

P

(

c

1

)

P

(

w

1

,

,

w

n

c

2

)

P

(

c

2

)

=

1

1

P

(

w

1

,

,

w

n

c

2

)

P

(

c

2

)

P

(

w

1

,

,

w

n

c

1

)

P

(

c

1

)

=

1

1

e

x

p

[

l

o

g

自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。

深知大多数Go语言工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024年Go语言全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。
img
img
img
img
img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上Golang知识点,真正体系化!

由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新

如果你觉得这些内容对你有帮助,可以添加V获取:vip1024b (备注Go)
img

一个人可以走的很快,但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎扫码加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

2

)

P

(

c

2

)

=

1

1

P

(

w

1

,

,

w

n

c

2

)

P

(

c

2

)

P

(

w

1

,

,

w

n

c

1

)

P

(

c

1

)

=

1

1

e

x

p

[

l

o

g

自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。

深知大多数Go语言工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024年Go语言全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。
[外链图片转存中…(img-MNCQVYzV-1713031625514)]
[外链图片转存中…(img-mFXLDvKN-1713031625515)]
[外链图片转存中…(img-llX7KJVn-1713031625516)]
[外链图片转存中…(img-iN0MPVxE-1713031625517)]
[外链图片转存中…(img-mBBp5Hsh-1713031625517)]

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上Golang知识点,真正体系化!

由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新

如果你觉得这些内容对你有帮助,可以添加V获取:vip1024b (备注Go)
[外链图片转存中…(img-OQb8oHHc-1713031625518)]

一个人可以走的很快,但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎扫码加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/花生_TL007/article/detail/627333
推荐阅读
相关标签
  

闽ICP备14008679号