赞
踩
上回讲到了Jieba和Gensim这两个算法库,都是可以很方便的处理中文文本内容;
今天我们来说道说道SnowNLP这个库
SnowNLP是一个python写的类库,可以方便的处理中文文本内容。
SnowNLP的技术框架参考了英语自然语言处理工具库TextBlob,不过SnowNLP不引用NLTK库,所有的算法都是isnowfy大神实现的。
中文分词是将一段话分解成若干词语,这并不是一件很容易的事。
例如,在句子“湖南省会是长沙”中,“湖南省会”部分由“湖南”和“省会”两个词语组成,而在“湖南省会不断发展”中,“湖南省会”部分由“湖南省”和“会”组成。
snownlp库能达到较好的分词效果,如下示例:
from snownlp import SnowNLP
s1 = SnowNLP('湖南省会是长沙')
print(s1.words) # ['湖南', '省会', '是', '长沙']
s2 = SnowNLP('湖南省会不断发展')
print(s2.words) # ['湖南省', '会', '不断', '发展']
输出:
[‘湖南’, ‘省会’, ‘是’, ‘长沙’]
[‘湖南省’, ‘会’, ‘不断’, ‘发展’]
snownlp还可以为每个字标注拼音,示例:
from snownlp import SnowNLP
s = SnowNLP('湖南省会是长沙')
print(s.pinyin)
输出:
[‘hu’, ‘nan’, ‘sheng’, ‘hui’, ‘shi’, ‘chang’, ‘sha’]
snownlp可以提取文本中的关键字以及选择一句话作为文本的摘要,示例:
from snownlp import SnowNLP
text = '国防科技大学是高素质新型军事人才培养和国防科技自主创新高地。'
'要紧跟世界军事科技发展潮流,适应打赢信息化局部战争要求,'
'抓好通用专业人才和联合作战保障人才培养,加强核心关键技术攻关,'
'努力建设世界一流高等教育院校。'
s = SnowNLP(text)
print(s.keywords(3))
print(s.summary(1))
输出:
[‘科技’, ‘人才’, ‘军事’]
[‘国防科技大学是高素质新型军事人才培养和国防科技自主创新高地’]
snownlp还能对中文文本进行情感分析。
情感分析的结果是一个0~1之间的数字,数字越大表示这句话越偏向于肯定的态度,数字越小表示越偏向于否定的态度。
from snownlp import SnowNLP
s1 = SnowNLP('不错不错,楼主真棒')
s2 = SnowNLP('不知道你到底想说什么')
print(s1.sentiments)
print(s2.sentiments)
输出:
0.9719003655581226
0.2321400466499438
提取HTML文件中的所有回复,分析帖子的好评度。
测试文件:
<!DOCTYPE html>
<html lang="en">
<body id="activity-detail" class="zh_CN mm_appmsg">
<p class="top">评论区域:</p>
<div class="text">
<a target="_blank">用户1</a>:赞!
</div>
<div class="text">
<a target="_blank">用户2</a>:不错不错,楼主真棒!
</div>
<div class="text">
<a target="_blank">用户3</a>:还可以。
</div>
<div class="text">
<a target="_blank">用户4</a>:楼主加油。
</div>
<div class="text">
<a target="_blank">用户5</a>:向楼主学习。
</div>
<div class="text">
<a target="_blank">用户6</a>:感谢楼主。
</div>
<div class="text">
<a target="_blank">用户7</a>:这个帖子真心很赞,推荐大家都看看。
</div>
<div class="text">
<a target="_blank">用户8</a>:受益颇多。
</div>
<div class="text">
<a target="_blank">用户9</a>:赞赞赞赞赞赞赞赞。
</div>
</body>
</html>
import re
from pyquery import PyQuery
from snownlp import SnowNLP
def evaluate(path):
html = open(path,'r',encoding="utf-8")
score, count = 0, 0
# 任务:提取HTML文件中的所有回复,分析帖子的好评度。
code = html.read()
pq = PyQuery(code)
tag = pq('div.text')
taga = pq('a')
words = ""
for word in tag.text():
if word not in taga.text():
words += word
txtlist = words.split(':')
txtlist.pop(0)
for txt in txtlist:
count += 1
s = SnowNLP(txt)
score += s.sentiments
return int(score*100/count)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。