赞
踩
在自然语言处理过程中,为了能更好地处理句子,往往需要把句子拆开分成一个一个的词语,这样能更好的分析句子的特性,这个过程叫就叫做分词。由于中文句子不像英文那样天然自带分隔,并且存在各种各样的词组,从而使中文分词具有一定的难度。
不过,中文分词并不追求完美,而是通过关键字识别技术,抽取句子中最关键的部分,从而达到理解句子的目的。
Jupyter Notebook是一个交互式的笔记本工具,重点有两点
- “交互式” 让你随时随时运行并暂存结果,
- “笔记本” 记录你的研究过程
想象一下,在这之前你是如何使用Python的?
有了JN之后,你可以:
jieba模块安装请参见官方说明
jieba 是一个python实现的中文分词组件,在中文分词界非常出名,支持简、繁体中文,高级用户还可以加入自定义词典以提高分词的准确率。
它支持三种分词模式
另外它还自带有关键词摘取算法。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。