当前位置:   article > 正文

python自然语言处理—中文分词技术_python 词素划分

python 词素划分

                                                     中文分词技术

 

一、中文分词简介

    1、什么是词?

        英文定义:单词本身就是 "词" 的表达,一篇英文文章就是 "单词" 加分隔符(空格)来表示的。

        中文定义:在汉语中,词以字为基本单位,但是一篇文章的语义表达却仍然是以词来划分的。

    2、中文分词

        在处理中文文本时,需要进行分词处理,将句子转化为词的表示。

        这个切词处理过程就是中文分词,它通过计算机自动识别出句子的词,在词间加入边界标记符,分隔出各个词汇。

    3、影响分词效果的因素

        分词歧义未登录词分词粒度粗细等。

        分词歧义示例:

            句子 “结婚的和尚未结婚的” 可以分词为 “结婚 /

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Cpp五条/article/detail/379644
推荐阅读
相关标签
  

闽ICP备14008679号