NLP--词袋模型

作者：你好赵伟 | 2024-06-08 17:14:03

踩

NLP--词袋模型

词袋模型如同所有单词打散放到一个袋子中，因此这种模型无法估计语义和语序问题，每个单词都是独立的。

1.文本分词：调用jieba库，使用精确模式对每个句子进行分词，并存入列表。

2.去除停用词：遍历停用词文件的每一行，删除字符串头和尾的空白字符（包括\n，\r，\t等），加到停用词集合里。然后遍历分词后列表的每一行，再遍历每一行的每一个单词，如果该单词不在停用词集合里，就把该单词放入新的行列表中，最后将所有行列表存入文本列表中。

3.建立文本词典：去除停用词，建立总词典，使用set函数将重复的词去掉并转化为列表。

4.建立词袋模型：for语句建立词袋模型，只包含0和1。

5.词袋模型局限性：维度灾难，向量中大量元素为0，没有考虑词与词之间的顺序和结构信息，存在语义鸿沟的问题。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/你好赵伟/article/detail/690506