当前位置:   article > 正文

NLP之词频作向量_词向量和词频向量哪个更好

词向量和词频向量哪个更好
  1. def cutword():
  2. con1 = jieba.cut("今天很残酷,明天更残酷,后天很美好,但绝对大部分是死在明天晚上,所以每个人不要放弃今天。")
  3. con2 = jieba.cut("我们看到的从很远星系来的光是在几百万年之前发出的,这样当我们看到宇宙时,我们是在看它的过去。")
  4. con3 = jieba.cut("如果只用一种方式了解某样事物,你就不会真正了解它。了解事物真正含义的秘密取决于如何将其与我们所了解的事物相联系。")
  5. c1 = " ".join(con1)
  6. c2 = " ".join(con2)
  7. c3 = " ".join(con3)
  8. return c1, c2, c3
  9. def hanzivec():
  10. """
  11. 中文特征值化
  12. :return:None
  13. """
  14. c1, c2, c3 = cutword()
  15. print("c1类型:",type(c1))
  16. print("c1:",c1)
  17. print("c2:",c2)
  18. print("c3:",c3)
  19. cv = CountVectorizer()
  20. data = cv.fit_transform([c1,c2,c3])
  21. print("----")
  22. print(cv.get_feature_names())
  23. print("----")
  24. print(data.toarray())
  25. return None
  26. hanzivec()
  27. 结果:
  28. c1类型: <class 'str'>
  29. c1:
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/你好赵伟/article/detail/983828
推荐阅读
相关标签
  

闽ICP备14008679号