赞
踩
NLP 项目使用文本,但机器学习算法不能使用文本,除非将其转换为数字表示。这种表示通常称为向量,它可以应用于文本的任何合理单位:单个标记、n-gram、句子、段落,甚至整个文档。
在整个语料库的统计 NLP 中,应用了不同的向量化技术,例如 one-hot、计数或频率编码。在神经 NLP 中,词向量(也称为词嵌入)占主导地位。可以使用预先训练的向量以及复杂神经网络中学习的向量表示。
本文解释并展示了所有提到的向量化技术的 Python 实现:one-hot 编码、计数器编码(词袋)、词频以及最后的词向量。
本文的技术背景是和几个Python v3.11
附加库:gensim v4.3.1
、pandas v2.0.1
、numpy v1.26.1
和nltk v3.8.1
。scikit-learn v1.2.2
所有示例也应该适用于较新的库版本。
本文最初出现在我的博客
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。