Gausst松鼠会

这个屌丝很懒，什么也没留下！

热门标签

热门文章

当前位置: article > 正文

Python与自然语言处理——文本向量化（一）_向量化 excel

作者：Gausst松鼠会 | 2024-04-02 12:51:30

赞

踩

向量化 excel

Python与自然语言处理——文本向量化

文本向量化（一）

文本向量化（一）

文本向量化概述

文本向量化是将文本表示成一系列能够表达文本语义的向量。
主要技术
- word2vec
- doc2vec
- str2vec

向量化算法word2vec

词袋模型

最早的以词语为基本处理单元的文本向量化方法
方法：
- 基于出现的词语构建词典（唯一索引）
- 统计每个单词出现的词频构成向量
存在的问题
- 维度灾难
- 无法保留语序信息
- 存在语义鸿沟的问题

神经网络语言模型（NNLM）

特点
与传统方法估算 $P\left( { {w_i}\left| { {w_{i - \left( {n - 1} \right)}}, \cdots ,{w_{i - 1}}} \right.} \right)$ 不同，NNLM直接通过一个神经网络结构对 $n$ 元条件概率进行估计。
基本结构
大致操作
从语料库中搜集一系列长度为 $n$ 的文本序列 ${w_{i - \left( {n - 1} \right)}}, \cdots ,{w_{i - 1}},{w_i}}$ ，假设这些长度为 $n$ 的文本序列组成的集合为 $D$ ，那么NNLM的目标函数为：
$\sum\nolimits_D {P\left( { {w_i}\left| { {w_{i - \left( {n - 1} \right)}}, \cdots ,{w_{i - 1}}} \right.} \right)}$

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/Gausst松鼠会/article/detail/352607

推荐阅读

相关标签

Copyright © 2003-2013 www.wpsshop.cn 版权所有，并保留所有权利。

闽ICP备14008679号