当前位置:   article > 正文

04-循环神经网络基础和自然语言处理介绍

04-循环神经网络基础和自然语言处理介绍

目录

1.文本的tokenization

1.1 概念和工具的介绍

1.2 中英文分词的方法

2.N-garm表示方法

3.向量化

3.1 one-hot编码

3.2 word embedding

3.3 word embedding API

3.4 数据的形状变化


1.文本的tokenization

1.1 概念和工具的介绍

1.2 中英文分词的方法

2.N-garm表示方法

  1. import jieba
  2. text='受芯片供应不足影响,传闻南北大众汽车近期陷入停产。尽管大众汽车集团(中国)已公开解释,这只是短期的供给紧张,情况没有传闻中严重,已经与总部、相关供应商展开协调工作,但这并未完全打消公众的疑虑。'
  3. cuted=jieba.lcut(text)#lcut是直接转换成列表
  4. print([cuted[i:i+2] for i in range(len(cuted)-1)])#len(cuted)-1个特征 ==> N-garm中N为2

3.向量化

3.1 one-hot编码

3.2 word embedding

3.3 word embedding API

3.4 数据的形状变化

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/知新_RL/article/detail/562299
推荐阅读
相关标签
  

闽ICP备14008679号