当前位置:   article > 正文

NLP文本预处理的三大流程_d2l.data_hub

d2l.data_hub

文本预处理的流程

先去除文本中的无关元素

将文本行拆分为单词或字符词元

※※制作字典,给每个token加上indices


整个nlp其实就是把文本中的字词符号等看作是带有时序的变量,而文本预处理就是把这些变量做成可以进行训练的东西。

先去除文本中的无关元素

  1. #@save
  2. d2l.DATA_HUB['time_machine'] = (d2l.DATA_URL + 'timemachine.txt',
  3. '090b5e7e70c295757f55df93cb0a180b9691891a')
  4. def read_time_machine(): #@save
  5. """将时间机器数据集加载到文本行的列表中"""
  6. with open(d2l.downl
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/不正经/article/detail/370745
推荐阅读
相关标签
  

闽ICP备14008679号