NLP文本预处理的三大流程_d2l.data_hub

作者：不正经 | 2024-04-06 08:07:53

踩

d2l.data_hub

文本预处理的流程

先去除文本中的无关元素

将文本行拆分为单词或字符词元

※※制作字典，给每个token加上indices

整个nlp其实就是把文本中的字词符号等看作是带有时序的变量，而文本预处理就是把这些变量做成可以进行训练的东西。

先去除文本中的无关元素


#@save
d2l.DATA_HUB['time_machine'] = (d2l.DATA_URL + 'timemachine.txt',
                                '090b5e7e70c295757f55df93cb0a180b9691891a')
 
def read_time_machine():  #@save
    """将时间机器数据集加载到文本行的列表中"""
    with open(d2l.downl

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/不正经/article/detail/370745