赞
踩
(1)首先创建两个字典word2idx和idx2word)
(2)保存start_word("<start>"),end_word("<end>"),unknown_word("<unk>")到字典中。
(3)统计训练语料中所有的单词,并统计其频数,将频数大于某个预定数vocab_threshold的word添加到字典中去。
以上文本预处理的方法可能用到的代码有:
import nltk
from collections import Counter
# 分词
senternce = 'Quick brown fox jumps over the lazy dog'
tokens = nltk.tokenize.word_tokenize(sentence.lower())
# 统计频数
counter = Counter()
tokens = ['Quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dog']
counter.update(tokens)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。