当前位置:   article > 正文

实践:jieba分词和pkuseg分词、去除停用词、加载预训练词向量_jieba分词停用词表,下载

jieba分词停用词表,下载

一:jieba分词和pkuseg分词

原代码文件
链接:https://pan.baidu.com/s/1J8kmTFk8lec5ubfwBaSnLg
提取码:e4nv

目录:
在这里插入图片描述

1:分词介绍:

目标:中文句子中的词与词之间加上边界标记,本质是划分词的边界。

英文天然有空格作为分词符合。而对于中文如何让机器智能识别出单词词汇,是文本分析的第一步。

基本分词思想:(1) 由句子到词.(2) 由字到词

具体分词方法:

在这里插入图片描述

在这里插入图片描述

举例:

在这里插入图片描述

如何分词使得这个句子的共现概率最大

2:jieba中文分词

分词原理:HMM(隐马尔可夫模型)

(如何设置分词符号,使得句子的共线概率最大)

在这里插入图片描述

3:实践:分词


import jieba
import pkuseg

text = "绿子在电话的另一头久久默然不语,如同全世界的细雨落在全世界所有的草坪上一般的沉默在持续。"
seg_list = jieba.cut(text,  cut_all=False, HMM=True)
print("jieba Cut result is: " + " ".join(seg_list))

seg = pkuseg.pkuseg()  # 以默认配置加载模型
text = seg.cut(text)  # 进行分词
print("pkuseg Cut result is: " + "/".join(text))
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
jieba Cut result is: 绿子 在 电话 的 另一头 久久 默然不语 , 如同 全世界 的 细雨 落 在 全世界 所有 的 草坪 上 一般 的 沉默 在 持续 。
pkuseg Cut result is: 绿子/在/电话/的/另/一头/久久/默然不语/,/如同/全世界/的/细雨/落/在/全世界/所有/的/草坪/上/一般/的/沉默/在/持续/。
  • 1
  • 2

二:去除停用词

1:实践:去除停用词

在使用使用jieba或pkuseg分词后,每一个句子被划分为一个个词。但是有些词是没有意义的(无法体现该段文本的

特征),如“在”,“的”,“一些”,标点符号等。因此我们需要去除这些词。这一步骤称为“去除停用词”。

如下是本次实验使用的停用词文件

在这里插入图片描述

#获取停用词集合
def get_stopwords():
    stopwords = pd.read_csv ("F:\\研一课程\\周水生机器学习中的优化\\LSTM谣言检测\\rummordetection_lstm-main\\rummordetection_lstm-main\\stopwords\\stopwords.txt", index_col=False, sep="\t", quoting=3, names=['stopword'],
                             encoding='utf-8')
    return  set(stopwords['stopword'].values.tolist())
   
def cutsentences(sentences):     #定义函数实现分词
    print('原句子为:'+ sentences)
    cutsentence = jieba.lcut(sentences.strip())     #精确模式
    print ('\n'+'分词后:'+ "/ ".join(cutsentence)) 
    stopwords = get_stopwords()     # 这里加载停用词的路径
    lastsentences = ''
    for word in cutsentence:     #for循环遍历分词后的每个词语
        if word not in stopwords:     #判断分词后的词语是否在停用词表内
            if word != '\t':
                lastsentences += word
                lastsentences += "/ "
    print('\n'+'去除停用词后:'+ lastsentences) 

sentence = '绿子在电话的另一头久久默然不语,如同全世界的细雨落在全世界所有的草坪上一般的沉默在持续。'
cutsentences(sentence)

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
原句子为:绿子在电话的另一头久久默然不语,如同全世界的细雨落在全世界所有的草坪上一般的沉默在持续。

分词后:绿子/ 在/ 电话/ 的/ 另一头/ 久久/ 默然不语/ ,/ 如同/ 全世界/ 的/ 细雨/ 落/ 在/ 全世界/ 所有/ 的/ 草坪/ 上/ 一般/ 的/ 沉默/ 在/ 持续/ 。

去除停用词后:绿子/ 电话/ 另一头/ 久久/ 默然不语/ 全世界/ 细雨/ 落/ 全世界/ 草坪/ 沉默/ 持续/ 
  • 1
  • 2
  • 3
  • 4
  • 5

附:查看停用词文件

stopwords = get_stopwords()     # 这里加载停用词的路径
print(type(stopwords))
stopwords_=list(stopwords) #set是集合,无序,查看元素只能遍历所有打印出来,转为list.
print(stopwords_[1:20])
  • 1
  • 2
  • 3
  • 4
<class 'set'>
['个别', '.', '—', '乘势', '互相', '以前', '为什么', 'somewhere', 'keep', '一', '■', '对待', "i'll", '此次', '作为', '据此', '}>', '对比', '成年']
  • 1
  • 2
print(stopwords)
  • 1
{nan, '个别', '.', '—', '乘势', '互相', '以前', '为什么', 'somewhere', 'keep', '一', '■', '对待', "i'll", '此次', '作为', '据此', '}>', '对比', '成年', '殆', 'thanks', '_', '傥然', '10', 'his', '-', '照着', '这些', '具体来说', '-[*]-', '|', '知道', '立刻', '恍然', 'usually', '借此', 'more', '不过', '这麽', '岂止', '=[', 'possible', 'off', 'probably', 'took', '一转眼', 'value', '致', '咱们', 'b]', '(', '!', '人', '除却', '允许', '100', '哼唷', '切勿', '咋', '见', '4', '89', '当前', '这么样', '左右', '庶乎', '接著', '第二大节', '结果', 'now', 'neither', '第五大道', '共同', '看起来', '⑧', 'says', '不拘', 'specify', '紧接着', '光', '我的', '冲', 'nor', 'on', '三番五次', '起见', '关于', '第二类', 'cannot', 'nine', '莫如', 'seemed', '奈', 'outside', '而又', '不会', '如若', '自从', '由于', '2016', 'twice', '有效', '91', '或许', 'hereafter', '93', '相等', '意思', '第五集', '53', '打', '争取', '当中', 'that', '」', '仅仅', '之前', "it'd", 'say', '@', 'seeming', '更有趣', '05', '取得', '除此以外', '吓', 'e]', '不一', 'once', '虽则', '向使', '来看', '敢情', '9', 'there', '其', '上午', '行动', 'seven', "you've", 'used', '下面', '大事', 'seeing', '很', '49', '暗地里', '从此以后', '也好', '尽管', 'indicated', '且说', '长此下去', '有一期', 'toward', '不曾', 'said', '70', '到处', 'per', '存心', '那末', '人人', '元/吨', 'indicates', '与其说', '勃然', '第二讲', '从此', 'believe', '吱', "there's", '当下', '赶早不赶晚', '平素', 'thereafter', '过来', 'go', '不问', '.一', '是否', 'our', '来不及', '秒', 'relatively', '哪边', '又笑', 'like', '要', 'far', 'seems', '往', '相当', '随后', '倒是', '反之亦然', '72', '倘', '看', '具有', 'follows', '一边', 'anybody', '如今', '第四者', '54', 'us', '②c', '第二盘', '可以', 'ones', '那么些', '适当', '怪', '有及', '一番', '奋勇', 'only', '是的', '来讲', '65', '新华社', '嗡嗡', '某', '别处', '≈', 'these', '极其', '处在', '和', '啪达', 'consequently', '仍然', '啊哟', '犹且', '极大', '绝顶', '第三件', '高兴', '遵照', 'into', '到头来', 'considering', '宁可', '简直', '长话短说', 'them', '正是', '我们', '上', '不但', '设使', '那时', '不限', '每每', '叫做', '如其', '几度', '自打', '总是', '不大', '之所以', '乌乎', '怎奈', '越是', 'specified', '大概', 'regards', 'four', 'becoming', '漫说', '不胜', '贼死', '尽如人意', '“', '别说', './', 'zt', '遵循', '以期', '大体', ';', '上去--', 'alone', '弗', 'towards', '。', '~+', '不惟', 'soon', '不下', '对', '〕〔', '谁知', 'co', '如是', '自后', '继后', '敢于', '非得', '第十六', 'below', '如常', '里面', '0', '便', '后面', '总之', '构成', '该', 'someone', '假若', 'ever', 'getting', '如果', '沙沙', '二', '余外', 'nd', '【', '偏偏', '常言说', '罢了', '41', 'ltd', '第五课', 'few', '依照', '′|', '42', '当然', '不止一次', '第二任', '及时', '冒', '替', '或则', '就是', '果真', '不仅...而且', '具体地说', '丰富', '而', '光是', 'seem', '时', 'have', 'hence', 'hereupon', '大张旗鼓', '起来', '因而', 'tries', 'nobody', '从来', '许多', '带', 'against', '使用', 'both', 'who', '3', 'away', '女子', 'contains', 'together', '+', '非但', '了', '说来', '92', 'available', '第三站', '就是了', '并没', '〕', '第五位', 'above', '差一点', '伙同', '既', '倘使', '/', '既往', '咱', '上下', '但凡', '乃至', '人们', 'merely', '即刻', '六', '等', '默默地', 'c]', '并', 'without', '86', '出', '而论', 'exactly', '反过来说', '>λ', '全力', '81', 'then', '按时', 'besides', 'was', 'about', '巴', '彼此', '联袂', '第十九', '嘿', 'old', '与否', '部分', '26', '并肩', '36', '三天两头', "didn't", '八成', '③', '按', '↑', '6', '77', "you'd", '22', '为主', '4', '当头', '还是', '单纯', '始而', '喏', '58', "doesn't", 'normally', '分期', 'across', 'know', "wasn't", '则', '44', '哉', 'any', "t's", '实现', 'everywhere', '不止', '他们', '必将', '诚如', '非特', 'sure', '47', '总的来说', '不特', '似的', '顺着', '一切', '一来', '顷刻', '呃', "we'd", '他是', '[]', '必须', '以至于', 'zero', '各人', '同时', "won't", 'saying', '正确', '亲自', '不怕', 'near', 'thanx', '非独', 'un', '第十次', '随着', '顷', 'does', '谁料', '〉', '6', '若夫', '四', '进行', "isn't", '最后一关', '替代', '宁肯', '应该', '达到', 'whatever', '[-', '[', '何苦', 'still', '已', '自己', '沿', '要是', '而已', '重新', 'my', '从今以后', '根本', '多少钱', '大面儿上', '叫', '防止', '谨', '从古至今', 'until', '以来', '掌握', '具体', '若是', 'six', '企图', '借以', 'qv', '鄙人', '43', '今後', '敢', 'be', 'described', 'very', '去', '看来', '而况', '难说', '每年', '3', '啷当', "c's", "we've", '不得不', 'gone', 'should', '得天独厚', '这样', '特别是', '表示', '即便', '如此等等', 'the', '种', '至于', '〔', '倘或', '第三单元', '兼之', 'ought', '第四张', '以及', '而是', '快', '2014', '猛然间', '二来', '一起', 'likely', '换言之', '待到', '第三句', ':', '全年', 'sub', '对于', '采取', '只有', '下去', '~', '别人', "weren't", '截至', '尽量', '呼哧', '于是乎', 'yourself', '挨家挨户', '活', 'hardly', '啐', '74', '〈', '′∈', '故此', '她', '满足', '全部', '52', '不定', 'later', '并非', '多么', '切切', '再说', '第二波', '了解', '所在', '除', 'whereas', 'hello', '然后', '按期', '第十集', '乃', '那麽', '有的', ']∧′=[', '有一部', '如前所述', '呀', '>', 'himself', '任何', '此外', '最近', '经常', '若果', '屡屡', '规定', 'further', '>>', '率尔', '忽然', '全体', '充分', '安全', 'might', 'nothing', '几时', 'being', '甚而', 'ok', '这儿', '开展', '什麽', '宁', '这种', '存在', '自身', '我', '不对', '~~~~', '别是', '随著', 'corresponding', '吧哒', '牢牢', '是什么', '第三期', '每', '一何', '85', '另行', '不但...而且', '唉', '以下', 'your', '精光', '即若', '极度', '第十一个', '已矣', 'everything', '1', 'little', '猛然', 'everyone', '共', '如何', '相信', '③]', '老大', 'oh', '难怪', 'downwards', '本身', '吧', '几乎', 'Ⅲ', '重要', '边', 'me', 'thoroughly', '较为', '=', '迟早', '多年来', '过于', '抑或', '彼时', 'rather', '任凭', '合理', '固然', '从优', '一.', '55', "we're", '相同', '趁势', '马上', '处理', '累次', '』', '不变', '可见', '当着', '甚或', '不择手段', 'associated', '看出', '极为', ']', '&', '鉴于', '9', '反之', '再则', 'behind', '特点', 'get', '怎样', '第十天', 'γ', '毫不', '尔等', '再有', '後来', 'did', '即如', '可能', 'anything', '敞开儿', '零', '最后一遍', '略微', 'ex', '|', 'theirs', '}', 'no', '它们', '*', '71', '组成', '非常', '?', '更有意义', '又又', '40', '──', '@', '末##末', '最后', '之一', '④', '基本', '最後', 'via', '岂', '·', 'somebody', '不光', 'within', '多数', '如上', 'just', 'perhaps', '不仅仅', '仍', 'which', '何止', '别', '这', '诚然', '遇到', '地', '间或', 'que', '能否', '分期分批', '那个', '成为', '趁', '14', '立', '现在', '切', '是以', 'vs', '有一根', 'entirely', '俺们', '正常', "who's", ':', '召开', '什么意思', '向', '有一百', '⑦', '难道说', '欤', '范围', '或多或少', '97', '75', 'beyond', '哪怕', '98', '呜', '恐怕', '受到', '风雨无阻', 'enough', '竟', 'ZT', '即或', "i'm", '确定', '老', 'ZXFITL', 'unfortunately', '第二首', 'least', '15', 'up', '其二', '莫不', '集中', '咳', '各个', '九', '大凡', '第三册', '连日', 'uses', '只消', '据悉', '最好', 'less', '喀', '不得已', 'most', 'some', '从古到今', '联系', 'since', '归根到底', 'going', '亦', '这般', '但', '并不', 'already', '更远的', '它', '尔后', 'ours', '将要', '认识', '否则', '据我所知', '明显', 'here', 'to', 'non', '千', '即将', '按照', 'somewhat', 'from', '川流不息', 'has', '不怎么', '乃至于', 'unlikely', '绝不', 'self', '能', '或曰', '有些', '自各儿', '全面', '广大', '接连不断', '们', '汝', 'anyone', "we'll", 'new', '出现', '其次', 'but', '×', '何妨', '再次', 'way', 'given', 'again', '诸如', '⑤', '后来', '上升', '差不多', '由此可见', '不同', '嘎', '全都', 'whom', '个', '日', '01', '大体上', "haven't", '第四代', '恰恰相反', 'do', '03', '27', '偶尔', '又一遍', '一片', '由此', '这就是说', '当', '有利', '之后', 'right', 'much', '挨个', '要么', 'wherein', '下来', 'В', '不已', '又', 'five', 'exp', '79', 'her', '十分', '得到', '权时', '看样子', '[', '进而', 'thereupon', '各级', '让', '好象', '上述', '臭', '有问题吗', '://', '如同', '由是', '为', '进入', '又喜欢', 'other', '将才', '倍加', '她是', '彼', '近几年来', '说明', "they'd", 'obviously', '第二十', '31', 'take', '从未', '唯有', 'during', '不得了', '更为', '亲口', '专门', "i'd", '当场', 'happens', '-β', '最后一科', '后', '如上所述', 'an', "you'll", 'please', '看见', '砰', '故意', '日见', '其余', '某些', '各', '譬喻', '人民', 'edu', '喽', 'secondly', 'mostly', '挨门挨户', 'useful', '分', '04', '乘胜', '所幸', '临到', '以至', 'gotten', 'themselves', "that's", 'indeed', '为止', '单单', '迫于', '从速', 'than', '总的说来', '充其极', 'kept', '接下来', '顶多', '随时', '第四版', '前面', '多年前', '尽心尽力', '而且', '那里', '二话不说', 'over', '几', '做到', '待', '蛮', '以上', '财新网', '莫若', 'also', '论', '正在', 'comes', 'cause', '其它', '不满', '基本上', 'com', '莫非', 'meanwhile', 'plus', 'tried', '出去', '此中', '但愿', '後面', 'must', "hadn't", '比', '毫无', '来说', '最后一页', '$', '真正', '定', '完全', '目前', 'such', 'before', '这么些', '局外', '交口', "it's", '有一堆', 'various', '正巧', 'whose', '记者', '心里', '固', '45', '有一群', '11', '起先', 'cant', '不是', '有一片', '因', '彻底', '诸', '似乎', '像', '普遍', '原来', '俺', '\\', '不论', '要求', '因着', '×××', 'ourselves', '较比', '好的', '后者', '/', 'tends', '{', '坚决', '℃', '从严', '结合', '你们', '哪', '概', '83', '几经', 'inasmuch', '略', '强烈', '多多', '怕', '八', 'because', '打从', 'each', 'at', '拿', '嘿嘿', '过', 'reasonably', '第十八', '当儿', '需要', '除外', '毋宁', '尽早', '首先', '59', '立地', '中间', '啊呀', 'thank', '然则', '连声', 'ie', '这点', '或是', '5', '⑨', '凭', '<φ', '显然', '哇', '第三卷', '这么点儿', '%', '缕缕', '那些', '屡次', '挨次', '强调', '加强', '附近', '32', '是不是', '!', '反之则', '0', 'anyway', '极', '有所', 'particular', '据称', '28', 'truly', "can't", '继之', 'inner', '那儿', '61', '亲手', '一直', '够瞧的', '方才', '适用', '那', '白', 'selves', '至', 'so', '凡是', 'certain', '等到', 'throughout', '比起', '总而言之', '的确', '同', '究竟', '却', 'let', '呆呆地', '皆可', 'whoever', '数/', 'need', '难道', '动不动', '任', '日益', '赶快', 'same', ';', '快要', 'maybe', '颇', '亲眼', '每天', 'really', '37', '嗬', '至若', '76', '以致', '甚至于', '由由', '87', '=(', '白白', '拦腰', 'keeps', '逢', 'best', '背地里', '前进', '更有效', '不妨', '为何', '可是', '→', '坚持', '转贴', 'course', 'moreover', 'actually', '第十名', '哪里', '不然', '主张', '竟而', 'one', 'although', '些', '归根结底', 'following', '不如', '有力', '另一方面', '最大', '据', '初', '{-', '每逢', '嘎登', '较', 'look', '跟', '不可抗拒', '格外', '第四单元', '’', "hasn't", '达旦', '应用', '直接', '啦', '也就是说', '当庭', '35', '以后', '出于', '有一方', '到', '从而', '绝', 'beforehand', '就地', "let's", '第三产业', '与此同时', '省得', '次第', '19', 'therein', '很多', '比方', '各式', 'theres', '使得', '一则通过', '第五卷', '累年', 'whenever', 'out', '就算', '趁早', '哦', '突出', 'well', '类如', '今', '<±', 're', '什么样', 'third', '更加', '多多少少', '动辄', '抽冷子', '少数', '2', 'inc', '切不可', '继而', 'accordingly', '嗡', '尽', 'what', '从无到有', '乘隙', '=-', '觉得', '他', '立马', '据实', '73', '将', '怪不得', 'gives', '乘', '到了儿', '简言之', '一时', '问题', '针对', 'appreciate', '各自', '既然', '[*]', '--', '深入', '腾', '归', '先後', '我是', 'even', '…………………………………………………③', '矣哉', '一下', '就是说', '必要', '第三类', '前此', '严格', '已经', '哈哈', '密切', '举行', '怎么办', '加入', "aren't", '不单', '向着', 'always', '2015', '以免', '啊', "they're", ' ]', '怎', '尽然', '认真', 'wish', '很少', "couldn't", '<Δ', 'except', '她们', '::', '第二把', '必然', '率然', '理该', '8', '不尽', '历', '较之', '莫', 'itself', 'immediate', '+ξ', '者', '隔日', 'by', '<λ', '从重', '本着', 'onto', 'had', "c'mon", '充其量', '岂非', 'certainly', 'hi', '每时每刻', '矣乎', '纯', '之', '常', '乘机', 'sent', '得出', '是', '各种', '往往', '其中', 'noone', '今后', '同一', '94', '个人', '39', '¥', 'under', '人家', '不外乎', '扑通', '战斗', 'able', '即令', '归齐', 'liked', '偶而', '将近', 'looks', 'came', '进去', '比及', '而后', '第四位', '直到', '穷年累月', '按说', '当时', '与', '说说', '33', '甫', '第十四', '二话没说', 'come', '除此', 'sup', '比如说', '要不然', '57', '按理', 'thence', '什么时候', '有问题么', 'f]', '尔尔', '以', 'hereby', 'necessary', '例如', '岂但', 'according', '如次', '即', '高低', '对方', '吗', '依靠', '-', '严重', '自个儿', '各地', '逐步', '考虑', '第二集', '有', '上面', 'sometimes', '怎麽', '大多数', '那么样', 'goes', '它是', '另方面', 'is', '不免', '绝对', '屡次三番', '顿时', '略加', '呢', '长期以来', '又一城', '必定', '不敢', '形成', '06', '嘛', '=″', '成年累月', '您们', '第三大', '尽可能', 'another', '设或', '连同', 'φ', '朝着', '犹自', 'latterly', '加以', '不足', 'or', '有效地', '老老实实', 'welcome', "wouldn't", '大抵', '表明', '90', '甚么', '第二关', '距', '大都', '78', '有点', '正值', 'she', '今天', '哪个', '不够', 'currently', ',', '此', '多', 'yet', '近来', '24', '默然', '突然', 'hers', '同样', "a's", '.', '&', '每个', '窃', 'am', '大', 'else', 'with', '话说', '最', '自', '遭到', '也', '或', 'taken', '0:2', '相对', '召唤', '12', '第二项', '另一个', '50', '才', '尽心竭力', '纵', '⑩', '一样', '相似', 'known', 'thats', 'definitely', '不', ',', '扩大', '介于', '第五部', 'a]', '的士高', '反而', '13', 'awfully', '另外', '及至', '++', '不仅仅是', '要不', '便于', '谁人', '她的', ')', '主要', '趁机', '63', '20', '38', '《', 'former', 'φ.', '且', '总的来看', '都', '它们的', '在', '而言', '略为', '注意', 'trying', '第二声', '来', '论说', 'eg', 'different', 'mainly', '第四集', '多亏', '最后一派', '▲', 'whither', '恰逢', 'having', '限制', '来得及', '积极', 'tell', 'ZZ', '此间', '容易', '倘若', '呸', '第四期', '它的', "they'll", '赶', '趁便', '除了', '’‘', 'shall', '近年来', 'looking', 'when', '有一批', '=☆', '56', '哪天', '三', '_', '忽地', '这会儿', '宁愿', '沿着', '所以', 'causes', '叮当', '嘘', 'instead', '及', '只是', '下列', '尤其', '纵然', '前者', 'ng昉', 'furthermore', '相应', '纯粹', 'went', 'yourselves', '为着', '内', 'been', 'this', '虽', '..', 'concerning', '一次', 'would', '此后', '第四届', '特殊', '只限', '于是', 'own', '再其次', '第三行', '㈧', 'formerly', '背靠背', "ain't", '有一对', 'two', '起', '打开天窗说亮话', '时候', '顺', 'three', '毕竟', 'anyways', '不能', '恰似', 'name', '60', '比照', 'think', '届时', '常常', '极端', '互', '反应', '七', '...', '嘻', '》),', '望', '除此之外', '凝神', '极了', '30', ')', ']', "he's", '获得', '无论', '<', '就要', '完成', '={', '如', '嘎嘎', '方便', '第五期', '又一村', '奇', '与其', '出来', '其实', '根据', '这一来', '从不', 'A', '凡', 'second', '趁着', 'respectively', '是什么意思', '然而', '分头', 'several', '不必', '决定', '藉以', 'otherwise', '普通', 'knows', '②', '+', '第十届', '今年', '一致', '嗳', 'sensible', '咦', '并且', '先后', 'provides', '其他', '赖以', '第二行', "it'll", '不由得', 'wherever', '这个', '不管', '起首', '起初', '<<', '从头', '哈', '基于', '迅速', '呕', '不得', '齐', 'sorry', '<', 'we', '最高', 'many', '不断', '没有', ')÷(1-', '当地', '有时', '凑巧', '倒不如', '有笑', 'yours', 'will', '此时', '就此', '看到', '一旦', '1.', '①', '巨大', 'eight', '连', '……', '前后', '96', '不能不', '且不说', 'him', '变成', '趁热', '只怕', '当即', '7', '没', '46', '故', '上去', '纵令', '从新', '焉', 'as', '上来', '一则', 'presumably', 'you', '除开', '地三鲜', '不迭', '%', '己', '比如', '=', '愤然', '能够', '当真', '分别', '逐渐', 'never', '被', ')、', '所谓', '大力', '不久', '就', '5', '年复一年', '断然', '碰巧', '当口儿', '综上所述', ',也', '过去', '用来', '恰如', '伟大', '难得', '}', '产生', '即使', '方能', '那会儿', '如此', '——', '第三日', '着呢', 'μ', '居然', '来着', '第三层', '造成', '得', '在于', '再', '得起', '然後', '大不了', 'want', '莫不然', '的话', '饱', '有没有', 'whereupon', 'yes', '恰好', '欢迎', '之後', '哎', '立即', '刚', 'indicate', '嗯', '”,', 'became', '第二款', 'upon', '95', 'appear', '您', '愿意', '$', '第四种', '有着', '有一起', 'quite', '———', '顷刻之间', 'its', '现代', '到底', '哎呀', 'regarding', 'Lex', '这边', '62', '不只', '适应', 'appropriate', '移动', '有关', '不力', '把', '何以', '08', '不尽然', "what's", '连日来', '小', '绝非', 'whole', '中小', '宣布', '借', '下', '谁', 'namely', 'clearly', '曾', '倒不如说', '会', '68', '月', '从早到晚', 'those', 'novel', '某个', '毫无保留地', '几番', '凭借', '大约', '取道', '不然的话', '大略', '29', '串行', '反倒', '兮', 'greetings', 'Δ', '不起', '啥', '有的是', '练习', '仅', '决不', '不外', '既是', 'lately', '自家', '︿', '云尔', '若非', '并没有', '切莫', '独', '依据', '哎哟', 'elsewhere', '从轻', '然', 'got', '成心', 'especially', '一方面', 'R.L.', 'et', 'contain', '喔唷', '三番两次', 'their', 'he', '保持', '常言道', '此处', 'however', '设若', '你是', '第', '于', '保管', '除去', '果然', 'hither', '策略地', '恰恰', '非徒', '一天', '不仅', '没奈何', '\u3000', '您是', 'herein', 'become', '不成', '以为', '公然', '据说', 'through', '第十一', '这么', '临', '属于', '转动', '总结', '具体说来', 'last', 'willing', '多次', '不要', "you're", '?', 'insofar', '(', '假使', 'allows', '呜呼', '并排', '纵使', '不亦乐乎', 'between', '经', '哩', '”', 'afterwards', "here's", '因为', '从小', '尔', '不料', '该当', '换句话说', 'help', '倘然', '么', '彻夜', 'either', '最后一题', '呵呵', '#', '5:0', '82', '共总', '隔夜', 'zz', '48', 'whence', '显著', '第五元素', '则甚', '呵', '连袂', 'unto', '一面', 'everybody', '09', '请勿', 'hopefully', '近', '矣', 'sometime', '一定', '所有', 'whether', '倍感', '又为什么', '`', 'ask', '反手', '还要', 'something', '对应', '反映', '69', '千万千万', '眨眼', 'nowhere', '不比', 'seen', '因了', 'in', '任务', '叮咚', '通过', 'could', '其一', '半', '哪年', '认为', '长线', '...................', '又及', 'whereafter', '进来', '最后一集', '⑥', '何时', '大多', '大批', '甭', 'better', '运用', 'somehow', '更重要的是', '管', 'followed', '依', '急匆匆', 'see', '这时', 'containing', '暗自', ' [', '广泛', '在下', '为此', '反倒是', 'all', '转变', '何必', '却不', '云云', '][', '儿', 'allow', 'seriously', "shouldn't", '恰巧', '本', '真是', '起头', '8', '第三回', 'becomes', '2', '弹指之间', 'after', '哼', '路经', '慢说', '他人', '日臻', '>', 'ignored', 'forth', '万一', '02', '何须', 'herself', '但是', '周围', '得了', '25', '甚且', '乎', 'thus', '的', 'latter', '不知不觉', '帮助', '其后', '呼啦', '故而', '大大', 'okay', '加上', '一一', '均', 'consider', '失去', '第三课', '66', '轰然', '开始', 'amongst', 'serious', '并不是', '^', 'of', '乘虚', '】', '第三声', '至今', '第二单元', 'they', '简而言之', '立时', '般的', 'and', 'therefore', '随', '最后一颗子弹', '你', '84', '有一道', 'though', '必', '朝', '以故', '全然', '处处', '常言说得好', '维持', '呗', 'viz', '瑟瑟', '『', '所', '清楚', 'thereby', "they've", '最后一班', 'lest', 'aside', '接着', 'fifth', '看上去', '不独', '反过来', '咧', '昂然', 'where', "i've", '孰知', '1', 'despite', '07', '大举', '第二', 'how', '粗', 'thru', '各位', '加之', '只要', 'every', '巴巴', 'etc', '第三遍', '譬如', '好', '单', '使', 'use', '梆', '此地', '除此而外', '99', '从事', '不至于', '~', '陡然', 'rd', 'for', '双方', 'it', '或者', '诸位', '可', 'were', '挨门逐户', 'done', '为什麽', 'doing', '可好', '何况', 'gets', '有意的', 'none', '哪样', '古来', '还有', '第三集', '好在', '全身心', '怎么', '》', '再者', '方面', 'are', '64', '决非', '极力', '男子', '无宁', '数', '不了', 'beside', ''', 'specifying', '一个', '第三张', '照', '从', '要不是', '刚巧', '又小', '正如', '再者说', '本人', '尽快', '只当', '不少', '如期', '16', '本地', '那样', '这里', 'if', '匆匆', '有一会了', '整个', 'others', '他的', '迄', '不日', '也罢', '18', '满', '何尝', '不若', '67', 'regardless', '喂', 'almost', 'example', '34', '截然', '第十三', '千万', '即是说', '"', 'th', '因此', '由', '别的', '也是', '年', '多多益善', '理应', '为了', '2.3%', '传说', '12%', '到头', '那边', '多少', '以外', '别管', '不可', '独自', 'unless', 'try', '//', '保险', '刚才', 'wants', '仍旧', '无法', '旁人', '有喜欢', '曾经', "'", '乒', '哪儿', 'among', '第四套', '更进一步', '行为', 'may', '哗', '、', '庶几', 'wonder', '引起', '用', '一些', '咚', '大致', '那般', '尚且', '最后一眼', '开外', '既...又', '这次', '社会主义', 'saw', 'nearly', '*', '理当', '......', '第五组', '只', '继续', '离', '实际', 'asking', '每当', '如下', '何', '给', '7', '一般', 'next', '什么', '下午', '亲身', '并无', '消息', '两者', 'mean', '豁然', '不管怎样', '尽管如此', '方', '更有甚者', '呐', '21', '避免', '23', '第四场', '毫无例外', '代替', '到目前为止', '…', '何处', '五', '另悉', '还', 'nevertheless', '‘', 'often', 'whereby', 'apart', '51', 'why', '明确', 'inward', 'myself', '以便', '另', '第五年', '某某', '相反', '更', '举凡', 'LI', '促进', '哟', '陈年', 'using', '孰料', '从中', '况且', '虽然', '屡', 'anyhow', '#', '日复一日', '良好', '有著', '啊哈', '第四声', '怎么样', 'while', '暗中', '先生', '第五单元', '那么', '经过', 'Ψ', '惟其', '相对而言', '不可开交', '大量', '老是', '不再', '日渐', '若', 'placed', '等等', '重大', '何乐而不为', '假如', '准备', "don't", '∈[', 'too', '∪φ∈', '连连', '不时', '无', '不消', '着', 'along', '17', '姑且', '哗啦', 'anywhere', 'A', '而外', '通常', 'changes', '刚好', '复杂', 'not', '大家', 'howbeit', '除非', '不经意', '从宽', '不常', '先不先', '传闻', 'overall', '比较', 'needs', '第三篇', '以後', '哪些', '放量', "where's", '第三项', '之类', '竟然', 'down', '甚至', '进步', '看看', '顷刻间', '来自', '传', 'first', '第四年', '虽说', 'brief', '~±', 'particularly', 'can', 'around', '你的', '阿', '应当', '才能', 'thorough', '错误', '挨着', '不巧', '巩固', '惯常', '第四册', '靠', '及其', '88', '--', '80', '第十二'}
  • 1

三:通过gensim,加载预训练词向量,获取embedding_matrix

1:加载词向量

https://www.cnblogs.com/bill-h/p/14655224.html

使用下载好的训练好的词向量模型——/embeddings/sgns.weibo.bigram.bz2,

下载地址:https://pan.baidu.com/s/11PWBcvruXEDvKf2TiIXntg

from gensim.models import KeyedVectors

#读取词向量模型
def get_word2vec():
    word2vec=KeyedVectors.load_word2vec_format("F:\\研一课程\\周水生机器学习中的优化\\LSTM谣言检测\\rummordetection_lstm-main\\rummordetection_lstm-main\\embeddings\\sgns.weibo.bigram.bz2",binary=False,unicode_errors="ignore")
    #读取词向量文件sgns.weibo.bigram.bz2,使用越频繁的词就会越靠前。
    return word2vec

word2vec=get_word2vec()
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
# 获取“词-索引”字典
word2vec.key_to_index
  • 1
  • 2
{',': 0,
 '的': 1,
 '。': 2,
 '@': 3,
 '!': 4,
 '了': 5,
 '、': 6,
 ':': 7,
 '是': 8,
 '一': 9,
 '有': 10,
 '】': 11,
 '?': 12,
 '在': 13,
 '我': 14,
 '你': 15,
 '和': 16,
 '个': 17,
 '�': 18,
 '不': 19,
 '人': 20,
 '“': 21,
 '一个': 22,
 '就': 23,
 '都': 24,
 '也': 25,
 '我们': 26,
 '要': 27,
 '#': 28,
 '好': 29,
 '”': 30,
 '啊': 31,
 '这': 32,
 '去': 33,
 ',': 34,
 ';': 35,
 '很': 36,
 '月': 37,
 '还': 38,
 '.': 39,
 '1': 40,
 '微博': 41,
 '》': 42,
 '上': 43,
 '会': 44,
 '说': 45,
 '《': 46,
 '~': 47,
 '年': 48,
 '吧': 49,
 '小': 50,
 '大': 51,
 '天': 52,
 '能': 53,
 '-': 54,
 '吃': 55,
 '来': 56,
 '自己': 57,
 '让': 58,
 '可以': 59,
 '给': 60,
 ':': 61,
 '到': 62,
 '看': 63,
 '就是': 64,
 '最': 65,
 '(': 66,
 '为': 67,
 '中国': 68,
 '多': 69,
 '与': 70,
 '中': 71,
 '北京': 72,
 '这个': 73,
 '[': 74,
 '爱': 75,
 '他': 76,
 ']': 77,
 '做': 78,
 '日': 79,
 '【': 80,
 '把': 81,
 '想': 82,
 '又': 83,
 '没有': 84,
 '2': 85,
 '什么': 86,
 '大家': 87,
 '旅游': 88,
 '被': 89,
 '对': 90,
 '吗': 91,
 '过': 92,
 '不是': 93,
 '将': 94,
 '之': 95,
 '。。。': 96,
 ')': 97,
 '呢': 98,
 '3': 99,
 '等': 100,
 '着': 101,
 '啦': 102,
 '里': 103,
 '酒店': 104,
 '点': 105,
 '太': 106,
 '没': 107,
 '但': 108,
 '用': 109,
 '今天': 110,
 '两': 111,
 '哦': 112,
 '还是': 113,
 '第': 114,
 '……': 115,
 '而': 116,
 '三': 117,
 '――': 118,
 '次': 119,
 '喜欢': 120,
 '分享': 121,
 '从': 122,
 '后': 123,
 '知道': 124,
 '5': 125,
 '种': 126,
 '那': 127,
 '得': 128,
 '4': 129,
 '一起': 130,
 '这样': 131,
 '��': 132,
 '下': 133,
 '您': 134,
 '活动': 135,
 '?': 136,
 '(': 137,
 '们': 138,
 '你们': 139,
 '现在': 140,
 '生活': 141,
 '时候': 142,
 '请': 143,
 '才': 144,
 '时': 145,
 '再': 146,
 '世界': 147,
 '更': 148,
 '她': 149,
 '地': 150,
 '~': 151,
 '开始': 152,
 '第一': 153,
 '10': 154,
 '!': 155,
 '还有': 156,
 '可': 157,
 '这里': 158,
 '几': 159,
 '它': 160,
 '美食': 161,
 '看到': 162,
 '//': 163,
 '已经': 164,
 '因为': 165,
 '时间': 166,
 '这么': 167,
 '6': 168,
 '朋友': 169,
 '如果': 170,
 '只': 171,
 '不要': 172,
 '他们': 173,
 '美': 174,
 '谁': 175,
 '很多': 176,
 '7': 177,
 '以': 178,
 '...': 179,
 '家': 180,
 '转发': 181,
 '张': 182,
 '_': 183,
 '关注': 184,
 '元': 185,
 '…': 186,
 ')': 187,
 '8': 188,
 '支持': 189,
 '一下': 190,
 '希望': 191,
 '像': 192,
 '怎么': 193,
 '"': 194,
 '需要': 195,
 '走': 196,
 '不能': 197,
 '一定': 198,
 '/': 199,
 '上海': 200,
 '觉得': 201,
 '叫': 202,
 '位': 203,
 '比': 204,
 '于': 205,
 '自': 206,
 '条': 207,
 '老': 208,
 '旅行': 209,
 '却': 210,
 '号': 211,
 '店': 212,
 '事': 213,
 '9': 214,
 '那么': 215,
 '孩子': 216,
 '新': 217,
 '快': 218,
 '真的': 219,
 '体验': 220,
 '跟': 221,
 '转': 222,
 '地方': 223,
 '当': 224,
 '心': 225,
 '"': 226,
 '并': 227,
 '感觉': 228,
 '推荐': 229,
 '或': 230,
 '照片': 231,
 '找': 232,
 '城市': 233,
 '四': 234,
 '不会': 235,
 '幸福': 236,
 '十': 237,
 '应该': 238,
 '哈哈': 239,
 '博文': 240,
 '~~': 241,
 '真': 242,
 '小时': 243,
 '快乐': 244,
 '不错': 245,
 '工作': 246,
 '呀': 247,
 '一直': 248,
 '精彩': 249,
 '开心': 250,
 '及': 251,
 '一样': 252,
 '手机': 253,
 '最后': 254,
 '图': 255,
 '非常': 256,
 '起来': 257,
 '问题': 258,
 '发现': 259,
 '已': 260,
 '前': 261,
 '2013': 262,
 '出': 263,
 '名': 264,
 '来自': 265,
 '老师': 266,
 '至': 267,
 '所以': 268,
 '不过': 269,
 '新浪': 270,
 '看看': 271,
 '12': 272,
 '行': 273,
 '起': 274,
 '香港': 275,
 '早安': 276,
 '拍': 277,
 '如': 278,
 '成为': 279,
 '只有': 280,
 '成': 281,
 '30': 282,
 '带': 283,
 '][': 284,
 '各种': 285,
 '其实': 286,
 '人生': 287,
 '发布': 288,
 '微': 289,
 '带着': 290,
 '参加': 291,
 '但是': 292,
 '么': 293,
 '机会': 294,
 '文化': 295,
 '本': 296,
 '送': 297,
 '期待': 298,
 '+': 299,
 '儿': 300,
 '第二': 301,
 '片': 302,
 '开': 303,
 '买': 304,
 '玩': 305,
 '欢迎': 306,
 '视频': 307,
 '场': 308,
 '图片': 309,
 '获得': 310,
 '美丽': 311,
 '餐厅': 312,
 '这些': 313,
 '东西': 314,
 '11': 315,
 '感谢': 316,
 '晚上': 317,
 '正在': 318,
 '花': 319,
 '网': 320,
 '摄影': 321,
 '20': 322,
 '参与': 323,
 '半': 324,
 '五': 325,
 '那些': 326,
 '发': 327,
 '刚': 328,
 '二': 329,
 '七': 330,
 '更多': 331,
 '所有': 332,
 '由': 333,
 '只是': 334,
 '成功': 335,
 '晚': 336,
 '明天': 337,
 '水': 338,
 '可爱': 339,
 '中的': 340,
 '喝': 341,
 '%': 342,
 '电影': 343,
 '免费': 344,
 '15': 345,
 '周末': 346,
 '听': 347,
 '客户端': 348,
 '该': 349,
 '加': 350,
 '每': 351,
 '先': 352,
 '味道': 353,
 '分钟': 354,
 '咖啡': 355,
 '滴': 356,
 '美国': 357,
 '位于': 358,
 '谢谢': 359,
 '国际': 360,
 '游': 361,
 '梦想': 362,
 '真是': 363,
 '国家': 364,
 '岁': 365,
 '--': 366,
 '菜': 367,
 '那个': 368,
 '特别': 369,
 'good': 370,
 '别人': 371,
 '享受': 372,
 '长': 373,
 '每天': 374,
 '为了': 375,
 '打': 376,
 '有人': 377,
 '最好': 378,
 '写': 379,
 '达人': 380,
 '哥': 381,
 '女人': 382,
 '设计': 383,
 '其': 384,
 '无': 385,
 '服务': 386,
 '一些': 387,
 '公司': 388,
 '故事': 389,
 '出来': 390,
 '生命': 391,
 '台湾': 392,
 '内': 393,
 '必须': 394,
 '官方': 395,
 '如何': 396,
 '这种': 397,
 '创意': 398,
 '可能': 399,
 '件': 400,
 '多少': 401,
 '飞': 402,
 '日本': 403,
 '周': 404,
 '别': 405,
 '向': 406,
 '健康': 407,
 '今晚': 408,
 '不同': 409,
 '音乐': 410,
 '事情': 411,
 '选择': 412,
 '终于': 413,
 '一点': 414,
 ';': 415,
 '只要': 416,
 '座': 417,
 '全': 418,
 '风景': 419,
 '奥迪': 420,
 '站': 421,
 '然后': 422,
 '如此': 423,
 '最大': 424,
 '高': 425,
 '继续': 426,
 '好吃': 427,
 '哈哈哈': 428,
 '记得': 429,
 '香': 430,
 '版': 431,
 '死': 432,
 '总': 433,
 '妈妈': 434,
 '历史': 435,
 '此': 436,
 '准备': 437,
 '产品': 438,
 '哪': 439,
 '帮': 440,
 '永远': 441,
 '―': 442,
 '以后': 443,
 '景区': 444,
 '品牌': 445,
 '时尚': 446,
 '书': 447,
 '路上': 448,
 '现场': 449,
 '加入': 450,
 '刚刚': 451,
 '全国': 452,
 '问': 453,
 '笑': 454,
 '男人': 455,
 '一切': 456,
 '为什么': 457,
 '2012': 458,
 '阳光': 459,
 '爱心': 460,
 '子': 461,
 '今年': 462,
 '重要': 463,
 '猫': 464,
 '分': 465,
 '微信': 466,
 '・': 467,
 '天下': 468,
 '2014': 469,
 '有点': 470,
 '努力': 471,
 '厦门': 472,
 '岛': 473,
 '哈': 474,
 '生': 475,
 '粉丝': 476,
 '度': 477,
 '超级': 478,
 '美好': 479,
 '王': 480,
 '超': 481,
 '夜': 482,
 '最美': 483,
 '各位': 484,
 '主题': 485,
 '求': 486,
 '杯': 487,
 '拥有': 488,
 '经典': 489,
 '车': 490,
 '浪漫': 491,
 '肉': 492,
 '简单': 493,
 '节目': 494,
 '份': 495,
 'A': 496,
 '所': 497,
 '企业': 498,
 '真正': 499,
 '红': 500,
 '米': 501,
 '而是': 502,
 '全球': 503,
 '三亚': 504,
 '国内': 505,
 '款': 506,
 '吃货': 507,
 '之旅': 508,
 '虽然': 509,
 '拍摄': 510,
 '力': 511,
 '山': 512,
 '粉': 513,
 '总是': 514,
 '美味': 515,
 '亲': 516,
 '传统': 517,
 '」': 518,
 '学习': 519,
 '黑': 520,
 '以及': 521,
 '适合': 522,
 '六': 523,
 '秀': 524,
 '地址': 525,
 '是不是': 526,
 '管理': 527,
 '路': 528,
 '~~~': 529,
 '未来': 530,
 '好看': 531,
 '梦': 532,
 '之后': 533,
 '直接': 534,
 '100': 535,
 '茶': 536,
 '八': 537,
 '爱情': 538,
 '卫视': 539,
 '少': 540,
 '市场': 541,
 '嘛': 542,
 '越': 543,
 '提供': 544,
 '放': 545,
 '穿': 546,
 '则': 547,
 '时代': 548,
 '18': 549,
 '间': 550,
 '都会': 551,
 '成都': 552,
 '回家': 553,
 '红包': 554,
 '篇': 555,
 '广州': 556,
 '新闻': 557,
 '女': 558,
 '通过': 559,
 '抢': 560,
 '同学': 561,
 '因': 562,
 '酒': 563,
 '「': 564,
 '人们': 565,
 '干': 566,
 '才能': 567,
 '摄影师': 568,
 '回': 569,
 '结果': 570,
 '值得': 571,
 '是否': 572,
 '见': 573,
 '之一': 574,
 '感受': 575,
 '进行': 576,
 '赞': 577,
 '使': 578,
 '只能': 579,
 '以为': 580,
 '漂亮': 581,
 '者': 582,
 '面': 583,
 '自然': 584,
 '新鲜': 585,
 '神': 586,
 '而且': 587,
 '发展': 588,
 '媒体': 589,
 '下午': 590,
 '认为': 591,
 '挖': 592,
 '鱼': 593,
 '注意': 594,
 '美女': 595,
 '游客': 596,
 '入': 597,
 '作品': 598,
 '加油': 599,
 '社会': 600,
 '同时': 601,
 '拿': 602,
 '原来': 603,
 '道': 604,
 '天气': 605,
 '容易': 606,
 '话': 607,
 '22': 608,
 '约': 609,
 '放入': 610,
 '一般': 611,
 '得到': 612,
 '牛': 613,
 '中心': 614,
 '完美': 615,
 '段': 616,
 '手': 617,
 '无法': 618,
 '每日': 619,
 '推出': 620,
 '各': 621,
 '环境': 622,
 '快来': 623,
 '锅': 624,
 '字': 625,
 '可是': 626,
 '相信': 627,
 '啥': 628,
 '50': 629,
 '男': 630,
 '其中': 631,
 '艺术': 632,
 '晚安': 633,
 '找到': 634,
 '好友': 635,
 '住': 636,
 '目前': 637,
 '祝': 638,
 '之前': 639,
 '雨': 640,
 '居然': 641,
 '童鞋': 642,
 '或者': 643,
 '句': 644,
 '过去': 645,
 '→': 646,
 '作为': 647,
 '编': 648,
 '除了': 649,
 '一家': 650,
 '群': 651,
 '系列': 652,
 '温暖': 653,
 '食': 654,
 '00': 655,
 '四川': 656,
 '不用': 657,
 '不到': 658,
 '有些': 659,
 '用户': 660,
 '完全': 661,
 '进入': 662,
 '正': 663,
 '风': 664,
 '信息': 665,
 '心情': 666,
 '出现': 667,
 '使用': 668,
 '越来越': 669,
 '部': 670,
 '内容': 671,
 '看着': 672,
 '特色': 673,
 '挺': 674,
 '马上': 675,
 '相声': 676,
 '最近': 677,
 '台': 678,
 '升级': 679,
 '哪里': 680,
 '.': 681,
 '营销': 682,
 '报名': 683,
 '私信': 684,
 '即将': 685,
 '电话': 686,
 '木': 687,
 '外': 688,
 '杂志': 689,
 '绝对': 690,
 '坐': 691,
 '发生': 692,
 '君': 693,
 '其他': 694,
 '南京': 695,
 '演员': 696,
 '突然': 697,
 '每个': 698,
 '飞机': 699,
 '声音': 700,
 '���': 701,
 '吃饭': 702,
 '活': 703,
 '嘻哈': 704,
 '价格': 705,
 '建筑': 706,
 '卖': 707,
 'V': 708,
 '互联网': 709,
 '泰国': 710,
 '决定': 711,
 '先生': 712,
 '睡': 713,
 '这次': 714,
 '了解': 715,
 '食物': 716,
 '好好': 717,
 '油': 718,
 '靠': 719,
 '告诉': 720,
 '若': 721,
 '名字': 722,
 '对于': 723,
 '好像': 724,
 '法国': 725,
 '朋友们': 726,
 '坚持': 727,
 '口': 728,
 '能够': 729,
 '学': 730,
 '身边': 731,
 '方式': 732,
 '连': 733,
 '带来': 734,
 '日子': 735,
 '比较': 736,
 '太多': 737,
 '苹果': 738,
 '老板': 739,
 '时光': 740,
 '里面': 741,
 '个人': 742,
 '广告': 743,
 '任何': 744,
 '感动': 745,
 '结束': 746,
 '回来': 747,
 '炒': 748,
 '近': 749,
 '包': 750,
 '人民': 751,
 '另': 752,
 '早': 753,
 '称': 754,
 '14': 755,
 '曾': 756,
 '空间': 757,
 '确实': 758,
 '俺': 759,
 '祝福': 760,
 '著名': 761,
 '杭州': 762,
 '今日': 763,
 '人家': 764,
 '餐饮': 765,
 '更好': 766,
 '帮助': 767,
 '2011': 768,
 '曾经': 769,
 '味': 770,
 '团队': 771,
 '且': 772,
 '边': 773,
 '韩国': 774,
 '改变': 775,
 '妈': 776,
 '影响': 777,
 '最佳': 778,
 '19': 779,
 '想要': 780,
 '届': 781,
 '丰富': 782,
 '换': 783,
 '同': 784,
 '价值': 785,
 '姐': 786,
 '出发': 787,
 '下载': 788,
 '便': 789,
 '赶紧': 790,
 '钱': 791,
 '16': 792,
 '收到': 793,
 '主要': 794,
 '公里': 795,
 '达': 796,
 '13': 797,
 '必': 798,
 '新疆': 799,
 '旅': 800,
 '正式': 801,
 '24': 802,
 '建议': 803,
 '代表': 804,
 '专业': 805,
 '寻找': 806,
 '不仅': 807,
 '些': 808,
 '自由': 809,
 '80': 810,
 '旅游局': 811,
 '年前': 812,
 '声': 813,
 '集团': 814,
 '汽车': 815,
 '城': 816,
 '海': 817,
 '网络': 818,
 '肯定': 819,
 '热': 820,
 '新的': 821,
 '身体': 822,
 '21': 823,
 '品': 824,
 '即可': 825,
 '特': 826,
 '温泉': 827,
 '计划': 828,
 '笑哈哈': 829,
 '春节': 830,
 '昨天': 831,
 '云南': 832,
 '遇到': 833,
 '25': 834,
 '天天': 835,
 '首': 836,
 '头': 837,
 '碗': 838,
 '也许': 839,
 '项目': 840,
 '精神': 841,
 '节': 842,
 '颗': 843,
 '看来': 844,
 '好多': 845,
 '表示': 846,
 '九': 847,
 '优惠': 848,
 '错过': 849,
 '度假': 850,
 '深圳': 851,
 '期': 852,
 '配': 853,
 '很好': 854,
 'B': 855,
 '记者': 856,
 '卡': 857,
 '天津': 858,
 '不想': 859,
 '意大利': 860,
 '网站': 861,
 '恭喜': 862,
 '团': 863,
 '安全': 864,
 '婚礼': 865,
 '功能': 866,
 '不好': 867,
 '火': 868,
 '煮': 869,
 '型': 870,
 '尽': 871,
 '当然': 872,
 '评论': 873,
 '机场': 874,
 '雪': 875,
 '画': 876,
 '变成': 877,
 '行业': 878,
 '就要': 879,
 '政府': 880,
 '攻略': 881,
 '哟': 882,
 '处': 883,
 '季': 884,
 '据': 885,
 '游戏': 886,
 '还要': 887,
 '讲': 888,
 '整个': 889,
 '充满': 890,
 '想起': 891,
 '能力': 892,
 '真心': 893,
 '员工': 894,
 '风格': 895,
 '泡': 896,
 '欢乐': 897,
 '要求': 898,
 '之间': 899,
 '不如': 900,
 '实在': 901,
 '17': 902,
 '不了': 903,
 '一路': 904,
 '火锅': 905,
 '美景': 906,
 '英国': 907,
 '盐': 908,
 '移动': 909,
 '享': 910,
 '关于': 911,
 '再次': 912,
 '不少': 913,
 '乐': 914,
 '数据': 915,
 '当年': 916,
 '餐': 917,
 '早上': 918,
 '李': 919,
 '饭': 920,
 '亲们': 921,
 '云': 922,
 '平台': 923,
 '青年': 924,
 '唱': 925,
 '青春': 926,
 '到底': 927,
 '制作': 928,
 '估计': 929,
 '组': 930,
 '呵呵': 931,
 '依然': 932,
 '经常': 933,
 '想去': 934,
 '变': 935,
 '早餐': 936,
 '惊喜': 937,
 '丝': 938,
 '式': 939,
 '甚至': 940,
 '包括': 941,
 '蛋糕': 942,
 '保护': 943,
 '方法': 944,
 '看见': 945,
 '圣诞': 946,
 '点击': 947,
 '海南': 948,
 '西藏': 949,
 '宝宝': 950,
 '话题': 951,
 '来到': 952,
 '技术': 953,
 '愿': 954,
 '生日': 955,
 '选': 956,
 '周年': 957,
 '汤': 958,
 '德国': 959,
 '领导': 960,
 '白': 961,
 '大师': 962,
 '搭配': 963,
 '一生': 964,
 '光': 965,
 '经历': 966,
 '票': 967,
 '来说': 968,
 '夏天': 969,
 '楼': 970,
 '未': 971,
 '心里': 972,
 '南': 973,
 '仅': 974,
 '春天': 975,
 '姑娘': 976,
 '感': 977,
 '鸡': 978,
 '会员': 979,
 '明星': 980,
 '层': 981,
 '包袱': 982,
 '不管': 983,
 '搞': 984,
 '电视': 985,
 '左右': 986,
 '拉': 987,
 '完': 988,
 '某': 989,
 '最爱': 990,
 '下次': 991,
 '父母': 992,
 '竟然': 993,
 '多年': 994,
 '过来': 995,
 '东方': 996,
 '认识': 997,
 '合作': 998,
 '不断': 999,
 ...}
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 45
  • 46
  • 47
  • 48
  • 49
  • 50
  • 51
  • 52
  • 53
  • 54
  • 55
  • 56
  • 57
  • 58
  • 59
  • 60
  • 61
  • 62
  • 63
  • 64
  • 65
  • 66
  • 67
  • 68
  • 69
  • 70
  • 71
  • 72
  • 73
  • 74
  • 75
  • 76
  • 77
  • 78
  • 79
  • 80
  • 81
  • 82
  • 83
  • 84
  • 85
  • 86
  • 87
  • 88
  • 89
  • 90
  • 91
  • 92
  • 93
  • 94
  • 95
  • 96
  • 97
  • 98
  • 99
  • 100
  • 101
  • 102
  • 103
  • 104
  • 105
  • 106
  • 107
  • 108
  • 109
  • 110
  • 111
  • 112
  • 113
  • 114
  • 115
  • 116
  • 117
  • 118
  • 119
  • 120
  • 121
  • 122
  • 123
  • 124
  • 125
  • 126
  • 127
  • 128
  • 129
  • 130
  • 131
  • 132
  • 133
  • 134
  • 135
  • 136
  • 137
  • 138
  • 139
  • 140
  • 141
  • 142
  • 143
  • 144
  • 145
  • 146
  • 147
  • 148
  • 149
  • 150
  • 151
  • 152
  • 153
  • 154
  • 155
  • 156
  • 157
  • 158
  • 159
  • 160
  • 161
  • 162
  • 163
  • 164
  • 165
  • 166
  • 167
  • 168
  • 169
  • 170
  • 171
  • 172
  • 173
  • 174
  • 175
  • 176
  • 177
  • 178
  • 179
  • 180
  • 181
  • 182
  • 183
  • 184
  • 185
  • 186
  • 187
  • 188
  • 189
  • 190
  • 191
  • 192
  • 193
  • 194
  • 195
  • 196
  • 197
  • 198
  • 199
  • 200
  • 201
  • 202
  • 203
  • 204
  • 205
  • 206
  • 207
  • 208
  • 209
  • 210
  • 211
  • 212
  • 213
  • 214
  • 215
  • 216
  • 217
  • 218
  • 219
  • 220
  • 221
  • 222
  • 223
  • 224
  • 225
  • 226
  • 227
  • 228
  • 229
  • 230
  • 231
  • 232
  • 233
  • 234
  • 235
  • 236
  • 237
  • 238
  • 239
  • 240
  • 241
  • 242
  • 243
  • 244
  • 245
  • 246
  • 247
  • 248
  • 249
  • 250
  • 251
  • 252
  • 253
  • 254
  • 255
  • 256
  • 257
  • 258
  • 259
  • 260
  • 261
  • 262
  • 263
  • 264
  • 265
  • 266
  • 267
  • 268
  • 269
  • 270
  • 271
  • 272
  • 273
  • 274
  • 275
  • 276
  • 277
  • 278
  • 279
  • 280
  • 281
  • 282
  • 283
  • 284
  • 285
  • 286
  • 287
  • 288
  • 289
  • 290
  • 291
  • 292
  • 293
  • 294
  • 295
  • 296
  • 297
  • 298
  • 299
  • 300
  • 301
  • 302
  • 303
  • 304
  • 305
  • 306
  • 307
  • 308
  • 309
  • 310
  • 311
  • 312
  • 313
  • 314
  • 315
  • 316
  • 317
  • 318
  • 319
  • 320
  • 321
  • 322
  • 323
  • 324
  • 325
  • 326
  • 327
  • 328
  • 329
  • 330
  • 331
  • 332
  • 333
  • 334
  • 335
  • 336
  • 337
  • 338
  • 339
  • 340
  • 341
  • 342
  • 343
  • 344
  • 345
  • 346
  • 347
  • 348
  • 349
  • 350
  • 351
  • 352
  • 353
  • 354
  • 355
  • 356
  • 357
  • 358
  • 359
  • 360
  • 361
  • 362
  • 363
  • 364
  • 365
  • 366
  • 367
  • 368
  • 369
  • 370
  • 371
  • 372
  • 373
  • 374
  • 375
  • 376
  • 377
  • 378
  • 379
  • 380
  • 381
  • 382
  • 383
  • 384
  • 385
  • 386
  • 387
  • 388
  • 389
  • 390
  • 391
  • 392
  • 393
  • 394
  • 395
  • 396
  • 397
  • 398
  • 399
  • 400
  • 401
  • 402
  • 403
  • 404
  • 405
  • 406
  • 407
  • 408
  • 409
  • 410
  • 411
  • 412
  • 413
  • 414
  • 415
  • 416
  • 417
  • 418
  • 419
  • 420
  • 421
  • 422
  • 423
  • 424
  • 425
  • 426
  • 427
  • 428
  • 429
  • 430
  • 431
  • 432
  • 433
  • 434
  • 435
  • 436
  • 437
  • 438
  • 439
  • 440
  • 441
  • 442
  • 443
  • 444
  • 445
  • 446
  • 447
  • 448
  • 449
  • 450
  • 451
  • 452
  • 453
  • 454
  • 455
  • 456
  • 457
  • 458
  • 459
  • 460
  • 461
  • 462
  • 463
  • 464
  • 465
  • 466
  • 467
  • 468
  • 469
  • 470
  • 471
  • 472
  • 473
  • 474
  • 475
  • 476
  • 477
  • 478
  • 479
  • 480
  • 481
  • 482
  • 483
  • 484
  • 485
  • 486
  • 487
  • 488
  • 489
  • 490
  • 491
  • 492
  • 493
  • 494
  • 495
  • 496
  • 497
  • 498
  • 499
  • 500
  • 501
  • 502
  • 503
  • 504
  • 505
  • 506
  • 507
  • 508
  • 509
  • 510
  • 511
  • 512
  • 513
  • 514
  • 515
  • 516
  • 517
  • 518
  • 519
  • 520
  • 521
  • 522
  • 523
  • 524
  • 525
  • 526
  • 527
  • 528
  • 529
  • 530
  • 531
  • 532
  • 533
  • 534
  • 535
  • 536
  • 537
  • 538
  • 539
  • 540
  • 541
  • 542
  • 543
  • 544
  • 545
  • 546
  • 547
  • 548
  • 549
  • 550
  • 551
  • 552
  • 553
  • 554
  • 555
  • 556
  • 557
  • 558
  • 559
  • 560
  • 561
  • 562
  • 563
  • 564
  • 565
  • 566
  • 567
  • 568
  • 569
  • 570
  • 571
  • 572
  • 573
  • 574
  • 575
  • 576
  • 577
  • 578
  • 579
  • 580
  • 581
  • 582
  • 583
  • 584
  • 585
  • 586
  • 587
  • 588
  • 589
  • 590
  • 591
  • 592
  • 593
  • 594
  • 595
  • 596
  • 597
  • 598
  • 599
  • 600
  • 601
  • 602
  • 603
  • 604
  • 605
  • 606
  • 607
  • 608
  • 609
  • 610
  • 611
  • 612
  • 613
  • 614
  • 615
  • 616
  • 617
  • 618
  • 619
  • 620
  • 621
  • 622
  • 623
  • 624
  • 625
  • 626
  • 627
  • 628
  • 629
  • 630
  • 631
  • 632
  • 633
  • 634
  • 635
  • 636
  • 637
  • 638
  • 639
  • 640
  • 641
  • 642
  • 643
  • 644
  • 645
  • 646
  • 647
  • 648
  • 649
  • 650
  • 651
  • 652
  • 653
  • 654
  • 655
  • 656
  • 657
  • 658
  • 659
  • 660
  • 661
  • 662
  • 663
  • 664
  • 665
  • 666
  • 667
  • 668
  • 669
  • 670
  • 671
  • 672
  • 673
  • 674
  • 675
  • 676
  • 677
  • 678
  • 679
  • 680
  • 681
  • 682
  • 683
  • 684
  • 685
  • 686
  • 687
  • 688
  • 689
  • 690
  • 691
  • 692
  • 693
  • 694
  • 695
  • 696
  • 697
  • 698
  • 699
  • 700
  • 701
  • 702
  • 703
  • 704
  • 705
  • 706
  • 707
  • 708
  • 709
  • 710
  • 711
  • 712
  • 713
  • 714
  • 715
  • 716
  • 717
  • 718
  • 719
  • 720
  • 721
  • 722
  • 723
  • 724
  • 725
  • 726
  • 727
  • 728
  • 729
  • 730
  • 731
  • 732
  • 733
  • 734
  • 735
  • 736
  • 737
  • 738
  • 739
  • 740
  • 741
  • 742
  • 743
  • 744
  • 745
  • 746
  • 747
  • 748
  • 749
  • 750
  • 751
  • 752
  • 753
  • 754
  • 755
  • 756
  • 757
  • 758
  • 759
  • 760
  • 761
  • 762
  • 763
  • 764
  • 765
  • 766
  • 767
  • 768
  • 769
  • 770
  • 771
  • 772
  • 773
  • 774
  • 775
  • 776
  • 777
  • 778
  • 779
  • 780
  • 781
  • 782
  • 783
  • 784
  • 785
  • 786
  • 787
  • 788
  • 789
  • 790
  • 791
  • 792
  • 793
  • 794
  • 795
  • 796
  • 797
  • 798
  • 799
  • 800
  • 801
  • 802
  • 803
  • 804
  • 805
  • 806
  • 807
  • 808
  • 809
  • 810
  • 811
  • 812
  • 813
  • 814
  • 815
  • 816
  • 817
  • 818
  • 819
  • 820
  • 821
  • 822
  • 823
  • 824
  • 825
  • 826
  • 827
  • 828
  • 829
  • 830
  • 831
  • 832
  • 833
  • 834
  • 835
  • 836
  • 837
  • 838
  • 839
  • 840
  • 841
  • 842
  • 843
  • 844
  • 845
  • 846
  • 847
  • 848
  • 849
  • 850
  • 851
  • 852
  • 853
  • 854
  • 855
  • 856
  • 857
  • 858
  • 859
  • 860
  • 861
  • 862
  • 863
  • 864
  • 865
  • 866
  • 867
  • 868
  • 869
  • 870
  • 871
  • 872
  • 873
  • 874
  • 875
  • 876
  • 877
  • 878
  • 879
  • 880
  • 881
  • 882
  • 883
  • 884
  • 885
  • 886
  • 887
  • 888
  • 889
  • 890
  • 891
  • 892
  • 893
  • 894
  • 895
  • 896
  • 897
  • 898
  • 899
  • 900
  • 901
  • 902
  • 903
  • 904
  • 905
  • 906
  • 907
  • 908
  • 909
  • 910
  • 911
  • 912
  • 913
  • 914
  • 915
  • 916
  • 917
  • 918
  • 919
  • 920
  • 921
  • 922
  • 923
  • 924
  • 925
  • 926
  • 927
  • 928
  • 929
  • 930
  • 931
  • 932
  • 933
  • 934
  • 935
  • 936
  • 937
  • 938
  • 939
  • 940
  • 941
  • 942
  • 943
  • 944
  • 945
  • 946
  • 947
  • 948
  • 949
  • 950
  • 951
  • 952
  • 953
  • 954
  • 955
  • 956
  • 957
  • 958
  • 959
  • 960
  • 961
  • 962
  • 963
  • 964
  • 965
  • 966
  • 967
  • 968
  • 969
  • 970
  • 971
  • 972
  • 973
  • 974
  • 975
  • 976
  • 977
  • 978
  • 979
  • 980
  • 981
  • 982
  • 983
  • 984
  • 985
  • 986
  • 987
  • 988
  • 989
  • 990
  • 991
  • 992
  • 993
  • 994
  • 995
  • 996
  • 997
  • 998
  • 999
  • 1000
  • 1001
# 查询词语“地球”对应的词向量
word2vec.word_vec('地球')
  • 1
  • 2
<ipython-input-53-68063290bfef>:2: DeprecationWarning: Call to deprecated `word_vec` (Use get_vector instead).
  word2vec.word_vec('地球')





array([ 0.594169, -0.568692, -0.776196, -0.324364,  0.016311, -0.225051,
        0.420986,  0.43116 ,  0.428265, -0.256983,  0.370124,  0.305862,
       -0.020324,  0.243007,  0.234712, -0.614161, -0.140672,  0.695551,
        0.083963,  0.689722,  0.233259,  0.152571,  1.024671,  0.139783,
        0.202395,  0.152258, -0.26312 ,  0.102958,  0.248036,  0.131189,
        0.275885,  0.082996,  0.491571,  0.225018,  0.266493, -0.420912,
       -0.471418,  0.809017,  0.141163,  1.130004, -0.261278, -0.856712,
       -0.400395,  0.198048,  0.05645 ,  0.678296,  0.2836  , -0.130534,
        0.805508,  0.093283, -0.646966,  0.529736,  0.779232,  0.551138,
        0.174808,  0.247027, -0.373688, -0.576475, -0.325732, -0.082459,
       -0.47632 , -0.229266,  2.085353,  0.592716,  0.176334,  0.497692,
        0.649653,  0.144183,  0.703805,  0.034919,  0.748792,  0.085221,
        0.473858, -0.401072, -0.947229,  0.576858,  0.315247, -0.640268,
        0.342379, -1.558704,  0.086163,  0.334141, -0.820931, -0.971747,
        0.265167,  0.501708, -0.44508 , -0.201019,  1.137126, -0.524235,
        0.358898, -0.225462,  0.265465, -0.206449, -1.366041,  0.199185,
        0.268479, -0.708933, -0.317492,  0.005376,  0.459616, -0.052285,
       -0.337994, -1.220452,  0.09167 ,  0.315118, -0.063763, -0.426036,
        0.205738,  0.323416,  0.57625 , -0.164826, -0.525151, -0.1566  ,
       -0.518378,  0.313611,  0.06549 ,  0.194561,  0.198763, -0.622947,
        0.689087,  0.152702, -0.230708,  0.393303,  0.288658, -0.469481,
        0.101568, -0.559899, -0.239013,  0.04444 , -0.512653, -0.191998,
       -0.154456,  1.33964 ,  0.32832 ,  0.982129, -0.171914,  0.494866,
        1.032956,  0.24044 , -0.905777, -0.272647, -0.161794, -0.211096,
       -0.920188,  0.985234, -0.044058, -0.38891 ,  0.681905, -0.400282,
       -0.500766, -0.127555,  0.307823,  0.694935, -0.512435, -0.901273,
        0.641044, -0.16945 ,  0.632315,  0.272749, -0.694152,  0.686993,
        0.262837,  0.59613 ,  0.090302,  1.860848, -0.166851,  0.276754,
       -0.555203,  0.697493,  0.936634,  0.193718,  0.196608,  0.073793,
        0.082054,  0.284785, -0.812682, -0.204861,  0.824906, -0.676902,
       -0.854978, -0.909203, -0.280592, -0.480879, -0.217995, -0.256043,
        0.517293,  0.201248, -0.565574,  0.360344,  0.181837, -0.133435,
       -0.334987,  0.040227,  0.501909,  0.191659,  0.209178,  0.099721,
       -0.124362,  0.848287, -0.029316,  0.113569,  0.747785,  0.206726,
        0.339223,  0.1414  , -0.828587,  0.846909, -0.486901,  0.042668,
       -0.349429, -0.0491  , -0.188621,  0.628018,  0.787592,  0.619018,
       -0.729359,  0.633972,  0.678034, -0.252666,  0.008   , -0.2895  ,
        0.995281, -0.099295,  0.846986,  0.657285,  0.736554,  0.796017,
       -0.118278, -0.671056, -0.684588,  0.024951,  0.084893,  1.330889,
       -0.907356, -0.469333, -0.937091, -0.621381,  0.037569,  1.131863,
       -0.082662, -0.200744,  0.316928, -0.207599,  0.280597, -0.627365,
        1.029001,  0.589092,  0.556169,  0.513512, -0.441827,  0.05047 ,
       -0.215281, -1.183606, -0.011877, -0.588229, -0.492906,  0.49306 ,
        0.377719,  0.569881, -0.647512,  0.328652, -0.105831,  0.318817,
       -0.024814, -0.292444, -0.298455, -0.460332,  0.08468 , -0.303269,
       -0.0561  , -0.369285,  0.584729, -0.051919,  0.328322, -0.826165,
       -0.872997, -1.262497,  0.06934 , -0.400124, -0.969265, -0.209392,
       -0.524788,  0.12054 , -0.275462,  0.336152, -0.465911,  0.601564,
        1.018939,  0.239033,  0.63644 ,  1.337305,  0.22037 ,  0.3295  ,
       -0.219874,  0.385543, -0.417511,  0.481287, -1.519231,  0.074622],
      dtype=float32)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 45
  • 46
  • 47
  • 48
  • 49
  • 50
  • 51
  • 52
  • 53
  • 54
  • 55
  • 56
  • 57
  • 58
# 查询与“地球”最相近的词
word2vec.most_similar('地球')
  • 1
  • 2
[('自转', 0.5498958230018616),
 ('@WWF', 0.5482718348503113),
 ('世界自然基金会', 0.5304360389709473),
 ('月球', 0.5204099416732788),
 ('太阳系', 0.5103502869606018),
 ('熄灯', 0.509930431842804),
 ('星球', 0.5082988142967224),
 ('8.214', 0.5052586793899536),
 ('地球日', 0.4897368550300598),
 ('小行星', 0.47547173500061035)]
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10

2:获取embedding_matrix

通过以上操作我们可以得到微博文本的词向量表示。每一条谣言为一条样本数据。通过分词和去除停用词得到每一

条样本的文本特征,再使用已训练好的词向量得到上述谣言文本特征词的向量表示。

本节用以构造可以输入到机器学习模型与深度学习模型的样本矩阵。

每一条样本为50000*300维的矩阵。每一个词表示为300维的向量。50000为微博词汇库里使用频率前50000个词汇。

若某条数据有7个词汇,则该数据为50000*300维的矩阵,且只有7行非0,其余元素全为0.显然样本数据高度稀疏。

举例:

非谣:1 #星娱星乐#一个朋友和一个送外卖的帅哥之间的故事。温馨有爱,令人感动。

提取文本特征:星娱星乐 朋友 送 外卖 帅哥 故事 温馨 爱 感动,共9个文本特征词汇

由于词汇“星娱星乐”不属于频率为前50000词汇,去除该文本。剩下8个文本特征。

该样本为50000*300维的矩阵,其中只有词汇“朋友 送 外卖 帅哥 故事 温馨 爱 感动”对应的行向量非0,其余词

向量变为0.

在这里插入图片描述


  • 1

  • 1
本文内容由网友自发贡献,转载请注明出处:https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/420199
推荐阅读
相关标签
  

闽ICP备14008679号