赞
踩
在解释文本向量如何向量化之前,先要明白文本为什么要向量化?如果你向计算机中输入“明天我要出去玩”,计算机不知道你要做什么,因为他识别不了这样的语言,但是你和计算机说0101,他就能明白你的意思。所以,非结构化数据,像语音、视频、文字等等,在输入到人工智能算法之前,都要先转化为能代表他们的特征或矩阵。
就像26个英文字母是没有意义的,但是每个中文词汇都有一个对应的、由他们组成的英文单词,如苹果和“apple”。“我有一个苹果”这句话能根据中英转换的规则变成“I have a apple”,就可以根据另一种规则转化成既能代表这句话又能被计算机识别的语句(向量/矩阵)。
由于输入到算法中训练的是转化后的矩阵/向量,所以文本向量化后所带的特征信息是区别其他文本的重要依据。一个文本语句在进行向量化之前,就已经经过了文本预处理和分词,去掉各种语气词并变成了一个个词语。如:明天你回家不回家啊。会去掉“啊”这种语气词,同时,根据词库,“明”和“天”会被当成一个词处理,最后分词结果会是“明天/你/回家/不/回家”,而不是“明/天/你/回/家/不/回/家”。
如果简单的按照词语出现的频率来向量化,“明天/你/回家/不/回家”,就会对应成(1,1,2,1),其中“回家”的频率是两次。而实际上ÿ
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。