赞
踩
NLP:基于对文本数据利用LSTM算法(tensorflow框架/学习映射)算法作为标签器进行结构化序列标记实现将大量的文本数据转化为结构化数据应用案例实现代码
导读:
第一步,对每一个词语进行标记:目标是给每个单词分配一个标记,需要模型能够为序列中的每个元素(每个单词)输出一个标记。这可以通过设置模型的返回序列(return_sequences=True)来实现。模型就可以为每个时间步(每个单词)输出一个标记。
第二步,利用RNN或CNN作为序列标注器(tagger):它的任务就是给序列的每个元素分配标记
>>RNN(如LSTM或GRU)和CNN都是处理序列数据的经典模型。可以将文本作为输入序列,输出每个元素(单词)的标记。
>>RNN利用序列中元素的顺序依赖性,CNN利用周围元素的局部依赖性。两个模型各有优势。
第三步,构建结构化字段:结果字段将有序地记录每个单词及其对应的标记。
例如,(hello, NN), (world,VV),表示hello是一个名词,world是一个动词。
目录
基于对文本数据利用LSTM算法(tensorflow框架/学习映射)算法作为标签器进行结构化序列标记实现将大量的文本数据转化为结构化数据应用案例
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。