当前位置:   article > 正文

NLP:基于对文本数据利用LSTM算法(tensorflow框架/学习映射)算法作为标签器进行结构化序列标记实现将大量的文本数据转化为结构化数据应用案例实现代码_文本转换为数据 nlp

文本转换为数据 nlp

NLP:基于对文本数据利用LSTM算法(tensorflow框架/学习映射)算法作为标签器进行结构化序列标记实现将大量的文本数据转化为结构化数据应用案例实现代码

导读
第一步,对每一个词语进行标记:目标是给每个单词分配一个标记,需要模型能够为序列中的每个元素(每个单词)输出一个标记。这可以通过设置模型的返回序列(return_sequences=True)来实现。模型就可以为每个时间步(每个单词)输出一个标记。
第二步,利用RNN或CNN作为序列标注器(tagger):它的任务就是给序列的每个元素分配标记
>>RNN(如LSTM或GRU)和CNN都是处理序列数据的经典模型。可以将文本作为输入序列,输出每个元素(单词)的标记。
>>RNN利用序列中元素的顺序依赖性,CNN利用周围元素的局部依赖性。两个模型各有优势。
第三步,构建结构化字段:结果字段将有序地记录每个单词及其对应的标记。
例如,(hello, NN), (world,VV),表示hello是一个名词,world是一个动词。

目录

基于对文本数据利用LSTM算法(tensorflow框架/学习映射)算法作为标签器进行结构化序列标记实现将大量的文本数据转化为结构化数据应用案例

# 1、定义数据集

# 将二维列表拉平

# 2、数据预处理

# 2.1、特征去重+编码

# 2.2、标签去重+编码

# 2.3、特征与标签填充

# 3、模型训练与推理

# 3.1、构建LSTM模型

# 3.2、模型训练

# 4、模型推理

# 4.1、定义新样本

# 4.2、新样本进行编码

# 4.3、对新样本进行预测

# 基于最大值所在索引来查找对应的标签

# 输出新样本中每个单词对应的标签

# 转为结构化数据

实现代码


声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/秋刀鱼在做梦/article/detail/1011883
推荐阅读
相关标签
  

闽ICP备14008679号