当前位置:   article > 正文

nlp~tensorflow解析json格式文件

nlp~tensorflow解析json格式文件

json格式对应的文件链接(名字为sarcasm.json)
对应的其中一组数据如下:
对应的一组数据

import os
os.environ['TF_CPP_MIN_LOG_LEVEL']='3'
import json

with open(r'D:\pythonproject\tmp\sarcasm.json', 'r') as f:
    datastore = json.load(f)
#里面为对应的放置文件的位置,操作完之后将获得一个列表datastore
#里面包含三种数据类型的列表:标题,URL和is_sarcastic标签

sentences = [] 
labels = []
urls = []
for item in datastore:
    sentences.append(item['headline'])
    labels.append(item['is_sarcastic'])
    urls.append(item['article_link'])
#获得相应标题下面的内容,放到对应的list列表里面
#labels以及urls中的对应内容本文之中用不到
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
tokenizer = Tokenizer(oov_token="<OOV>")
tokenizer.fit_on_texts(sentences)

word_index = tokenizer.word_index
#如果遇到了很大的数据,它将在文中执行word_index = tokenizer.word_index
#以排序此过程
print(len(word_index))
print(word_index)
#显示里面单词对应的索引值
sequences = tokenizer.texts_to_sequences(sentences)
padded = pad_sequences(sequences, padding='post')
#根据文本创建序列以及填充它们
print(sentences[0])
#输出对应的句子
print(padded[0])
#将第一个标题在数据集中显示其输出,输出的是填充矩阵的大小
#填充矩阵使句子最多40个单词,这是最长单词的长度
print(padded.shape)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Gausst松鼠会/article/detail/342409
推荐阅读
相关标签
  

闽ICP备14008679号