赞
踩
json格式对应的文件链接(名字为sarcasm.json)
对应的其中一组数据如下:
import os os.environ['TF_CPP_MIN_LOG_LEVEL']='3' import json with open(r'D:\pythonproject\tmp\sarcasm.json', 'r') as f: datastore = json.load(f) #里面为对应的放置文件的位置,操作完之后将获得一个列表datastore #里面包含三种数据类型的列表:标题,URL和is_sarcastic标签 sentences = [] labels = [] urls = [] for item in datastore: sentences.append(item['headline']) labels.append(item['is_sarcastic']) urls.append(item['article_link']) #获得相应标题下面的内容,放到对应的list列表里面 #labels以及urls中的对应内容本文之中用不到 from tensorflow.keras.preprocessing.text import Tokenizer from tensorflow.keras.preprocessing.sequence import pad_sequences tokenizer = Tokenizer(oov_token="<OOV>") tokenizer.fit_on_texts(sentences) word_index = tokenizer.word_index #如果遇到了很大的数据,它将在文中执行word_index = tokenizer.word_index #以排序此过程 print(len(word_index)) print(word_index) #显示里面单词对应的索引值 sequences = tokenizer.texts_to_sequences(sentences) padded = pad_sequences(sequences, padding='post') #根据文本创建序列以及填充它们 print(sentences[0]) #输出对应的句子 print(padded[0]) #将第一个标题在数据集中显示其输出,输出的是填充矩阵的大小 #填充矩阵使句子最多40个单词,这是最长单词的长度 print(padded.shape)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。