赞
踩
对于自然语言处理的诸多任务,不同的任务所需要处理的数据类型不一样,但最后都是需要把这些数据转换为计算机能够计算的数值形式,Filed类的设计思想用来将不同的文本数据转换为用
t
e
n
s
o
r
tensor
tensor表示,以情感分析为例子。
情感分析的数据一般是由
T
e
x
t
Text
Text和
l
a
b
e
l
label
label两个字段表示,
T
e
x
t
Text
Text表示一个文本、一段话或一个句子。
L
a
b
e
l
Label
Label表示
T
e
x
t
Text
Text类别,积极或消极,也可以用数字0和1表示,
F
i
e
l
d
Field
Field类就是要把
T
e
x
t
Text
Text和
L
a
b
e
l
Label
Label 两个字段的数据转换为tensor表示。
先对
F
i
e
l
d
Field
Field类参数进行表示:
TabularDataset类定义以 CSV、TSV 或 JSON 格式存储的列的数据集。
上面是官方文档中对TabularDataset的描述,顾名思义,tabular为表格的意思,TabularDataset类将以表格形式存储的数据抽象为一个类,方便后续的数据处理;我们可以直接使用 Dataset 类方法 splits 来得到 Dataset 对象,也可以继承该类来定制自己的 TabularDataset 类;TabularDataset 类继承 Dataset 类;
fields = [('label', labels), ('comment_processed', comments)]
train, valid, test = TabularDataset.splits(path='/data', format='csv',
train='train_data.csv', validation='valid_data.csv', test='test_data.csv',
skip_header=True, fields=fields)
定义从Dataset中加载批量数据的迭代器。
对
l
t
e
r
a
t
o
r
lterator
lterator类进行参数解释。
从一个数据集合中按照一定的顺序,不断的取出数据的过程。
迭代强调的依次取出,不能确定取出有多少。
对迭代过程的封装,通常为对象,不同的语言,表现出来的迭代形式不一样。
是一个功能丰富的迭代器,其功能包括,但不限于:
慢慢的会根据代码,将数据迭代器全部都将其搞清楚,会自己研究每个参数,将各个参数及代码迭代器全部都将其搞透彻,研究彻底。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。