当前位置:   article > 正文

TensorFlow:好用的时间序列训练测试集生成器(Python)_disparseinput tensorflow

disparseinput tensorflow


前言

当我们使用TensorFlow框架搭建时间序列训练模型的时候,如何处理时间序列数据,生成训练集和测试集往往是一个不那么重要但是很麻烦的步骤,很多人选择自己写程序,但是有工具干嘛不用?官方教程使用的是timeseries_dataset_from_array,但是这个是适用TensorFlow在2.3或者以上的版本,对于较低版本不兼容,所以选择TimeseriesGenerator更保险一些,虽然功能上较前者稍微差一点,但也不影响。


一、tf.keras.preprocessing.sequence.TimeseriesGenerator介绍

tf.keras.preprocessing.sequence.TimeseriesGenerator(
data, targets, length, sampling_rate=1, stride=1, start_index=0, end_index=None,
shuffle=False, reverse=False, batch_size=128
)

主要参数介绍:
data:需要转换的原始时间序列
targets:需要转换的原始标签
length:生成的每段训练、测试时间序列长度
sampling_rate:采样间隔,一段采样中每个中间隔多少
stride:滑动步长
start_index:采样数据从哪个index开始
end_index:采样数据从哪个index结束
shuffle:是否打乱数据顺序
reverse:如果是True,那么会将采样时序倒过来呈现
batch_size:每批次中的时序数据数量

难理解点:sampling_rate和stride的功能区别在哪里?后面通过例子说明。

二、示例展示

代码如下(示例):

data = np.array([[i] for i in range(50)])
targets = np.array([[i] for i in range(50)])

data_gen = tf.keras.preprocessing.sequence.TimeseriesGenerator(data, targets,
                               length=10, sampling_rate=1, stride=1,
                               batch_size=2)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
print(data_gen[0])

(array([[[0],
        [1],
        [2],
        [3],
        [4]],

       [[1],
        [2],
        [3],
        [4],
        [5]]]), array([[5],
       [6]]))
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
print(data_gen[1])

(array([[[2],
        [3],
        [4],
        [5],
        [6]],

       [[3],
        [4],
        [5],
        [6],
        [7]]]), array([[7],
       [8]]))
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14

sampling_rate和stride的功能区别

data_gen = tf.keras.preprocessing.sequence.TimeseriesGenerator(data, targets,
                               length=5, sampling_rate=1, stride=2,
                               batch_size=2)
print(data_gen[0])
  • 1
  • 2
  • 3
  • 4
(array([[[0],
        [1],
        [2],
        [3],
        [4]],

       [[2],
        [3],
        [4],
        [5],
        [6]]]), array([[5],
       [7]]))
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
data_gen = tf.keras.preprocessing.sequence.TimeseriesGenerator(data, targets,
                               length=5, sampling_rate=2, stride=1,
                               batch_size=2)
print(data_gen[0])
  • 1
  • 2
  • 3
  • 4
(array([[[0],
        [2],
        [4]],

       [[1],
        [3],
        [5]]]), array([[5],
       [6]]))
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8

总结

总的来说timeseries_dataset_from_array比TimeseriesGenerator功能更强大,但是TimeseriesGenerator兼容性更强一点,对于不想麻烦调整环境的人来说,还是更倾向于使用TimeseriesGenerator。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家自动化/article/detail/293118
推荐阅读
相关标签
  

闽ICP备14008679号