基于DeepConvLSTM的传感器信号分类

随机智能手机的普及，在日常生活中，大多数人在做任何事情的时候，都会随身携带手机。如果开启手机中的传感器，当用户运动时，就可以采集大量的用户信息，根据这些信息，就可以判断当前用户的运动模式，如行走、上楼梯、下楼梯、坐、站立、躺下等等。基于这些运动模式，设计不同的场景，为健身类或运动类应用（APP）增加一些有趣功能。

在智能手机中，常见的位置信息传感器就是加速度传感器（Accelerometer）和陀螺仪（Gyroscope）。

加速度传感器：用于测量手机移动速度的变化和位置的变化；
陀螺仪：用于测试手机移动方向的变化和旋转速度的变化；

本文主要根据手机的传感器数据，训练深度学习模型，用于预测用户的运动模式。

技术方案：

DL：DeepConvLSTM
Keras：2.1.5
TensorFlow：1.4.0

本文源码：https://github.com/SpikeKing/MachineLearningDemos/tree/master/motion_detector

数据

本例的数据来源于UCI（即UC Irvine，加州大学欧文分校）。数据由年龄在19-48岁之间的30位志愿者，智能手机固定于他们的腰部，执行六项动作，即行走、上楼梯、下楼梯、坐、站立、躺下，同时在手机中存储传感器（加速度传感器和陀螺仪）的三维（XYZ轴）数据。传感器的频率被设置为50HZ（即每秒50次记录）。对于所输出传感器的维度数据，进行噪声过滤（Noise Filter），以2.56秒的固定窗口滑动，同时窗口之间包含50%的重叠，即每个窗口的数据维度是128（2.56*50）维，根据不同的运动类别，将数据进行标注。传感器含有三类：身体（Body）的加速度传感器、整体（Total）的加速度传感器、陀螺仪。

以下是根据数据绘制的运动曲线，站立（红色）、坐（绿色）、躺下（橙色）的振幅较小，而行走（蓝色）、上楼梯（紫色）、下楼梯（黑色）的振幅较大。

以下是在行走（Walking）中，三类传感器的三个轴，共9维数据的运动曲线：

以下是在坐（Sitting）中的运动曲线：

通过观察可知，不同运动模式的传感器数据曲线拥有一定的差异性，但是有些运动模式的差异性并不明显，如行走、上楼梯、下楼梯之间；相同运动模式的传感器数据曲线也各不相同。

在数据源中，70%的数据作为训练数据，30%的数据作为测试数据，生成训练数据的志愿者与生成测试数据的不同，以保证数据的严谨性，符合在实际应用中预测未知用户动作的准则。

UCI数据源

模型

模型是基于深度学习的DeepConvLSTM算法，算法融合了卷积（Convolution）和LSTM操作，既可以学习样本的空间属性，也可以学习时间属性。在卷积操作中，通过将信号与卷积核相乘，过滤波形信号，保留高层信息。在LSTM操作中，通过记忆或遗忘前序信息，发现信号之间的时序关系。

DeepConvLSTM算法的框架，如下：

将每类传感器（身体加速度、整体加速度、陀螺仪）的3个坐标轴（XYZ）数据，合并成一个数据矩阵，即(128, 3)维，作为输入数据，每类传感器均创建1个DeepConvLSTM模型，共3个模型。通过3次卷积操作和3次LSTM操作，将数据抽象为128维的LSTM输出向量。

在CNN的卷积单元中，通过卷积（1x1卷积核）、BN、MaxPooling（2维chihua）、Dropout的组合操作，连续3组，最后一组执行Dropout。通过MaxPooling的降维操作（2^3=8），将128维的数据转为为16维的高层特征。

在RNN的时序单元中，通过LSTM操作，隐含层神经元数设置为128个，连续三次，将16维的卷积特征转换为128维的时序特征，再执行Dropout操作。

最后，将3个传感器的3个模型输出，合并（Merge）为一个输入，即128*3=384，再执行Dropout、全连接（Dense）、BN等操作，最后使用Softmax激活函数，输出6个类别的概率。

选择概率较大的类别，作为最终预测的运动模式。

效果

在第48层中，即Concatenate层，将3个传感器的LSTM输出合并（Merge）成1个输入，不同类别的特征，效果也不同，如：

训练参数：


epochs = 100
batch_size = 256
kernel_size = 3
pool_size = 2
dropout_rate = 0.15
n_classes = 6
复制代码

最终效果，在测试集中，准确率约为95%左右：


loss: 0.0131 - acc: 0.9962 - val_loss: 0.1332 - val_acc: 0.9535
val_f1:  0.953794 — val_precision:  0.958533 — val_recall  0.949101
复制代码

如果继续调整参数，还可以提升准确率。

通过深度学习算法训练的用户动作识别模型，可以应用于移动端进行场景检测，包含行走、上楼梯、下楼梯、坐、站立、躺下等六种动作。同时，95%的准确率已经满足大多数产品的需求。

By C. L. Wang @ 美图云事业部

参考：Merge versus merge、visualization、DeepConvLSTM、 multiclass one-hot