浅谈bert和lstm_bert和lstm运行速度

作者：菜鸟追梦旅行 | 2024-02-29 11:46:50

踩

bert和lstm运行速度

概述：
lstm是代表性的rnn结构，rnn提出是为了解决时序的问题；典型的例子就是NLP中的句子理解，视频的内容理解；模型结构的设计保证输入顺序按照时序顺序对结果产生影响，当前时间步的输入是当前位置和上一个时间步的输出。

优点：
解决了dnn或者是bow词袋模型的问题，不能区分时序

缺点：
处理长文本的时候耗时较长，考虑到上下文，一般还采用双向rnn结构；模型效果上，对于长依赖问题效果不好，容易理解经过很多个step的传递，信息会减弱

BERT
概述
bert通过注意力机制实现时序的理解，我认为精妙之处有两点，一点是位置编码融入向量表达，另外一点是就是注意力机制中的QKV矩阵了；残差网络防止网络过于复杂带来的过拟合。

优点
注意力机制，也就是每个位置相对另一个位置的权重是可以并行计算的，在计算资源足够的前提下比lstm会快很多；通过设计预训练任务，用海量无监督数据做预训练，模型效果更好

缺点
由于网络更加复杂，计算量相对lstm更大，训练收敛更慢

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/165416