二、NLP中的序列标注（分词、主体识别）

作者：不正经 | 2024-03-09 11:46:29

踩

一般来说，一个序列指的是一个句子，而一个元素指的是句子中的一个词。在序列标注中，我们想对一个序列的每一个元素标注一个分类标签。比如信息提取问题可以认为是一个序列标注问题，如提取出会议时间、地点等。

常见的应用场景：分词，实体识别等。

例如如下一个句子：腾讯是中国最大的游戏公司

腾-ic 讯-ic 是-v 中-ns 国-ns 最-a 大-a 的-uj 游-n 戏-n 公-n 司-n

学习后将得到如下结果：

[pair('腾讯', 'ic'), pair('是', 'v'), pair('中国', 'ns'), pair('最大', 'a'), pair('的', 'uj'), pair('游戏', 'n'), pair('公司', 'n')]

其中ic即为我们新定义的一个词性“互联网公司”，这样就能够在分词时，直接得到我们想要的预测结果。

（1）常见的实体：人名、机构名、地名、时间、日期、货币和百分比

（2）标注方式：


原句：2024年3月8日是世界第114个妇女节
标注后：2024年3月8日-B-时间 下午-O-时间 15点50分-O-时间 我-O 写下-O 了-O 此-O 博客-O

常用模型：HMM（已知上文，推理下文，隐马尔科夫假设：某一时刻的状态只与前一个时刻的状态有关，而与其他时刻状态无光）、CRF（包含更多上下文推理）、RNN、LSTM、BiLSTM这些与时序相关的模型。或者采用深度模型+概率模型相结合的方式进行，效果会更好。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/不正经/article/detail/214980