赞
踩
一般来说,一个序列指的是一个句子,而一个元素指的是句子中的一个词。在序列标注中,我们想对一个序列的每一个元素标注一个分类标签。比如信息提取问题可以认为是一个序列标注问题,如提取出会议时间、地点等。
常见的应用场景:分词,实体识别等。
例如如下一个句子:腾讯是中国最大的游戏公司
腾-ic 讯-ic 是-v 中-ns 国-ns 最-a 大-a 的-uj 游-n 戏-n 公-n 司-n
学习后将得到如下结果:
[pair('腾讯', 'ic'), pair('是', 'v'), pair('中国', 'ns'), pair('最大', 'a'), pair('的', 'uj'), pair('游戏', 'n'), pair('公司', 'n')]
其中ic即为我们新定义的一个词性“互联网公司”,这样就能够在分词时,直接得到我们想要的预测结果。
(1)常见的实体:人名、机构名、地名、时间、日期、货币和百分比
(2)标注方式:
- 原句:2024年3月8日是世界第114个妇女节
- 标注后:2024年3月8日-B-时间 下午-O-时间 15点50分-O-时间 我-O 写下-O 了-O 此-O 博客-O
常用模型:HMM(已知上文,推理下文,隐马尔科夫假设:某一时刻的状态只与前一个时刻的状态有关,而与其他时刻状态无光)、CRF(包含更多上下文推理)、RNN、LSTM、BiLSTM这些与时序相关的模型。或者采用深度模型+概率模型相结合的方式进行,效果会更好。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。