赞
踩
Named Entity Recognition for Chinese Social Media with Jointly Trained Embeddings
一、研究对象:中文社交媒体信息的命名实体识别。命名实体识别是一个非常重要的组成部分,是关系抽取和实体联系的第一步
二、对象特点:
三、问题描述:
1.NER for Chinese Social Media:和其他语言一样,社交媒体信息对于命名实体识别存在很多问题,例如贫血错误,新颖词汇,没有语法结构。而汉语存在更多的挑战。1.缺少一个此时名字的标志,2.缺少明确的次界限导致更深的命名实体识别混肴。3.此外,普通中文文本要么是简体中文,要么是繁体中文,而社交信息可能温和两种字体。
2.Embeddings for Chinese Text:词嵌入能够用一个低维的连续想来那个表示,能够捕获句法和语义相似度。1.预训练作为特征能够提高命名实体识别,2.对于较小的训练数据,嵌入能够显著的帮助。因为他们能够在大规模的未标记数据上进行训练。
四、现有方法:一种方法是使用词汇嵌入(lexical embeddings)去提高命名实体识别系统
五、方法缺陷:然而,对中文使用embedding仍然是个挑战。以往最好的命名实体是没有标签词,直接替换了标签特征。
六、本文对策:
一、本文提出了几个嵌入方法和他们在中文社交媒体命名实体识别上的作用。这些embeddings会作为特征用于NER系统中。
1.Word embedding
2.character embedding:消除了对文本进行预训练的依赖。更好的满足了本文的目的:在字符上添加NER标签。相比于words embedding,character embedding有更少的参数。但参数的减少也会导致紧固带的损失
3.character and position embedding:character embedding不能够区别不同位置上的相同字符。而Word embedding 不能够使用字符。此方法对每个character添加了位置标签。
二、微调 Fine Tuning
对于每一个嵌入,微调预训练的embedding。这就相当于使用预训练模型初始化embeddings参数,然后在反向传播梯度更新过程中修改参数
三、联合训练对象
微调的缺陷:可能任意偏离在未加工过得文本中国获得的参数。本文提出了联合学习embedding for both language models and the NER task。
四、参数估计。使用w2c的skip-gram 训练对象和负采样训练embeddings。
本文主要贡献:
1.第一次在中文社交媒体上使用命名实体识别。
2.评估了三种嵌入方式用于中文文本。
3.提出了同时 为命名实体识别和语言模型训练embedding的联合目标。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。