当前位置:   article > 正文

【NLP论文】用于仇恨语音检测的字符级超网络 Character-level HyperNetworks for Hate Speech Detection_hate speech预测

hate speech预测

论文信息

标题:Character-level HyperNetworks for Hate Speech Detection
用于仇恨语音检测的字符级超网络
期刊级别:SCI一区
发表时间:2021年7月7日;于2022年4月4日收到修订版;接受日期:2022年5月9日
Keywords:Hate speech detection,Neural networks,Text generation
仇恨语音检测,神经网络,文本生成

阅读时间:2023-03-03

Code

【参考:用于仇恨言论检测的字符级超网络 |带代码的论文
【参考:CharLevelHyperNetworks/main.py at main · tomerwul/CharLevelHyperNetworks · GitHub

【参考:hate_speech18.py · hate_speech18 at main
【参考:GitHub - Vicomtech/hate-speech-dataset: Hate speech dataset from Stormfront forum manually labelled at sentence level.

不太会用

摘要

针对特定群体的仇恨言论和仇恨内容的大规模传播是一个至关重要的社会问题。仇恨言论的自动检测方法通常采用最先进的基于深度学习(DL)的文本分类器——包含超过1亿个参数的大型预训练神经语言模型,使用相关的标记数据集将这些模型调整到仇恨言论检测任务中。不幸的是,只有少数大小有限的公共标记数据集可以用于此目的。我们为推动这一事态做出了几项极具潜力的贡献。我们提出了一种用于仇恨言论检测的超网络,它是一类特殊的DL网络,其权值由一个小型的辅助网络来调节。这些体系结构是在字符级运行的,而不是单词或子单词级,并且与流行的DL分类器相比要小几个数量级

我们进一步表明,使用额外的大量自动生成的示例来训练仇恨检测分类器通常是有益的,但这一实践特别提高了所提出的超网络的性能。我们报告了广泛实验的结果,评估了使用5个公共数据集在仇恨检测上的多个神经体系结构的性能。评估方法包括BERT、RoBERTa、ALBERT、MobileBERT和CharBERT的预训练语言模型,CharBERT是BERT的一种变体,包含字符和子词嵌入。除了传统的数据集内评价方法外,我们还进行了跨数据集评价实验,测试了数据转移条件下各种模型的泛化程度。我们的结果表明,提出的超网络实现了具有竞争力的性能,在某些情况下,比这些预先训练的语言模型更好,同时比这些模型小几个数量级。

1.介绍

本文的主要贡献有三方面:
(1)首次提出了利用超网络进行仇恨语音检测的方法。所提议的网络运行在字符级,并且具有极低的参数数量。
(2)通过文本生成显著增加训练数据集的大小,所提出的解决方案被证明在某些情况下比最先进的深度学习模型具有竞争力,或更好的性能,而最先进的深度学习模型比所提出的解决方案大几个数量级。
(3)论文伴随着一个新的仇恨言论语料库,这是有史以来创建的最大的(10M序列)。
1.这个新的语料库是使用一种最先进的深度生成语言模型生成数据的结果,该模型经过微调,近似于五个仇恨言论公共数据集的分布。我们的结果表明,所有仇恨检测模型都能从使用该资源的训练中获益。

本文的其余部分组织如下:第2节回顾了仇恨语音检测方法和数据集,第3节介绍了提出的基于超网络的方法,第4节提供了详细的性能评估,第5节总结了本文

2.4. Character-based models

字符级cnn之前已经被证明在几个自然语言处理(NLP)任务中是成功的,例如Kim等人(2016)、Mehdad和Tetreault等人(2016)、Vijayaraghavan等人(2016)和Zhang等人(2015)。Mehdad和Tetreault(2016)考虑了辱骂性语言检测的任务,并表明轻量级和简单的基于字符的方法可能优于使用适当的方法对该任务进行基于令牌的建模;具体来说,他们用循环神经网络架构进行了实验。与之前提出的字符级深度学习网络(Zhang et al., 2015)相比,我们的解决方案更浅、更紧凑,因为它合并了HyperNetworks (Ha et al., 2017)。超网络架构利用了跨网络层的一种松弛形式的权重共享,可以根据特定的输入文本序列自适应调整网络权重。因此,它促进了泛化,同时进一步缩小了参数空间。我们在这个工作模型语言中考虑的词汇级(CNN-GRU)或子词汇级(BERT及其变体)的流行深度学习体系结构。子词词库通常是通过对训练集应用学习算法生成的,目的是找到最可能表示训练数据的词汇。现代语言模型使用的一种突出的子词表示是WordPiece,它通过应用迭代令牌合并过程来组装子词词典(Kudo, 2018)。

与单词或子单词语言处理相比,字符级处理的一个重要优势是,它可以灵活地处理未知的词汇以外的词汇、形态变化和社交媒体上流行的嘈杂词汇变体。 相反,已有研究表明,BERT模型对数据中的噪声高度敏感,例如拼写错误和单词变化 (Kumar等人,2020年)。以前,一些深度上下文语言建模体系结构,如ELMO (Peters等人,2018年),合并了字符级信息。最近提出的CharBERT模型(Ma et al., 2020)通过融合字符和子单词的表示,增强了BERT和RoBERTa模型,并将一种新的名为NLM (Noisy LM)的训练前任务用于无监督字符表示学习。总的来说,CharBERT向BERT或RoBERTa添加了5M参数,除了令牌通道外,还建模了一个字符通道。我们在这项工作中实验了CharBERT架构。与CharBERT不同的是,提出的超网络架构仅仅将文本建模为字符序列,与其他方法相比要小几个数量级。

虽然字符级文本处理可能不太重视编码单词之间的高级关系(Zhang et al., 2018),但与单词级深度网络相比,这种方法要紧凑得多,需要的内存资源也不多。 我们描述并激发了字符级超网络的几种变体用于仇恨检测(3.1节)。我们进一步表明,当提供足够数量的任务特定标记数据时,这种轻量级建模可以产生高性能,这允许学习相关的语义和语法现象,并减少泛化错误(Zhang et al., 2015)。我们为训练这些模型生成大量仇恨和非仇恨文本序列的方法在第3.2节中进行了描述。

3.提出的方法:字符级超网络

  1. The proposed approach: Character-level HyperNetworks
  • 3.1. Character-level HyperNetworks for hate speech detection

超网络一般包括两个子网络:一个主网络(我们的任务中的仇恨语音检测器)和一个辅助网络(生成主网络的权值)。6形式上,让

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/249426
推荐阅读