赞
踩
文章地址:【https://arxiv.org/abs/1901.08746】
随着生物医学文献数量的快速增长,生物医学文本挖掘变得越来越重要。 随着自然语言处理(NLP)的进步,从生物医学文献中提取有价值的信息已在研究人员中普及,深度学习促进了有效的生物医学文本挖掘模型的发展。 但是,由于单词分布从一般领域的语料库转移到生物医学的语料库,直接将NLP的进步应用到生物医学的文本挖掘中通常会产生不令人满意的结果。 在本文中,我们研究了最近引入的预训练语言模型BERT如何适用于生物医学语料库。
我们介绍了BioBERT(用于生物医学文本挖掘的双向编码器表示Transformers),这是一种在大型生物医学语料库上预先训练的领域特定语言表示模型。 通过在任务上几乎相同的体系结构,在经过生物医学语料库的预训练之后,BioBERT在许多生物医学文本挖掘任务中都大大优于BERT和以前的最新模型。 尽管BERT的性能可与以前的最新模型相媲美,但在以下三个代表性的生物医学文本挖掘任务上,BioBERT的性能明显优于它们:生物医学命名实体识别(F1分数提高0.62%),生物医学关系提取(2.80%) F1分数提高)和生物医学问答(MRR提高12.24%)。 我们的分析结果表明,对生物医学语料库进行BERT的预培训有助于其理解复杂的生物医学文献。
我们可以在https://github.com/naver/biobert-pretrained上免费提供BioBERT的预训练权重,并在https://github.com/dmis-lab/biobert上提供用于微调BioBERT的源代码。
生物医学文献的数量继续迅速增加。 平均而言,每天在同行评审的期刊上发表3000多篇新文章,不包括各种档案中的预览版和技术报告,例如临床试验报告。 截至2019年1月,仅PubMed就有2900万篇文章。包含有关新发现和新见解的宝贵信息的报告不断地被添加到本已大量的文献中。 因此,越来越需要用于从文献中提取信息的准确的生物医学文本挖掘工具。
自然语言处理(NLP)中使用的深度学习技术的进步,使生物医学文本挖掘模型的最新进展成为可能。例如,在过去几年中,长短期记忆(LSTM)和条件随机场(CRF)在生物医学命名实体识别(NER)方面的性能有了很大提高(Giorgi和Bader,2018 ; Habibi 等人,2017 ; Wang 等人,2018 ; Yoon 等人,2019)。其他基于深度学习的模型也改善了生物医学文本挖掘任务,例如关系提取(RE)(Bhasuran和Natarajan,2018年 ; Lim和Kang,2018年))和问答(QA)(Wiese 等人,2017年)。
但是,将最新的NLP方法直接应用于生物医学文本挖掘具有局限性。首先,随着最近的单词表示模型(例如Word2Vec(Mikolov 等,2013),ELMo(Peters 等,2018)和BERT(Devlin 等,2019)都在包含通用领域文本的数据集上进行训练和测试(例如Wikipedia),很难估计它们在包含生物医学文本的数据集上的表现。同样,普通语料库和生物医学语料库的单词分布也有很大不同,这对于生物医学文本挖掘模型通常可能是一个问题。结果,生物医学文本挖掘中的最新模型很大程度上依赖于单词表示形式的改编版本(Habibi 等, 2017 ; Pyysalo 等,2013年)。
在这项研究中,我们假设需要在生物医学语料库上训练当前最先进的词表示模型(例如BERT),以有效地进行生物医学文本挖掘任务。以前,Word2Vec是最广为人知的上下文无关单词表示模型之一,它是在生物医学语料库上进行训练的,该语料库包含通常不包含在通用领域语料库中的术语和表达(Pyysalo 等人,2013年)。尽管ELMo和BERT已经证明了上下文化词表示法的有效性,但它们在生物医学语料库上无法获得高性能,因为它们仅在通用领域语料库上进行了预训练。由于BERT在各种NLP任务上都取得了非常出色的结果,同时在整个任务中使用几乎相同的结构,因此将BERT应用于生物医学领域可能会有益于众多生物医学NLP研究。
在本文中,我们介绍了BioBERT,它是针对生物医学领域的预先训练的语言表示模型。预训练和微调BioBERT的总体过程如图1所示。首先,我们使用BERT的权重初始化BioBERT,该BERT已在通用领域语料库(英语Wikipedia和BooksCorpus)上进行了预训练。然后,对BioBERT进行生物医学领域语料库的预训练(PubMed摘要和PMC全文文章)。为了显示我们的方法在生物医学文本挖掘中的有效性,我们对BioBERT进行了微调,并对三种流行的生物医学文本挖掘任务(NER,RE和QA)进行了评估。我们使用通用领域语料库和生物医学语料库的不同组合和大小来测试各种预训练策略,并分析每种语料库对预训练的影响。我们还提供了BERT和BioBERT的深入分析,以显示我们的预训练策略的必要性。
BioBERT的预训练和微调概述
本文的贡献如下:
BioBERT是第一个基于领域特定BERT的模型,已在生物医学语料库上经过八个NVIDIA V100 GPU进行了23天的预训练。
我们表明,对BERT进行生物医学语料库的预培训可以大大提高其性能。与当前的最新模型相比,BioBERT在生物医学NER(0.62)和生物医学RE(2.80)中获得了更高的F1评分,在生物医学QA中获得了更高的MRR得分(12.24)。
与大多数以前主要专注于单个任务(例如NER或QA)的生物医学文本挖掘模型相比,我们的模型BioBERT可在各种生物医学文本挖掘任务上实现最先进的性能,而仅需进行最小的架构修改。
我们公开提供了经过预处理的数据集,经过训练的BioBERT权重以及用于微调BioBERT的源代码。
BioBERT基本上具有与BERT相同的结构。我们简要讨论最近提出的BERT,然后详细描述BioBERT的预训练和微调过程。
从大量未注释的文本中学习单词表示法是一种悠久的方法。先前的模型(例如Word2Vec(Mikolov 等,2013),GloVe(Pennington 等,2014))专注于学习上下文无关的单词表示,而最近的工作则专注于学习上下文相关的单词表示。例如,ELMo(Peters 等人,2018)使用双向语言模型,而CoVe(McCann 等人,2017)使用机器翻译将上下文信息嵌入单词表示中。
BERT(Devlin 等人,2019)是一个基于上下文的单词表示模型,该模型基于标注语言模型并使用双向Transformer 进行了预训练(Vaswani 等人,2017)。由于无法看到将来的单词的语言建模的本质,以前的语言模型仅限于两个单向语言模型(即从左到右和从右到左)的组合。BERT使用掩蔽语言模型来预测序列中的随机掩蔽词,因此可用于学习双向表示。而且,它在大多数NLP任务上都具有最先进的性能,同时只需要最小的特定于任务的体系结构修改。BERT的作者认为,合并双向表示而不是单向表示的信息对于以自然语言表示单词至关重要(Krallinger 等,2017)。由于篇幅所限,我们请读者参考Devlin 等。(2019)进一步了解BERT。
作为通用语言表示模型,BERT在英文Wikipedia和BooksCorpus上进行了预培训。但是,生物医学领域文本包含相当多的领域特定专有名词(例如BRCA1,c.248T> C)和术语(例如转录,抗菌剂),大多数生物医学研究人员都理解它们。结果,为通用语言理解而设计的NLP模型通常在生物医学文本挖掘任务中表现不佳。在这项工作中,我们对BioBERT进行了PubMed摘要(PubMed)和PubMed Central全文文章(PMC)的预训练。表1列出了用于BioBERT的预训练的文本语料库,表2列出了经过测试的文本语料库组合。为了提高计算效率,每当使用Wiki + Books语料库进行预训练时,我们就使用Devlin 等提供的预训练的BERT模型初始化BioBERT (2019)。我们将BioBERT定义为一种语言表示模型,其预训练语料库包括生物医学语料库(例如BioBERT(+ PubMed))。
表1:用于BioBERT的文本语料库列表
语料库 | 单词数 | 所属领域 |
---|---|---|
English Wikipedia | 25亿 | 通用 |
BooksCorpus | 8亿 | 通用 |
PubMed摘要 | 45亿 | 生物医学 |
PMC全文文章 | 135亿 | 生物医学 |
表2:在以下文本语料库的不同组合上对BioBERT进行预训练:English Wikipedia(Wiki),BooksCorpus(Books),PubMed摘要(PubMed)和PMC全文文章(PMC)
| 模型 | 语料库组合 |
|:-----
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。