制药业中的自然语言处理（NLP）_自然语言处理药品数据挖掘

作者：羊村懒王 | 2024-04-05 19:07:53

踩

自然语言处理药品数据挖掘

文章目录

NLP 用于发现新药物化合物
NLP 用于将参与者纳入临床试验
药品营销的 NLP
参考资料

转载来源：https://zhuanlan.zhihu.com/p/140044281
alt

自然语言处理（NLP）在制药业的使用似乎少于机器视觉和预测分析等 AI 方法，但尽管如此，NLP 在制药业仍有一些应用。该行业主要处理结构化数据，但是在某些业务领域中，非结构化数据是常态。在本文中，我们讨论了自然语言处理如何帮助制药公司理解其非结构化数据并使用其进行决策。

制药公司可能拥有各种数字格式的类型化、非结构化数据，这些数据可用于确定患者参加临床试验的资格。最常见的格式如下：

医师笔记
病理报告
操作说明
电子病历（EMR）数据

NLP 用于发现新药物化合物

药物发现（Drug Discovery）是许多软件供应商提供解决方案的业务领域，但是其中大多数声称涵盖药物化合物的大数据分析或分子成像。但是，NLP 解决方案与该领域的其他应用程序没有很多用例。

相反，该技术更适合于检测非结构化数据中的信息，这可能有助于药物发现过程。包括从以前的研究文档中提取信息，以查找注释过去的化学实验结果。

例如，制药公司的科学家可以使用 NLP 工具查找以前发现的化学反应，并发现它们不需要进行给定的实验，因为结果是已知的。然后，科学家可以利用所有相关知识重新评估进一步的实验。

公司过去测试某些药物或分子的经验被保存为实验记录数据或临床试验数据。这些文件通常由人使用带有药学术语的通用语言编写。开发人员需要在这些文档的标记版本上训练机器学习模型，以便它可以 “学习” 以识别单个表单上各个字段之间的差异。可以在多种类型的表单以及来自每个字段或表单的信息类型上训练单个模型。通常在临床试验和定期的就诊中报告药物的不良反应。因此，需要在临床试验报告和 EMR 数据上训练机器学习模型，以便从中识别信息。

NLP 用于将参与者纳入临床试验

临床试验匹配是制药业 NLP 的另一个用例。从医生的笔记和以往的试验中找到合适的患者进行临床试验是很费时的，但是可以使用在这些类型的文档上受过训练的 AI 软件自动进行。AI 供应商提供的常见解决方案是 NLP 程序，可以从扩展的患者档案列表或数据库中识别出最适合给定试验的患者。

除了要完成临床医生团队所需的时间外，将患者匹配到适当的临床试验对制药公司也构成了一些关键问题。

检测和识别疾病和伤害的国际疾病分类（ICD-10）代码
从各种非结构化数据源中提取重要数据点
在保持患者隐私并隐藏受保护信息的同时利用患者数据

ICD-10 代码对于确定患者的临床试验生存能力至关重要。这些规范几乎标准化了患者过去可能遭受或曾经遭受的所有可能的疾病或伤害。需要对用于临床试验匹配的机器学习模型进行训练，以识别 ICD-10 代码或与患者相关的代码，并确定其是否与所测试的药物密切相关。

从这些格式中识别信息将需要对机器学习模型进行训练，以对在相同类型文档中找到的药物数据进行训练。开发人员不仅需要运行每个 ICD-10 代码，还需要标记每种类型的文档中的每个特定字段，并通过该模型运行成千上万的报告。这将使生成的软件能够检测哪些字段包含哪些类型的信息，以及文档可能引用的任何疾病的分类。

某些患者数据可能受到法律或协议的保护，无法将信息链接回个人的方式泄露。并不是很多供应商提供可以专门处理此类情况的解决方案，但是有些供应商声称能够在保护隐私的同时混淆信息，同时仍能提供有用的见解。对于没有详细介绍特定患者或医生但包含相关统计信息的图形或其他可视化效果，这可能是可能的。

药品营销的 NLP

在非结构化的客户数据中仍然可以找到许多营销和销售机会。随之而来的是，NLP 仍然有可能解决药品的市场或销售问题。

NLP 软件解决方案可以解决制药公司的营销或销售团队的最常见业务问题是：

评估围绕产品的社交媒体嗡嗡声，并确定各个帖子的情绪
利用客户或患者档案数据来查找个人或人口统计中的机会价值
从销售电话记录中分析呼叫中心数

分析社交媒体帖子的情绪和特定药品的关联，将要求训练机器学习模型的人将与产品关联的各种单词，短语以及可能的互联网语标记为肯定或否定。一些句子片段也可以被标记以允许上下文的更具体的解释。

这将允许公司将对广告或产品的社交媒体响应汇总为单个数据点，可以对这些数据进行评估以评估营销活动的绩效。

客户和患者信息可以包括来自 CRM 的数据、匿名电子病历（EMR）数据或基于其先前购买的交易数据。NLP 软件可以利用广告、药品或其他产品来检测患者或客户的病史，并将其与人群中其他患者的经历进行汇总。通过向客户团队展示未来哪些区域可能需要更好的策略，可以对营销活动产生积极影响。

销售电话中心数据很可能存储为销售电话的音频记录，可以通过语音识别软件进行处理和识别。NLP 的此应用在创建 EMR 和其他数字转录的医疗文档中有很多用途，但是在这里它可用于识别客户参与度以及销售代表对销售协议的遵守情况。

AI 语音识别软件需要使用各种曲率和各种背景噪声，在尽可能多的不同声音上进行训练。这样，当销售代表与客户打交道时，如果出现任何干扰，模型可以更轻松地识别通话中所说的话。重要的是要注意，与其他行业相比，药品的营销和销售解决方案将需要更彻底的数据标记和准备过程。这是因为需要针对制药业的机器学习模型对单独的医学和制药短语和代码进行训练，而其他行业却没有。

参考资料

https://emerj.com/ai-sector-overviews/natural-language-processing-in-pharma-current-applications/

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/羊村懒王/article/detail/367484