赞
踩
智能文档分析(IDA)是指使用自然语言处理(NLP)和机器学习从非结构化数据(文本文档、社交媒体帖子、邮件、图像等)中获得洞察。由于80%的企业数据是非结构化的,因此IDA可以跨行业和业务功能提供切实的好处,例如改善遵从性和风险管理、提高内部运营效率和增强业务流程。
在本博客中,我将描述IDA中使用的主要NLP技术,并提供各种业务用例的示例。我还将讨论启动第一个IDA项目时的一些关键考虑事项。
智能文档分析技术
以下是7种常见的IDA技术。将提供示例用例来解释每种技术。
命名实体识别识别文本中提到的命名实体,并将它们分类到预定义的类别中,如人名、组织、位置、时间表达式、货币值等。有一系列的方法来执行命名实体识别:
命名实体识别是本博客中讨论的许多其他rda技术的关键预处理技术。其他命名为实体识别用例的例子包括:
情绪分析识别和分类文本中表达的意见,如新闻报道,社交媒体内容,评论等。在最简单的形式下,它可以将情绪分为积极和消极两类;但它也可以量化情绪(如-1到+1),或将其分类在一个更细粒度的水平(如非常负面、负面、中性、积极、非常积极)。
情感分析,像许多NLP技术一样,需要能够处理语言的复杂性。例如:
情绪分析经常被用来分析与公司或其竞争对手有关的社交媒体帖子。它可以是一种强有力的工具:
文本相似性计算句子、段落和文档之间的相似性。
为了计算两个条目之间的相似度,必须首先将文本转换为表示文本的n维向量。这个向量可能包含文档中的关键字和实体,或者内容中表示的主题的表示。向量和文档之间的相似性可以通过余弦相似度等技术来测量。
文本相似性可用于检测文档或文档部分中的重复项和近似重复项。这里有两个例子:
文本分类用于根据文本的内容将文本项分配给一个或多个类别。它有两个维度:
一般来说,类和标签的数量越少,预期的准确性就越高。
文本分类将使用文档中的单词、实体和短语来预测类。它还可以考虑其他特性,比如文档中包含的任何标题、元数据或图像。
文本分类的一个示例用例是文档(如邮件或电子邮件)的自动路由。文本分类用于确定文档应该发送到的队列,以便由适当的专家团队处理,从而节省时间和资源(例如,法律、市场营销、金融等)。
文本分类也可应用于文件的各部分(例如句子或段落),例如,用以确定信件的哪些部分提出了投诉,以及投诉的类型。
信息抽取从非结构化文本中提取结构化信息。
一个示例用例是标识信件的发送者。识别的主要手段是发送人的参考资料、身份证明或会员编号。如果没有找到,那么回退可能是发件人的姓名、邮政编码和出生日期。每一条信息都可以通过命名实体识别来识别,但是这本身是不够的,因为可能会找到多个实例。信息提取依赖于实体识别。对实体上下文的理解有助于确定哪个是正确的答案。例如,信件可能包含多个日期和邮政编码,因此有必要确定哪个是发件人的出生日期,哪个是发件人的邮政编码。
关系提取提取两个或多个实体之间的语义关系。与信息抽取类似,关系抽取依赖于命名实体识别,但区别在于它特别关注实体之间的关系类型。关系提取可用于执行信息提取。
一些NLP包和服务提供了开箱即用的模型来提取关系,比如“雇员的”、“结婚的”和“出生的地点”。与命名实体识别一样,自定义关系类型可以通过训练特定的机器学习模型来提取。
关系提取可用于处理非结构化文档,以确定具体的关系,然后将这些关系用于填充知识图。
例如,该技术可以通过处理非结构化医学文档来提取疾病、症状、药物等之间的关系。
摘要缩短了文本,以创建一个连贯的主要观点的摘要。文本摘要有两种不同的方法:
文本摘要可用于使人们能够快速地消化大量文档的内容,而不需要完全阅读它们。这方面的一个例子是新闻feed或科学出版物,它们经常生成大量的文档。
机器学习在非结构化文本上要比在结构化数据上复杂得多,因此在分析文本文档方面要达到或超过人类水平的性能要困难得多。
由于语言所包含的变化、歧义、语境和关系,人类要花很多年才能理解语言。我们可以通过许多方法来表达相同的思想。我们根据作者和读者的不同使用不同的风格,并选择使用同义词来增加兴趣和避免重复。rda技术必须能够理解不同的样式、歧义和单词关系,从而获得准确的洞察。
IDA需要理解通用语言和特定领域的术语。处理特定领域术语的一种方法是使用自定义字典或构建用于实体提取、关系提取等的自定义机器学习模型。
解决将通用语言和特定领域术语结合在一起的问题的另一种方法是迁移学习。这需要一个已经训练了大量通用文本的现有神经网络,然后添加额外的层,并使用针对特定问题的少量内容来训练组合的模型。现有的神经网络类似于人类在学校发展的年代。额外的层次类似于当一个人离开学校并开始工作时发生的领域或特定任务学习。
rda技术的准确性取决于所使用的语言的多样性、风格和复杂性。它还可以取决于:
NLP-progress是一个网站,它追踪最常见的NLP任务上最先进的模型的准确性。这为可能达到的精确度水平提供了有用的指导。不过,要判断IDA是否会产生准确的结果,最好的指南是问问自己“人类做这件事有多容易?”“如果一个人可以在不经过多年培训的情况下学会准确地完成这项任务,那么IDA就有可能通过加快过程、保持一致性或减少体力劳动来带来好处。”
IDA项目可以通过以下两种方式之一集成到企业中:
所使用的方法应该取决于IDA所达到的准确性和做出错误决策的成本。如果错误决策的成本很高,那么考虑从人工循环开始,直到准确度足够高为止。
IDA项目最好以迭代的方式处理——从概念验证开始,以确定该方法是否可行,如果可行,所达到的精度是否表明使用了自动化或人在循环。然后迭代地增加复杂性,直到估计的工作量不能证明预期的收益。
对于您的第一个IDA项目,请考虑以下步骤:
此过程将使您熟悉这些技术,并使您的业务发起人在处理具有更高收益的更复杂的用例之前获得对它们的信心。
通过周密的计划和实施策略,您的组织可以利用上面讨论的NLP和机器学习技术来构建能够改善业务结果的IDA应用程序。
本文:http://jiagoushi.pro/node/1159
讨论:请加入知识星球【首席架构师智库】或者小号【jiagoushi_pro】
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。