赞
踩
文本意图识别,即基于本文内容归类到不同的意图类别当中。
难点汇总:
1、文本不规范,多口语,多错误词语;文本方式多样化,甚至非标准的自然语言
2、相同或者类似语句可对应多种不同意图
3、意图强度,表述不同表现出不同的需求强度
天气很好啊-->弱意图(心情,闲聊模式) 今天天气怎么样-->强意图(业务模式)
4、意图存在时效性变化,就是随着时间的推移相同问题的意图会发生变化 ******* 难点
5、没有固定统一的评价标准
通过提取句子的主要成分构建词表,并进行一一匹配对应,对较为高频的句子类型进行规整。
此方法能够较好的解决高频问题,但对于长尾的解决性较差;
模型的准确率较高,但需要耗费大量的人力。
基于规则模板,最好能在分词、词性标注、命名实体识别、依存句法分析、语义分析 的等的前提下再进行提取,方法适用于非常符合规则的文本类别。
在数据中可以使用Hash字典的形式,能获得较好的速度。
准确率较高,但同样需要大量人工参与。
例:
北京到上海今天的机票价格,可以转换为:[地点]到[地点][日期][汽车票/机票/火车票]
第一步:寻找领域,获取子类模板字典
第二步:选取模板,这里面命中模板不是所有的内容都全部命中,只需要命中一部分。
第三步:沟通缺失了模板的那些内容,并补全这些内容(如上面问句没有日期)。
第四步:给出完整的模板信息并等待确认。
可优化方向:
1.基于同义词以及近义词的扩展。(word2vec等)
2.删除一些修饰词,扩大召回。(三元提取等)
文本意图识别可以看做是一个分类问题,针对于垂直产品的特点,定义不同的意图类别
。使用机器学习以及一些深度学习的方法进行分类,有利于模型的自动化部署,可以有效减少人工的参与。
缺点:数据的标注需要较准确,也会耗费一定的人力。常用标签类别常常上百个甚至上千个,对于模型的部署与检验也存在一定挑战性。数据的不平衡性也会加大模型的训练难度。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。