赞
踩
本文主要同大家分享NLP-智能客服系统解决方案,同大家学习交流
作者:走在前方
博客:https://wenjie.blog.csdn.net/
专注于文本分类、关键词抽取、文本摘要、FAQ 问答系统、对话系统语义理解 NLU、知识图谱等研究和实践。结合工业界具体案例和学术界最新研究成果实现 NLP 技术场景落地。
本文分享主题:Faiss和bert提供的模型实现了一个中文问答系统。旨在提供一个用Faiss结合各种AI模型实现语义相似度匹配的解决方案。 一般两种处理方案
业务系统定制
平台方式搭建通用的智能客服
针对智能客服-检索式问答系统,一般处理流程
问答对数据集的清洗
Embedding
模型训练
计算文本相似度
在问答库中选出与输入问题相似度最高的问题
返回相似度最高的问题所对应的答案
根据搭建智能客服难以程序,我们一般情况流程
基于ES的智能问题系统
(通过关键词匹配获取答案,类似电商、新闻搜索领域关键词召回)
基于TF-IDF方式
(计算每个单词的tfidf数值,分词后换算句子表示。 TF-IDF 方式也在用在关键词提取)
基于Doc2Vec 模型(考虑词和段,相比于word2vec来说有了段落信息)
通过深度学习语言模型bert 提取向量,然后计算相似度
方案可以扩展到的业务需求,更多分享关注博客
智能客服领域语义匹配
(对话系统检索式智能问答系统,答案在知识库中且返回唯一的数据记录)
以图搜索(resnet 图片想向量化表示)
新闻领域文本相似推荐(相似新闻推荐等)
基于文本语义匹配检索系统(文本相似性rank )
本文分享主要核心要点
bert 文本向量化
bert-as-serving 服务搭建
tensorflow 安装(ubuntu和windows下)
索引库构建
faiss 产品手册介绍
faiss 索引库搭建
问题-答案库构建
搭建数据库(mysql、mongodb、postgresql等)
基于语义匹配检索(query-> 向量化 -> 索引库快速检索)
针对这类问题,重点是把图片、文本等通过某种方式进行向量化表示(word2vec、doc2vec、elmo、bert等),然后把这种特征向量进行索引(faiss/Milus) ,最终实现在线服务系统的检索,然后再通过一定的规则进行过滤,获取最终的数据内容。
数据准备
针对智能客服系统,我们的数据集主要包括三个方面的内容
data/question.txt 是导入的问题集所在的路径
dat
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。