赞
踩
目录
1 技术路线 1
2 实体识别与实体链接 4
2.1 实体识别 4
2.2 实体链接 11
3 关系识别 19
3.1 关系分类 20
3.2 简单关系匹配 28
3.3 复杂关系匹配 31
3.4 关系链接 33
4 sparql 查询 33
4.1 汽车品牌关系查询 33
4.2 汽车车系关系查询 35
4.3 汽车车型关系查询 40
4.4 复杂关系查询 41
3 关系识别
关系识别在系统中主要应用于识别用户提问的问题是在问什么类型的问题,是问汽车的厂商指导价,上市时间还是问百米加速的速度等。关系识别分为四个模块,关系分类,简单关系匹配,复杂关系匹配与关系链接。
3.1 关系分类
关系分类模块应用机器学习分类的方法,对用户的问题进行分类,若分类结果置信度高于阈值,则输出对应的分类记过即可。阈值选择0.6。
3.1.1 数据准备
关于汽车问答的问答数据没有公开的数据集,因此需要进行构建,构建思路为定向爬取特定关系下的问题,然后通过人工标注的方法进行标注。
3.1.1.1 数据爬取
爬取方法见2.1.1.1和2.1.1.2即可,共爬取95种关系,共63057条数据。因为不同的车型热度,关系热度不同,尽管按照特定关系构建query,但是抓取的数据却并不一定正确,但是直接用关系名字取过滤而得到的数据则会比较特定,后续会影响模型性能。
3.1.1.2 人工标注
爬取数据带有关系标签,但是标签可能不准,所以要经过人工审核选择标注准确的数据。考虑到效率问题,先对数据进行一次聚类,将相似数据归类,便于审核。
首先将所有数据转化为一个tfidf矩阵,根据每种标签将数据分为对应的类别。对于每一个类别进行类别内的聚类,聚类方法使用kmeans,簇数量选择10。因为该工作的目的只为了方便筛选,所以考虑到每种关系数据不超过1000条,因此选择了10个簇,每个簇100左右。
import logging # now we patch Python code to add color support to logging.StreamHandler def add_coloring_to_emit_windows(fn): # add methods we need to the class def _out_handle(self): import ctypes return ctypes.windll.kernel32.GetStdHandle(self.STD_OUTPUT_HANDLE) out_handle = property(_out_handle) def _set_color(self, code): import ctypes # Constants from the Windows API self.STD_OUTPUT_HANDLE = -11 hdl = ctypes.windll.kernel32.GetStdHandle(self.STD_OUTPUT_HANDLE) ctypes.windll.kernel32.SetConsoleTextAttribute(hdl, code) setattr(logging.StreamHandler, '_set_color', _set_color) def new(*args): FOREGROUND_BLUE = 0x0001 # text color contains blue. FOREGROUND_GREEN = 0x0002 # text color contains green. FOREGROUND_RED = 0x0004 # text color contains red. FOREGROUND_INTENSITY = 0x0008 # text color is intensified. FOREGROUND_WHITE = FOREGROUND_BLUE | FOREGROUND_GREEN | FOREGROUND_RED # winbase.h STD_INPUT_HANDLE = -10 STD_OUTPUT_HANDLE = -11 STD_ERROR_HANDLE = -12 # wincon.h FOREGROUND_BLACK = 0x0000 FOREGROUND_BLUE = 0x0001 FOREGROUND_GREEN = 0x0002 FOREGROUND_CYAN = 0x0003 FOREGROUND_RED = 0x0004 FOREGROUND_MAGENTA = 0x0005 FOREGROUND_YELLOW = 0x0006 FOREGROUND_GREY = 0x0007 FOREGROUND_INTENSITY = 0x0008 # foreground color is intensified. BACKGROUND_BLACK = 0x0000 BACKGROUND_BLUE = 0x0010 BACKGROUND_GREEN = 0x0020 BACKGROUND_CYAN = 0x0030 BACKGROUND_RED = 0x0040 BACKGROUND_MAGENTA = 0x0050 BACKGROUND_YELLOW = 0x0060 BACKGROUND_GREY = 0x0070 BACKGROUND_INTENSITY = 0x0080 # background color is intensified. levelno = args[1].levelno if (levelno >= 50): color = BACKGROUND_YELLOW | FOREGROUND_RED | FOREGROUND_INTENSITY | BACKGROUND_INTENSITY elif (levelno >= 40): color = FOREGROUND_RED | FOREGROUND_INTENSITY elif (levelno >= 30): color = FOREGROUND_YELLOW | FOREGROUND_INTENSITY elif (levelno >= 20): color = FOREGROUND_GREEN elif (levelno >= 10): color = FOREGROUND_MAGENTA else: color = FOREGROUND_WHITE args[0]._set_color(color) ret = fn(*args) args[0]._set_color(FOREGROUND_WHITE) # print "after" return ret return new def add_coloring_to_emit_ansi(fn): # add methods we need to the class def new(*args): levelno = args[1].levelno if (levelno >= 50): color = '\x1b[31m' # red elif (levelno >= 40): color = '\x1b[31m' # red elif (levelno >= 30): color = '\x1b[33m' # yellow elif (levelno >= 20): color = '\x1b[32m' # green elif (levelno >= 10): color = '\x1b[35m' # pink else: color = '\x1b[0m' # normal try: args[1].msg = color + args[1].msg + '\x1b[0m' # normal except Exception as e: pass # print "after" return fn(*args) return new import platform if platform.system() == 'Windows': # Windows does not support ANSI escapes and we are using API calls to set the console color logging.StreamHandler.emit = add_coloring_to_emit_windows(logging.StreamHandler.emit) else: # all non-Windows platforms are supporting ANSI escapes so we use them logging.StreamHandler.emit = add_coloring_to_emit_ansi(logging.StreamHandler.emit) # log = logging.getLogger() # log.addFilter(log_filter()) # //hdlr = logging.StreamHandler() # //hdlr.setFormatter(formatter())
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。