机器学习及其在信息检索中的应用
——记李航研究员讲座
12月28号,我们迎来了新的一期“前沿研究讲座”,本次讲座的主讲人是李航博士。李老师目前是微软亚洲研究院信息检索与挖掘组(IRM)的高级研究员,
IRM的主要使命是开发更先进的搜索技术,给用户提供更快捷方便的信息检索服务。李航老师博士毕业于日本东京大学,作为IRM组的领导者,他在诸如SIGIR、SIGKDD、WWW等顶级国际会议上发表了数百篇高质量论文,其中包括SIGKDD2008的最佳应用奖,他指导的学生曾经荣获SIGIR2008的最佳学生论文奖。李博士所领导开发的很多搜索技术已经转化到了Microsoft Office2007, Microsoft Office2005,Microsoft Bing 2009 以及Microsoft SQL Server2005等产品中。
李航博士今天的讲座主要围绕两方面进行,一是介绍统计机器学习的相关内容,其中重点介绍了决策树以及支持向量机方法。二是介绍了机器学习在信息检索领域的应用,重点是在排序学习方面的应用。
对于统计机器学习,至少在我看来,MSRA各个组的研究领域或多或少都会应用到机器学习的内容J李博士首先用AdaBoost算法在人脸识别领域的重要应用展现了机器学习对我们日常生活的影响。基于统计理论的学习以大量的训练数据作为学习基础,学习的最终过程是产生机器自动处理与自动决策的智能。接下来李博士介绍了监督学习,他首先使用了一组简单的01预测序列(可以表征在某种条件下明天会不会下雨的预测等等)介绍了监督学习的简单模型,并介绍了监督学习的三种形式的损失函数——指数损失、离散损失和平方损失,接下来李博士重点介绍了基于信息熵和信息增益的决策树方法。决策树决策基于不同预测属性对预测结果的不同影响,影响大的属性处于树的底层,由根节点自底向上进行预测,而衡量属性对结果的影响则采用计算信息增益的方法。
在介绍完统计机器学习的基本概念及决策树学习之后,李博士重点讲解了统计机器学习的一个重要方法——支持向量机(SVM)。SVM的简单情况是线性可分支持向量机分类机,李博士介绍了分化超平面(Separating
Hyper Plane)的概念,并指出SVM的策略就是通过最大化正负样例的间隔(Margin)来确定分化超平面,这样原分类问题就转化成了凸规划问题,可以通过解一组最优化方程来确定分化超平面。李航博士接下来介绍了SVM的损失函数,个人感觉他对合页损失(hinge
loss)的讲解解答了很多我之前对这方面的疑惑J比如李老师介绍了损失函数公式:
在该公式中,1项是额外附加项,代表对在0附近“徘徊”的样例,即使分类正确,由于其计算绝对值很小,我们也把它当做需要“惩罚”的样例。在这里,对于加了L2范数的损失公式,我跟稳霖都问了关于规范项
意义的问题,李老师在讲座中曾提到这一项是问了防止模型的过拟合,一个直观的想法就是w中0项越多,模型越简单,过拟合的可能性也越小。但w的范数在表征其0项多少方面似乎并不是很好的标准。针对我们的问题,李老师指出因为间隔公式中含有
这一项,因此最小化w范数主要是为了最大化分划间隔,也可以从表征学习模型复杂度这一角度来理解其含义。在这一部分最后,李博士介绍了非线性支持向量分类机,这里的关键点就是核函数(Kernel
Function),之前对核函数的理解比较肤浅,甚至觉得它只是一种尽力将乘法运算装化为加减法从而简化计算的工具。经过李老师的讲解,体会到了核函数的主要意义还在于将现行不可分的训练集转化为线性可分,并计算出高维空间的内积,从而在高维空间也可以使用线性支持向量机的方法,与线性模型相比不但几乎不增加计算的复杂性。
在讲座的最后一部分,李博士介绍了机器学习在信息检索中的实际应用,毕竟,我们的组别是“信息检索与挖掘组”,需要将研究成果转化为搜索引擎的性能优化J李老师介绍了机器学习在搜索引擎排序学习中的应用,不同于普通的学习过程,排序学习在数据标记、特征提取、学习模型方面更加复杂。李老师介绍可以将排序转化为document
pair的二值分类问题:对于(xi,xj)的pair,如果xi排序在xj之前,则该样例为正例,否则为负例。这样在信息检索中的支持向量机方法就采用了修改的合页损失函数:
以此来进行学习的训练。李老师介绍对于排序学习的研究成果已经转化到了Microsoft Bing的搜索排序中。
总结来说,李老师今天的讲座是对于机器学习理论及其应用的很好总结,涵盖面很广,让我理解了之前对于机器学习很多不理解的问题,对于刚刚迈入机器学习大门的各位同学也是很好的指导。建议则是对于排序学习的内容可以介绍的再详细一些,这一部分是整个讲座内容中最富有挑战性的部分,可以适当延长时间来解释J
最后,再次感谢李航老师的精彩讲座!