赞
踩
本文介绍三个经典统计语言模型, HAL,LSA, 与COALS.
拍拍脑袋想, 可以怎样表示一个词语?
1. 级级递增
e.g 表示百合
百合<花<植物<物体
2. 同义词
e.g 表示好
好, 不错,还行,棒棒哒……
这样的representation带来的问题:
为了解决这个问题, 1957年, Firth提出了之后统计NLP中的一个常用思想, 用一个词在句中的neighborhood表示该词。具体来说,
Hyperspace Analogue to Language method (HAL)
HAL (Lund & Burgess, 1996)方法可以用一个co-occurrence matrix, 表示任意两个词相关性。如图所示为一个window size=1的co-occurrence matrix结果:
这里window size 是指计算作用域。 比如window size=5就表示与一个词相邻5个词为作用域, weight随相邻词距离增大,从5到1递减。 根据co-occurrence matrix, 可得每个词有一个vector表示, 然后可以用Euclidean distance的倒数, 或 cosine&#x
赞
踩
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。