赞
踩
这里我们先要理解什么是 α , β \alpha,\beta α,β剪枝: α \alpha α是下界, β \beta β是上界。
此外,作为博弈的双方,最大值方(用方块表示)总是试图做出决策使值最大,最小值方(用圆表示)总是试图做出决策使值最小,这里我们带入最大值方,站在A的角度,判断究竟是选择B还是C能满足我们的目标。
1. 从A开始深度优先搜索,一直搜索到I,得到值为1,因此下界alpha为1,也就是说D的决策最差为1。 2. 再次搜索,从D->J,得到J的值为3,因为D是最大值方,所以此时alpha为3(因为最大值方总是会选择最大的那个) 3. 由于D的所有的值已经确定,所以D的值为3。 4. 由于D的值确定,所以可以回到B(这里的原则是如果子节点中有个值确定,就可以返回上下界给父节点),B是最小值方,知道D的值为3,所以他要尽可能使值小,他把上界beta更新为3。 5. 从D开始搜索E,E搜索到K为4,E的下界更新为4,这个时候其实不用去搜索E的其他子节点了,因为4已经大于B的上界beta3,也就是说在E这个结点,可能选到一个值大于从D中得到的值,B不会傻乎乎的给E这个机会,这也是剪枝的地方 由此,我们大致可以归纳出求最大值的方法: 1. 如果是叶子节点直接返回 2. 搜索子节点,如果某个子节点大于beta,则返回; 否则一直寻找子结点中的最大值,并且试图更新alpha值 具体实现在“代码实现”部分(max_value(node,alpha,beta)) 6. 所以B的值为3,由此可以确定A的下界为3,从A开始搜索,一直到O,得到值为2 7. F的alpha更新为2,再次搜索P,得到值为1,1<alpha,所以不产生影响 8. F的值确定为2,C的上界确定为2,C的上界小于A的下界,所以现在剪枝。 由此,我们可以大致归纳出求最小值的方法: 1. 如果使叶子节点直接返回 2. 搜索子节点,如果某个子节点小于等于alpha,则返回;(针对父节点) 否则一直寻找子节点中的最小值,并试图更新beta(针对子节点) 具体实现在“代码实现”部分(min_value(node,alpha,beta))
def max_value(self,node,alpha,beta):
if(self.isTerminal(node)){ #如果使叶子节点
return node.get_value();
}
clf = float('-inf') #初始值设置为-inf
for chld in node.children: #遍历子节点
clf = max(clf,min_value(chld,alpha,beta))
if clf >= beta:
return clf
alpha = max(alpha,clf)
node.val = clf
return clf
def min_value(self,node,alpha,beta):
if(self.isTerminal(node)){
return node.get_value();
}
clf = float('inf')
for chld in node.children:
chld = min(clf,max_value(chld,alpha,beta))
if clf <= alpha:
return clf
beta = min(beta,clf)
node.val = clf
return clf
个人觉得这个剪枝方法的难点在于不明白到底是在哪里剪枝?
其实这里的剪枝是在父节点与子节点间的,假如我们站在C的角度上,它的父节点A因为B(B=2),设定了下界为2,此时C进行探索,如果F的值为1,那么C就不用再探索了,因为A不会给C这个机会去得到F;我们再站在G的角度上,G的父节点由于探索了F,因此设定上界为(F=2),而此时G探索到Q(3),那么G也可以不用探索了,因为C不会给G这个机会去选择Q。
所以剪枝是在父节点和子节点间的:最大值方给出下界的压力,最小值方给出上界的压力(所以代码中最小值方一直更新下界,就是为了找到一个更好的下界)。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。