赞
踩
以纳什均衡+追寻对方弱点的原理,利用蒙特卡洛+反事实遗憾值最小化的方法,进行自博弈,进而得到可以同时跟多人PK的智能体。
根据子对局和部分对局的大小,Pluribus从两种不同形式的CFR中选取一种进行计算策略。如果子对局较复杂或者是对局的早期,则采用蒙特卡洛线性反事实遗憾最小化作为蓝图策略;否则采用线性反事实遗憾最小化的基于向量的最优化形式进行采样可能事件。