赞
踩
目录
二、进 化 算 法 引 导 策 略 搜 索 的 强 化 学 习
三、进 化 算 法 经 验 指 导 的 深 度 强 化 学 习
深 度 强 化 学 习 是 目 前 机 器 学 习 领 域 中 重 要 的 研 究 分 支 之 一 , 它 可 以 通 过 直 接 与 环 境 进 行 交 互 实 现 端 到 端 的 学 习 , 对 高 维 度 和 大 规 模 的 问 题 有 着 很 好 的 解 决 能 力 . 虽 然 深 度 强 化 学 习 已 经 取 得 了 瞩 目 的 成 果 , 但 其 仍 面 临 着 对 环 境 探 索 能 力 不 足 、 鲁 棒 性 差 、 容 易 受 到 由 欺 骗 性 奖 励 导 致 的 欺 骗 性 梯 度 影 响 等 问 题 .
进 化 算 法 普 遍 具 有 较 好 的 全 局 搜 索 能 力 、 良 好 的 鲁 棒 性 和 并 行 性 等 优 点 , 因 此 将 进 化 算 法 与 深 度 强 化 学 习 结 合 用 于 弥 补 深 度 强 化 学 习 不 足 的 方 法 成 为 了 当 前 研究 的 热 点。在 强 化 学 习 中 , 也 可 以 使 用 进 化 算 法 选 择 其 超 参 数 或 优 势 个 体。
进 化 算 法 结合到 深度 强 化学 习 算 法 之 中 时 , 进 化 算法 中 的 个 体通 常 作 为 深度强 化 中 的 策 略 网 络 , 种 群 则 是 由 多 个策 略 网 络 所 组 成 的 网 络 集 合 , 而进 化 算 法中 对 个体 的 交叉 与变异操 作 则 对应策 略 网 络参数 的 交 叉 与 变 异 , 在 深度 强 化学 习 中 评 估 某 个 个 体 的 策 略 网 络 的 方 法是 让其与 环 境进行交 互 , 并 将交互 一 回 合所 获得 的 累 计 回 报看作 此 个体对 坏 境 的 适应度 。
融合两种方法的优点方式可分为进 化 算 法 引 导 策 略 搜 索 的 强 化 学 习 和 结 合 进 化 算 法 的 深 度 强 化 学 习。
进 化 算 法 的 本 质 是 对解 空 间 进 行 搜 索 从 而 得 到 近 似 的 最 优 解 , 因 此 对 于 强 化 学 习 问 题 , 可 以 将 智 能 体 的 策 略看 作 解 空 间 , 并 将 最 优 策 略 看 作 最 优解 , 之 后 采 取类 似 进 化 算 法 的 搜 索 方 法 进 行 策 略 搜 索
策 略 梯 度 方 法 的 思 想 是 增 加 累 计 奖 励 较 高 的 策 略 所 出 现 的 概 率 , 这 与 进 化 策 略 的 思 想 类 似 . 我 们 可 以 将 策 略看 作 一 个 分 布 , 通 过 将 累 积 奖 励 作 为 适 应 度 函 数
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。