搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
Cpp五条
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
解决openai调用出现的valueerror: unknown scheme for proxy url url(‘socks://127.0.0.1:7890/‘)_raise valueerror(f"unknown scheme for proxy url {u
2
回溯算法 深度优先搜索(dfs)_dfs算法怎么回溯
3
怎么在Web3中创建智能合约_web3智能合约
4
MySQL-成本与统计数据学习_成本分析与数据库
5
【路径规划】基于matlab GUI多种蚁群算法栅格地图最短路径规划【含Matlab源码 650期】_蚁群算法栅格法
6
PTT培训5分钟演讲
7
机器学习面试:维特比算法_维特比算法的作用
8
人工智能大模型原理与应用实战:对话系统构建_ai对话大模型 建设
9
猿代码超算实习生,五步助力拿到高薪offer_猿代码网络科技公司面试
10
布局香港之零售小店篇 | 香港一人小企与连锁超市的竞争
当前位置:
article
> 正文
强化学习 --- 前沿技术_exploitation vs
作者:Cpp五条 | 2024-04-14 17:20:44
赞
踩
exploitation vs
C. 人工智能 — 强化学习 - 前沿技术
难点
Exploitation VS Exploration
Sample Efficiency
Model
-based RL
概述
针对真实环境建模
通过Model-Network 反馈给 Policy Network
应用场景
棋类游戏
特点
优点
更好的基于环境做规划
缺点
很难完美复现真实环境
算法
Alpha Go
Training
Pre-train the policy network using Supervised Learning
Self-play and improve the policy network using Policy Gradient
Train value network with state-result pairs(collected during Self-play)
Inferencing using MCTS
Expand a tree node according to the policy network
Evaluate states with the help of value network
AlphaGo Zero
No pre-training
Self-play(with v.s. without MCTS)
Network training(sperately v.s. jointly trained networks)
Alpha Zero
MulZero
需要跟盘面编码(embeddings?)
Dream to Control
应用场景
无法对环境做完全建模
思路
环境建模和训练,交替进行,不断完善
细节
Learn dynamics using representation learning
Representation
Transition
Reward
Learn behavior with imagined trajectories
Action
Value
Large-scale RL projects
机器手臂解魔方
问题定义
观察:通过多个角度的摄像头观察
State:通过CNN转换成 state(vector)
Action:事先指定
Reward
Sim2Real Transfer
通过模拟环境,而非真实环境训练
Automatic Domain Randomization
由于真实环境跟模拟环境的差异
摩擦
重力
魔方表面的污点
等等
思路
不断增加环境的复杂度
Meta-RL
需要追溯历史
可以用 Meta-RL 学习 RL 的超参数、Loss Functions 、Exploration Strategies 。
Priors
概述
To obtain effective and fast-adapting agents, the agent can rely upon previously distilled knowledge in the form of a prior distribution.
论文
Simultaneous learning of a goal-agnostic default policy
Learning a dense embedding space to represent a large set of expert behaviors
Multi-agent RL
定义
不同Agent在同一个环境里面,互相学习,互相影响
难点
Optimal policy is dependent on the other agents’ policies
Convergence to optimal behavior is not guaranteed
任务分类
Analysis of emergent behaviors
没有明确的目标,观察一堆agent最后的行为
Learning communication
先教agent沟通的行为
Learning cooperation
先教agent合作的行为
Agents modeling agents
互相学习的能力
算法
Social Influence as Intrinsic Motivation
A mechanism for achieving coordination in multi-agent RL through rewarding agents for having causal Influence over other agents actions.
Actions that lead to bigger changes in other agents behavior are considered influential and are rewarded.
Influence is assessed using counterfactual reasoning.
in agent’s immediate reward is modified:
environmental reward + causal influence reward
AlphaStar:星际争霸机器人
先从人类经验中学习。在最顶上的一条,进行自我对弈。
但是,它把进化中的历史“自我”也存储起来,用来与自己对弈,防止进化方向错误。
此外,还保存了一些过去打败自己的“自己”,然后也用于与自己对弈。
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/Cpp五条/article/detail/423233
推荐阅读
article
大
模型
训练
部署利器--开源
分布式计算
框架
Ray
原理
介绍
_
ray
模型
训练
...
本文
介绍
了
分布式计算
框架
Ray
的
原理
。_
ray
模型
训练
ray
模型
训练
目录
Ray
是什么? ...
赞
踩
article
浅谈
lucene
_
fuzzy
_wuzzy_
wuzza
_
writer
...
1.
lucene
简介Lucene是一个全文搜索框架,而不是应用产品用,它只是提供了一种工具让你能实现例如百度、谷歌等搜索...
赞
踩
article
头歌-
Python
基础
_头歌
python
闯关答案
基础
语法
...
脚本(Script),是使用一种特定的描述性语言,依据一定的格式编写的可执行文件。脚本可以理解为将一组代码进行封装,通过...
赞
踩
article
美团
AI
全景图:
吃喝玩乐
背后的黑
科技
_汉城
信息技术
有限公司
美团
吃喝玩乐
...
很多人都会发现日常生活已经越来越离不开
美团
了,这个互联网平台涵盖了吃、住、行、游、购、娱……能帮我们做很多事情,非常接地...
赞
踩
article
人脸识别
:
face
-
api
.
js
库...
Tracking.
js
是一个独立的JavaScript库,用于跟踪从相机实时收到的数据。跟踪的数据既可以是颜色,也可以...
赞
踩
article
ElasticSearch
教程
——汇总_
elestaticsearch
教程
...
环境搭建篇
ElasticSearch
教程
——安装
ElasticSearch
教程
——安装Head插件ElasticSear...
赞
踩
article
「重磅」“庙算·智胜”
即时
策略
人机
对抗
平台
开放
访问!「
AI
核心算法」...
关注:决策智能与机器学习,深耕
AI
脱水干货作者:中科院自动化所 来源:中科院自动化所转载请联系作者决策智能是国家新一代人...
赞
踩
article
【
Flink
】
Flink
资源相关
Slot
Slot
Pool_
offerslots
...
1.概述转载并且补充:http://www.qishunwang.net/news_show_82511.aspx2.S...
赞
踩
article
python
求
圆周率
的2种方法(
公式
法和
蒙特卡罗
法)
_
python
用
公式
法求
圆周率
...
""" pi = sum[1/16^k *( 4/(8k+1)- 2/(8k+4) -1/((8k+5) -1/(8k+...
赞
踩
article
Flutter
面试
常见开发问题
,
2024年最新
kotlin
第三方
库
_
flutter
面试
...
在某些方面
,
确实如此。但是
Flutter
社区中的很多人更喜欢代码方式
,
但这并不意味着无法实现拖拽。如果你完全喜欢拖拽...
赞
踩
article
小米
8
黑砖&900
8
线刷
救砖记录_
medl
8
45
工具箱
...
MI
8
刷机后变成黑砖,表现形式为,无法开机,无法进入fastboot和recovery,按所有按键看不出反应,数据线连接...
赞
踩
article
旭日X3派开发板部署自己的
yolov5
模型_
openexplorer
/
ai
_
toolch
ai
n
_ce...
旭日X3派开发板部署自己的
yolov5
模型_
openexplorer
/
ai
_
toolch
ai
n
_
centos
_7_
xj3
...
赞
踩
article
微信
小
程序
适配
问题...
iPhoneX兼容在
小
程序页面开发中,涉及到需要
适配
iPhoneX的地方主要有导航栏(NavigationBar),标签...
赞
踩
article
开发
环境
配置整理大全——
Visual
Studio
最新
安装
篇_
visual
studio
开发
环境
...
Visual
Studio
是微软的集成
开发
环境
(IDE),以Windows为主的平台
开发
的一套功能全面而强大的IDE,支...
赞
踩
article
山东大学
计算机网络
期末考试复习...
做了一年计网课代表,又做了两年计网助教,搜集了一些复习题及相关资料分享给大家~
山东大学
计算机网络
往年期末考试题与考试经验...
赞
踩
article
头歌
educoder
:
Python
入门之基础语法 第3关:
注释
_
头歌
python
注释
的答案...
头歌
educoder
:
Python
入门之基础语法 第3关:
注释
本关任务:修改程序,得到正确的结果。_
头歌
python
注...
赞
踩
article
一个基于
axios
的
HTTP
客户端服务,添加响应
拦截器
处理异常信息utils/request...
request.
js
用于创建和配置一个
axios
实例来发送
HTTP
请求,并处理特定的响应情况。_
service
.inte...
赞
踩
article
flutter
面试
题
,
,
面试
突击版...
如果你觉得这些内容对你有帮助
,
可以扫码领取!!!!_
flutter
面试
flutter
面试
...
赞
踩
article
FPGA
学习
网站
、
开源
网站
和
论坛
网站
汇总_
学习
verilog
比较好的
网站
...
HDLBits有一系列的 Verilog 基础知识,可以在线仿真的
学习
网站
,题目很多,内容丰富,包括了 Verilog ...
赞
踩
article
Git
基础 -
tag
的使用_
git
push
tag
...
Git
tag
是
Git
代码版本管理工具中的一项重要功能,它可以用来记录在项目开发中重要的里程碑或版本号,并且可以通...
赞
踩
相关标签
machine learning
机器学习
云计算
云原生
chatgpt
语言模型
python
数学建模
开发语言
美团技术
javascript
ecmascript
elasticsearch
elasticsearch基础教程
elasticsearch入门教程
人工智能
大数据
编程语言
微软
物联网
flutter
面试
kotlin
手机