搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
喵喵爱编程
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
文心一言降重效果 快码论文_文心一言降重诀窍
2
java计算机毕业设计(附源码)学生信息管理系统(ssm+mysql+maven+LW文档)
3
Kafka怎么保证消息发送不丢失_kafka 生产者和消费者怎么保证不丢消息
4
国密算法SM3
5
常见开源许可证_弱著佐权类许可证
6
pyglet python播放视频有声音_播放器播放rtsp混合流正常,python代码播放有杂音
7
Prim算法:最小生成树的构建_prim算法怎么构建最小生成树
8
paddleocr - 数据集制作_paddleocr数据集格式
9
阿里、腾讯、字节、京东、美团、百度......薪资职级大比拼
10
【xml解析】的学习_xml语言 sph
当前位置:
article
> 正文
读AI新生:破解人机共存密码笔记14逆强化学习算法
作者:喵喵爱编程 | 2024-07-14 08:24:28
赞
踩
读AI新生:破解人机共存密码笔记14逆强化学习算法
1. 数学保证
1.1. 如果我们要沿着新的路线重建人工智能,那么它的基础必须是坚实的
1.2. 通过精确的定义和一步步的严格数学证明来提供无可辩驳的保证
1.3. 希望证明一个定理:设计人工智能系统的一种特殊方式可以确保它们对人类有益
1.4. 定理不过是断言的一个花哨的名称,它要表述得足够精确,以便在任何具体情况下都能检验其真实性
1.4.1. 定理的好坏取决于它所包含的假设
1.5. 最著名的定理是费马大定理,它由法国数学家费马(Pierre de Fermat)在1637年提出,经过357年的努力,安德鲁·怀尔斯(Andrew Wiles)终于在1994年证明了该定理(并非全部由怀尔斯完成)
1.5.1. 这个定理可以用一行写完,但是证明它需要100多页密密麻麻的数学计算
1.6. 证明始于公理,公理是假定为真的断言
1.6.1. 公理是真实的,因为我们是这样认为的
1.6.2. 公理通常只是定义
1.6.2.1. 费马大定理所需的整数、加法和求幂的定义
1.6.2.2. 罗素定理和费马大定理揭示的真理都已经包含在公理中
1.6.2.3. 数学是我们定义的抽象对象
1.6.2.3.1. 数字、集合等
1.6.3. 证明从公理开始,通过逻辑上无可争议的步骤,添加新的断言,直到定理本身作为其中一个步骤的结果而被确定
1.6.3.1. 证明不过是使隐含的东西变得明确罢了
1.6.3.2. 证明的过程可长可短,但是它们没有增加任何新东西
1.7. 像这样设计的人工智能系统不会故意杀死你,那么你的公理必须在现实世界中是正确的
1.7.1. 如果它们不正确,那么你就证明了一个假想世界中的东西
1.7.2. 科学和工程学拥有证明假想世界结果的悠久而光荣的传统
2. 结构工程
2.1. 假设AB是一根刚性梁
2.1.1. 刚性这个词在这里并不是指“由像钢铁这样坚硬的东西制成”,它的意思是“无限坚固”,所以它完全不会弯曲
2.1.2. 刚性梁并不存在,所以这是一个假想的世界
2.1.3. 关键是要知道它偏离现实世界的程度,那就仍能获得有用的结果
2.1.4. 如果“刚性梁假设”允许工程师计算出这个结构中的力,并且这些力足够小,只能使真正的梁发生很小程度的弯曲,那么工程师可以合理地相信,把想象世界中的分析转移到现实世界中也会成立
2.1.5. 如果梁处于压缩状态,其两端都受到巨大的力的挤压,那么即使很小的弯曲也会导致更大的侧向力,从而导致更大的弯曲,以此类推,最终导致灾难性的失败
2.2. 假设AB是一根刚度为K的柔性梁
2.2.1. 真实的梁并不具有均匀的刚度
2.2.1.1. 它们有微小的缺陷,如果梁反复弯曲,这些缺陷会使裂缝产生
2.3. 移除不现实的假设的过程会持续下去,直到工程师非常确信剩余的假设在现实世界中足够站得住脚
2.4. 工程系统可以在现实世界中进行测试,但测试结果仅限于此
2.4.1. 它们不能证明相同的系统在其他情况下仍然有效
2.4.2. 不能证明系统的其他实例会按照与原始系统相同的方式运行
3. 网络安全
3.1. 在该领域,人们需要进行大量的数学分析来证明某些数字协议的安全性
3.2. 在真实的物理世界中运行
3.2.1. 通过监听键盘的声音或测量为笔记本电脑供电的电线的电压,攻击者可以“听到”你的密码或观察到处理过程中发生的加密与解密计算
3.2.2. 网络安全界现在正在应对这些所谓的侧信道攻击,例如,编写一种加密代码,不管加密的是什么消息,代码都会产生相同的电压波动
4. 有益机器定理
4.1. 假设一台机器具有组件A、B、C,它们彼此以某种方式连接在一起,并同环境以某种方式连接在一起,且使用内部学习算法lA、lB、lC来优化内部反馈奖励rA、rB、rC,以及一些其他条件……那么很有可能,机器的行为在(对人类的)价值上将非常接近在任何具有相同计算能力和物理能力的机器上可以实现的最佳可能行为
4.2. 无论组件变得多么智能,这样的定理都应该成立,也就是说,证明无懈可击,机器永远对人类有益
4.3. 我们不能试图证明机器代表我们产生最优(或接近最优)的行为,因为我们几乎可以肯定,这在计算上是不可能的
4.4. 我们说“很有可能……非常接近”,因为这通常是机器学习所能做到的最好的结果
4.4.1. 如果机器正在学习帮我们玩轮盘赌,球连续40次落在“0”的位置上,机器可能会合理地判断赌桌被操纵了,并相应地下注
4.5. 人工智能中也有类似的侧信道攻击
4.5.1. 区分智能体(做决策的程序)和环境(智能体执行操作的地方)
4.5.2. 与侧信道攻击一样,认为程序在数字系统中运行的假设是不正确的
4.5.3. 虽然学习算法在本质上不能通过数字手段重写自己的代码,但它仍可能学会说服人类对其进行“脑部手术”,以此来违反智能体和环境的区分,并通过物理手段改变代码
4.6. 我们对那些最终将成为“可证明有益的人工智能”(Provably Beneficial AI)定理基础的假设知之甚少
4.6.1. “可证明有益”是一种愿望,而非承诺,但这是正确的愿望
4.6.2. 在现实中没有完全理性的人
4.6.2.1. 情况可能更糟,因为人类甚至还没有接近理性
4.6.3. 我们必须非常小心地检查我们的假设
4.7. 当安全性被成功证明时,我们需要明白它不会真的成为现实,因为我们做出了不切实际的强假设,或是因为安全的定义太弱
4.8. 当安全性被证明失败时,我们需要抵制诱惑,不去增强假设以使证明通过,例如添加程序代码保持不变的假设
4.8.1. 我们需要加强人工智能系统的设计,例如确保它没有修改自己代码的关键部分的动机
4.9. “OWMAWGH”假设
4.9.1. “否则我们还不如回家”(otherwise we might
as well go home)
4.9.2. 如果这些假设是错误的,那么游戏就结束了,我们没有什么可做的了
5. 从行为中学习偏好
5.1. 经济学家通过为人类受试者提供选择来套取他们的偏好
5.1.1. 该技术广泛应用于产品设计、营销和交互式电子商务系统中
5.1.2. 另一个重要应用是在医学领域,肿瘤学家在考虑截肢的可能性时,可能需要评估病人在行动能力和预期寿命之间的偏好
5.1.3. 套取偏好通常只考虑在多个对象之间做出的单一选择,我们假设这些对象的价值对受试者而言是显而易见的
5.2. 利用强化学习来训练机器人或模拟昆虫,以此重现这些复杂的行为是可能的
5.2.1. 不知道使用什么奖励信号,不知道苍蝇和蟑螂在优化什么
5.2.2. 没有这些信息,就无法应用强化学习来训练虚拟昆虫,所以陷入了困境
5.3. 当强化学习从奖励中产生行为时,我们实际上想要的恰恰相反:学习给定行为的奖励
5.3.1. 我们已经有了由苍蝇和蟑螂产生的行为,我们想知道这种行为所优化的具体奖励信号
6. 逆强化学习算法
6.1. 马尔科夫决策过程的结构式估计方法
6.1.1. IRL
6.1.2. 这是诺贝尔奖得主汤姆·萨金特(Tom Sargent)在20世纪70年代末开创的一个领域
6.2. 这样的算法不仅可以解释动物的行为,还可以预测它们在新环境下的行为
6.3. 这些算法可以获得足够多的关于实体偏好的信息,使之能够像观察到的实体一样成功地行动,因此可以从某种程度上保证算法的有效性
6.4. 理解逆强化学习算法的最简单方法
6.4.1. 观察者从对真实的奖励函数的一些模糊估计开始,然后随着观察到更多的行为而细化这个估计,使之更精确
6.4.2. 用贝叶斯的理论来解释:从可能的奖励函数的先验概率开始,然后随着证据的增加来更新奖励函数的概率分布
6.5. 学习直升机特技飞行方面
6.5.1. 试图复制人类行为的结果并不太好,因为条件无法完全再现:在不同情况下重复相同的控制序列可能会导致灾难
6.5.2. 相反,该算法以它能够实现的轨迹约束的形式,来学习人类飞行员想要的东西
6.5.2.1. 这种方法实际上产生的结果甚至比人类专家所做的还要好,因为人类的反应更慢,并且会不断地犯小错误并纠正错误
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/喵喵爱编程/article/detail/823944
推荐阅读
article
性能
监控
的革命:
Eureka
引领
分布式服务
监控
新纪元...
Eureka
作为Netflix开源的服务发现框架,为服务的注册与发现提供了强大支持,而结合其他工具,可以构建一个全面的分...
赞
踩
article
android
自定义
application
,
安卓以
widget
方式集成,不能使用
自定义
的applic...
java.lang.RuntimeException: Manifest merger failed with mult...
赞
踩
article
Android极光推送,
Manifest
merger
failed
with
multiple e...
极光推送加载jar包时,报错
Manifest
merger
failed
with
multiple errors, s...
赞
踩
article
大
数据
——利用
Mysql
存储
过程
生成
订单
数据
_
创建
存储
过程
实现新增一个
订单
信息
,
并要求该
订单
中至少有...
#如果存在则删除
存储
过程
DROP PROCEDURE IF EXISTS usp
_
generate
_
order
_
data...
赞
踩
article
JAVA
中
关于
链表
的
操作和基本算法
_
java
链表
库...
import
java
.util.HashMap;import
java
.util.Scanner;import jav...
赞
踩
article
链表
及其
基本操作
(
Java
语言版)_
java
链表
的
基本操作
...
链表
的
基本操作
_
java
链表
的
基本操作
java
链表
的
基本操作
...
赞
踩
article
datawhale
- 基于
术语
词典
干预
的
机器翻译
挑战赛
(一)...
datawhale
datawhale
- 基于
术语
词典
干预
的
机器翻译
挑战赛
(一) ...
赞
踩
article
【爬虫】
Python
实现,模拟
天眼
查
登录
验证
获取
token
_
天眼
查检查是已否登陆
python
...
注:本程序测试时期:2024.7.9,稳定可用
天眼
查
登录
接口升级更新之后,后台接口login接口
登录
运用了4代极验gt,...
赞
踩
article
数据结构
与
算法
-
C语言
实现
(上)...
以
C语言
为基础
实现
一些经典的
数据结构
和
算法
,主要体会优秀的编程思想,细节
实现
有不足之处。
数据结构
与
算法
-
C语言
实现
(上)...
赞
踩
article
常见的
服务
器
架构
入门:从
单体
架构
、
EAI
到
SOA
再到微
服务
和
ServiceMesh
_
单体
架构
...
1、
单体
架构
:将所有业务的表现层,业务逻辑层,数据访问层放在一个工程中最终部署在一台
服务
器2、垂直
架构
:按业务场景拆分为...
赞
踩
article
【
Unity
】优化工具
Profiler
_
unity
profiler
...
性能分析器(
Profiler
)是
Unity
内部集成的一款性能优化工具,可以检查脚本代码,查看运行过程中资源使用情况,还可...
赞
踩
article
唯众本科
物
联网
工程技术
专业
解决方案
_c#
物
联网
课程体系
...
唯众本科
物
联网
工程技术
专业
解决方案
_c#
物
联网
课程体系
c#
物
联网
课程体系
一、专业背景 ...
赞
踩
article
vscode
中
配置
git
_
vscode
1.89
.0
git
配置
...
1、
配置
环境变量2、
vscode
中
配置
3、重启_
vscode
1.89
.0
git
配置
vscode
1.89
.0
git
...
赞
踩
article
android
错误
exported
needs
to be
explicitly
specifi...
b、如果还报错误,那我们可以在build.gradle里面的dependencies里面, 采用二分大法, 先块注释一部...
赞
踩
article
Redis
通过
Redis
son
实现
延迟
队列
_redssion
实现
延迟
队列
的方式...
前言
实现
延迟
队列
的方式有很多种,有本地自己jdk方式
实现
、Quartz 定时任务
实现
、RabbitMQ 延时
队列
实现
,还...
赞
踩
article
Python
列表
排序
方法
reverse
、
sort
、
sort
ed详解_
python
sort
ed re...
python
语言中的
列表
排序
方法有3个:
reverse
反转/倒序
排序
sort
正序
排序
sort
ed可以获取
排序
后的
列表
在更...
赞
踩
article
python
读取
并
保存
图片
_
python
读取
和
保存
图片
5种
方法
对比...
python
读取
和
保存
图片
5种
方法
对比
python
中对象之间的赋值是按引用传递的,如果需要拷贝对象,需要用到标准库中的c...
赞
踩
article
安全
之战,巅峰对决 |
第八届
XCTF
国际
网络
攻防联赛
总决赛
首日赛况公布!...
联合高校的0xFFF战队获得亚军,值得一提的是0xFFF战队是一支新兴的联合战队,成立于2023年10月,其队员由全国各...
赞
踩
article
深度
学习
八股文:
模型
训练
全
过程
及各阶段的原因_
模型
训练
的
过程
是什么
过程
...
选择适当的
深度
学习
模型
结构,如卷积神经网络(CNN)、循环神经网络(RNN)、长短时记忆网络(LSTM)、变换器(Tra...
赞
踩
article
为
什么
我选择
Apache
Iceberg
_
apache
iceberg
相比传统表有
什么
好处...
Delta Lake 将其定义为:Delta Lake is an open-source storage layer ...
赞
踩
相关标签
eureka
云原生
android自定义application
Manifest merger failed with mu
极光推送
mysql
大数据
JAVA
链表
算法
排序
java
数据结构
机器翻译
人工智能
自然语言处理
datawhale
爬虫
c语言
散列表
广度优先
霍夫曼树
后端
微服务
架构