搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
喵喵爱编程
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
结构型设计模式之桥接模式【设计模式系列】_桥接模式类图例子
2
详解串行通信协议及其FPGA实现
3
Vue3 通信方式 defineProps、defineEmits、useAttrs、插件mitt和v-model
4
医疗AI发展的三个时代是什么?
5
Prim算法生成最小生成树(附完整的代码)_prim算法代码
6
ssm基于Java的小区物业管理系统论文_java小区物业管理系统论文
7
这才是经济学
8
spark踩坑之sc这个东东的特殊性_python sc 变量
9
ping不通github.com怎么办?
10
openpyxl中文文档_openpyxl官方文档中文版
当前位置:
article
> 正文
读AI新生:破解人机共存密码笔记14逆强化学习算法
作者:喵喵爱编程 | 2024-07-14 08:24:28
赞
踩
读AI新生:破解人机共存密码笔记14逆强化学习算法
1. 数学保证
1.1. 如果我们要沿着新的路线重建人工智能,那么它的基础必须是坚实的
1.2. 通过精确的定义和一步步的严格数学证明来提供无可辩驳的保证
1.3. 希望证明一个定理:设计人工智能系统的一种特殊方式可以确保它们对人类有益
1.4. 定理不过是断言的一个花哨的名称,它要表述得足够精确,以便在任何具体情况下都能检验其真实性
1.4.1. 定理的好坏取决于它所包含的假设
1.5. 最著名的定理是费马大定理,它由法国数学家费马(Pierre de Fermat)在1637年提出,经过357年的努力,安德鲁·怀尔斯(Andrew Wiles)终于在1994年证明了该定理(并非全部由怀尔斯完成)
1.5.1. 这个定理可以用一行写完,但是证明它需要100多页密密麻麻的数学计算
1.6. 证明始于公理,公理是假定为真的断言
1.6.1. 公理是真实的,因为我们是这样认为的
1.6.2. 公理通常只是定义
1.6.2.1. 费马大定理所需的整数、加法和求幂的定义
1.6.2.2. 罗素定理和费马大定理揭示的真理都已经包含在公理中
1.6.2.3. 数学是我们定义的抽象对象
1.6.2.3.1. 数字、集合等
1.6.3. 证明从公理开始,通过逻辑上无可争议的步骤,添加新的断言,直到定理本身作为其中一个步骤的结果而被确定
1.6.3.1. 证明不过是使隐含的东西变得明确罢了
1.6.3.2. 证明的过程可长可短,但是它们没有增加任何新东西
1.7. 像这样设计的人工智能系统不会故意杀死你,那么你的公理必须在现实世界中是正确的
1.7.1. 如果它们不正确,那么你就证明了一个假想世界中的东西
1.7.2. 科学和工程学拥有证明假想世界结果的悠久而光荣的传统
2. 结构工程
2.1. 假设AB是一根刚性梁
2.1.1. 刚性这个词在这里并不是指“由像钢铁这样坚硬的东西制成”,它的意思是“无限坚固”,所以它完全不会弯曲
2.1.2. 刚性梁并不存在,所以这是一个假想的世界
2.1.3. 关键是要知道它偏离现实世界的程度,那就仍能获得有用的结果
2.1.4. 如果“刚性梁假设”允许工程师计算出这个结构中的力,并且这些力足够小,只能使真正的梁发生很小程度的弯曲,那么工程师可以合理地相信,把想象世界中的分析转移到现实世界中也会成立
2.1.5. 如果梁处于压缩状态,其两端都受到巨大的力的挤压,那么即使很小的弯曲也会导致更大的侧向力,从而导致更大的弯曲,以此类推,最终导致灾难性的失败
2.2. 假设AB是一根刚度为K的柔性梁
2.2.1. 真实的梁并不具有均匀的刚度
2.2.1.1. 它们有微小的缺陷,如果梁反复弯曲,这些缺陷会使裂缝产生
2.3. 移除不现实的假设的过程会持续下去,直到工程师非常确信剩余的假设在现实世界中足够站得住脚
2.4. 工程系统可以在现实世界中进行测试,但测试结果仅限于此
2.4.1. 它们不能证明相同的系统在其他情况下仍然有效
2.4.2. 不能证明系统的其他实例会按照与原始系统相同的方式运行
3. 网络安全
3.1. 在该领域,人们需要进行大量的数学分析来证明某些数字协议的安全性
3.2. 在真实的物理世界中运行
3.2.1. 通过监听键盘的声音或测量为笔记本电脑供电的电线的电压,攻击者可以“听到”你的密码或观察到处理过程中发生的加密与解密计算
3.2.2. 网络安全界现在正在应对这些所谓的侧信道攻击,例如,编写一种加密代码,不管加密的是什么消息,代码都会产生相同的电压波动
4. 有益机器定理
4.1. 假设一台机器具有组件A、B、C,它们彼此以某种方式连接在一起,并同环境以某种方式连接在一起,且使用内部学习算法lA、lB、lC来优化内部反馈奖励rA、rB、rC,以及一些其他条件……那么很有可能,机器的行为在(对人类的)价值上将非常接近在任何具有相同计算能力和物理能力的机器上可以实现的最佳可能行为
4.2. 无论组件变得多么智能,这样的定理都应该成立,也就是说,证明无懈可击,机器永远对人类有益
4.3. 我们不能试图证明机器代表我们产生最优(或接近最优)的行为,因为我们几乎可以肯定,这在计算上是不可能的
4.4. 我们说“很有可能……非常接近”,因为这通常是机器学习所能做到的最好的结果
4.4.1. 如果机器正在学习帮我们玩轮盘赌,球连续40次落在“0”的位置上,机器可能会合理地判断赌桌被操纵了,并相应地下注
4.5. 人工智能中也有类似的侧信道攻击
4.5.1. 区分智能体(做决策的程序)和环境(智能体执行操作的地方)
4.5.2. 与侧信道攻击一样,认为程序在数字系统中运行的假设是不正确的
4.5.3. 虽然学习算法在本质上不能通过数字手段重写自己的代码,但它仍可能学会说服人类对其进行“脑部手术”,以此来违反智能体和环境的区分,并通过物理手段改变代码
4.6. 我们对那些最终将成为“可证明有益的人工智能”(Provably Beneficial AI)定理基础的假设知之甚少
4.6.1. “可证明有益”是一种愿望,而非承诺,但这是正确的愿望
4.6.2. 在现实中没有完全理性的人
4.6.2.1. 情况可能更糟,因为人类甚至还没有接近理性
4.6.3. 我们必须非常小心地检查我们的假设
4.7. 当安全性被成功证明时,我们需要明白它不会真的成为现实,因为我们做出了不切实际的强假设,或是因为安全的定义太弱
4.8. 当安全性被证明失败时,我们需要抵制诱惑,不去增强假设以使证明通过,例如添加程序代码保持不变的假设
4.8.1. 我们需要加强人工智能系统的设计,例如确保它没有修改自己代码的关键部分的动机
4.9. “OWMAWGH”假设
4.9.1. “否则我们还不如回家”(otherwise we might
as well go home)
4.9.2. 如果这些假设是错误的,那么游戏就结束了,我们没有什么可做的了
5. 从行为中学习偏好
5.1. 经济学家通过为人类受试者提供选择来套取他们的偏好
5.1.1. 该技术广泛应用于产品设计、营销和交互式电子商务系统中
5.1.2. 另一个重要应用是在医学领域,肿瘤学家在考虑截肢的可能性时,可能需要评估病人在行动能力和预期寿命之间的偏好
5.1.3. 套取偏好通常只考虑在多个对象之间做出的单一选择,我们假设这些对象的价值对受试者而言是显而易见的
5.2. 利用强化学习来训练机器人或模拟昆虫,以此重现这些复杂的行为是可能的
5.2.1. 不知道使用什么奖励信号,不知道苍蝇和蟑螂在优化什么
5.2.2. 没有这些信息,就无法应用强化学习来训练虚拟昆虫,所以陷入了困境
5.3. 当强化学习从奖励中产生行为时,我们实际上想要的恰恰相反:学习给定行为的奖励
5.3.1. 我们已经有了由苍蝇和蟑螂产生的行为,我们想知道这种行为所优化的具体奖励信号
6. 逆强化学习算法
6.1. 马尔科夫决策过程的结构式估计方法
6.1.1. IRL
6.1.2. 这是诺贝尔奖得主汤姆·萨金特(Tom Sargent)在20世纪70年代末开创的一个领域
6.2. 这样的算法不仅可以解释动物的行为,还可以预测它们在新环境下的行为
6.3. 这些算法可以获得足够多的关于实体偏好的信息,使之能够像观察到的实体一样成功地行动,因此可以从某种程度上保证算法的有效性
6.4. 理解逆强化学习算法的最简单方法
6.4.1. 观察者从对真实的奖励函数的一些模糊估计开始,然后随着观察到更多的行为而细化这个估计,使之更精确
6.4.2. 用贝叶斯的理论来解释:从可能的奖励函数的先验概率开始,然后随着证据的增加来更新奖励函数的概率分布
6.5. 学习直升机特技飞行方面
6.5.1. 试图复制人类行为的结果并不太好,因为条件无法完全再现:在不同情况下重复相同的控制序列可能会导致灾难
6.5.2. 相反,该算法以它能够实现的轨迹约束的形式,来学习人类飞行员想要的东西
6.5.2.1. 这种方法实际上产生的结果甚至比人类专家所做的还要好,因为人类的反应更慢,并且会不断地犯小错误并纠正错误
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/喵喵爱编程/article/detail/823944
推荐阅读
article
实战解析:AI大
模型
驱动的Agent
智能
数据分析
平台
_db-gpt
agents
构建
应用...
随着数据量的激增和业务复杂性的提升,企业和组织对高效、精准的
数据分析
工具的需求日益增强。
智能
数据分析
平台
因此应运而生,它...
赞
踩
article
生成式
AI赋能
金融
信贷
:减少信用评分偏差_
生成式
人工智能
解决
信贷
小样本问题...
了解如何利用GenAI和MongoDB进行更实时智能的评分与预测,提高信用评估的准确性。_
生成式
人工智能
解决
信贷
小样本问...
赞
踩
article
Viterbi
译码
及
matlab
代码
(一)
_
维克
比
译码
matlab
...
转自:http://www.doc88.com/p-5436827857500.html
_
维克
比
译码
matlab
维克
比译...
赞
踩
article
sort
与
sort
ed
的
区别
及实例...
描述我们需要对List进行排序,Python提供了两个方法对给定
的
List L进行排序 :方法1.用对List
的
成员函数...
赞
踩
article
Serverless
和
PaaS
之间就“差”
了
一个
负载
均衡
...
概述最近做
了
一些关于server应用的集群化平台运维相关的事情,所以想写一篇关于
Serverless
和
PaaS
(Pl...
赞
踩
article
照片
尺寸
怎么
调整
大小
?三个
方法
,
高效、快捷、安全!...
修改
调整
照片
的
尺寸
大小
是一最为基础却是最为重要的图片处理技能
,
它的使用可以说是非常频繁的
,
很多图片处理小白完全不知道
怎么
...
赞
踩
article
Milvus
核心
设计
(2)
-----
TSO
机制
详解...
Milvus
在
设计
上突出了分布式的
设计
,虽然Chroma 也支持分布式的store 与 query。但是相对Milvu...
赞
踩
article
Redisson
源码(二)
延迟
队列
RDelayedQueue
的
使用
及原理
分析
...
延迟
队列
RDelayedQueue
的
使用
及原理
分析
_rdelayedqueuerdelayedqueue ...
赞
踩
article
深度解析:
AWS
、
谷歌云
、
IBM
Cloud
和
微软
Azure
四巨头2018将会有哪些布局?...
来源: IDC圈近来,公司规模已经不再是企业选择云服务商的重要因素,市场对云服务商优劣的判断有了多种标准。企业对全球一些...
赞
踩
article
如何使用
JMeter
去测试
Kafka
_
jmeter
kafka
...
前言转帖一篇介绍使用
JMeter
去测试
Kafka
的英文文章,这篇文章讲的很好,个人已经实现,转帖在此。最近项目很紧,时间...
赞
踩
article
第1篇最强
Redis
面试
八股文
_
redis
8.0
...
2022年,我开始涉足技术直播和技术讲师领域,并和博文视点合作几次技术直播,直播效果还不错,再加上我孜孜不倦的布道“Sp...
赞
踩
article
Hadoop
第五章
:几个
案例
(二)
_
hadoop
其他
相关实例...
这次依旧忽略理论部分继续带来一些
案例
。
_
hadoop
其他
相关实例
hadoop
其他
相关实例 ...
赞
踩
article
软件
架构
之
架构
风格...
SOA 是一种在计算环境中设计、开发、部署和管理离散逻辑单元(服务)模型的方法。SOA 并不是一个新鲜事物,而只是面向对...
赞
踩
article
git
oschina
使用步骤总结
_
git
oschina
...
1、首先在power shell的命令行输入
git
config --global user.name "用户名"
git
...
赞
踩
article
yum
makecache报错:Metadata
file
does
not
match
check...
背景使用squid搭建了一台
yum
源代理机,缓存策略是能缓存尽量缓存,过期时间是一年,最近客户端使用该代理时一直出现Me...
赞
踩
article
生成
ssh
密钥
,使用
ssh
连接
linux
系统...
客户端/服务器都可以
生成
,但是要考虑传输方便和安全问题根据自己的使用情况
密钥
传输,怎么方便怎么来,一对一:一台PC连接一...
赞
踩
article
题解
| #获取每个部门中当前员工薪水最高的相关
信息
#_
星网
创新
院
和
系统
院
哪个
好...
题解
| #数字的二进制表示# import sysprint(bin(int(input())))
题解
| #缩短...
赞
踩
article
CleanMyMac
X2024
破解版
免秘钥
激活码
许可证...
综上所述,
CleanMyMac
X是一款功能强大的Mac电脑清理和优化工具。此外,
CleanMyMac
X还提供了其他功...
赞
踩
article
我攒了整个
秋招
的
NLP
算法
岗
面经,今天全部
分享
出来_
nlp
算法
岗
秋招
准备...
节前,我们组织了一场
算法
岗
技术&面试讨论会,邀请了一些互联网大厂同学、参加社招和校招面试的同学,针对大模型技术趋势、大模...
赞
踩
article
新增
provider
时报错
Manifest
merger
failed
with
multiple...
在Android
Manifest
.xml中新增
provider
时报了错误:
Manifest
merger
failed
...
赞
踩
相关标签
人工智能
数据分析
java
AI大模型
LLM
RAG
langchain
金融
python
paas
负载均衡
容器
服务器
linux
windows
milvus
算法
机器学习
redis
开源
Kafka
JMeter
面试
职场和发展