赞
踩
——参考文献《人工智能:一种现代的方法》(第3版)
目录
1.2 Model-based reflex agents(基于模型)
1.4 Utility-based agents(基于效用)
总结,以上四种Agent都是在选择下一步行动,并且决策过程越来越复杂。
Agent = 程序 + 体系结构(使Agnent能够更好执行行动的装置,例如:对于一个扫地机器人,需要传感器)
四种Agent程序:
• Simple reflex agents(简单反射)
• Model-based reflex agents(基于模型)
• Goal-based agents(基于目标)
• Utility-based agents(基于效用)
最简单的一组固定事件:if……then。例如:if hungry,then eat。
上图是一个简单反射的示例
这个出现的问题就很常见了。比如肚子饿的时候,其实你这时候有肠胃炎不能吃东西,但是你通过这个反射不停的吃,那就挂了。
将部分可观测的环境记录到Agent的内部知识中,就是在简单反射的基础上,将一些常识性的东西教给Agent。比如,人在肠胃科+肚子饿=肠胃出问题了,不能吃东西。我不需要知道自己为什么在肠胃科,但是我要知道现在不能吃东西。
例如一个自动驾驶汽车,遇到一辆大卡车堵在前面,它不需要知道大卡车前面发生了什么,只需要知道现在有障碍,不能通行。
这个模型和前面两个有根本性的不同,它需要考虑到未来发生什么情况。比如,我的终极目标是吃东西,那么 我在肠胃科+肚子饿=现在先不吃(避免挂掉),等好了再吃
Utility:the quality of being useful
这里的效用可以理解为希望以什么样的状态或形式达成目标。比如我在肠胃科,我想吃东西,医生告诉有两种药可以治好我的病,一个吃下去就见效,但是副作用很大,一个见效时间慢但没什么副作用,那你就根据自己的偏好选择吧。
给定一个既定标准(不可由Agent来修改),由一个评判元件在Agent学习后进行反馈,Agent通过这些反馈,把自己新学的知识归纳到性能元件进行校正。最后一个问题产生器,允许少量的自行探索,可能探索出一些当下次优,但长期而言更好的行动。
比如我从肠胃科出来,我太饿了,到路边拔了根草吃下去,结果肠胃炎更厉害了。这时候外在性能就要告诉我,吃草带来的损失对于整体性能的影响是负面的,所以我学到了,下次尽量不吃草来缓解饥饿问题。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。