当前位置:   article > 正文

因果推断、强化学习与理性人工智能奇点_因果强化学习

因果强化学习

近年来,人工智能技术呈现加速发展的趋势,引发社会对其产生“智能爆炸”,甚至超越人类,产生诸如隐私安全、数据独裁、算法偏见、机器权利等科技挑战与伦理困境,并可能对人类社会秩序造成严重冲击的极大忧虑[1],而对于人类智能与人工智能的本质及二者之间的关系缺少充分认识和理解则进一步加剧了这种忧虑。

无论人工智能的发展可能为人类自由发展创造必不可少的条件,还是将导致如奇点论所言人类未来悲观的结局,都应当从生物生存发展的历史与现实出发,探析智能这一客观现象的本质、发展规律及其与人类的关系,从而为开发与利用人工智能建构合理的行为规则与价值态度,推动实现对人类智能本质的全面理解及人工智能创造力的充分发掘。

一、人工智能的困境与智能的本质

(一) 人工智能的发展与实现困境

在人工智能发展历程中,大致形成了“符号主义”、“连结主义”、“行为主义”三种流派。

“符号主义”又称为知识驱动方法,认为人类智能本质是是一种数理逻辑,以符号系统作为人类理性智能活动的模型,通过计算机实现对人类认知结构的模拟。“符号主义”优点是具有较强的可解释性,易于跨领域和跨任务推广,但缺点是只能部分解决完全信息和结构化环境下的确定性问题,对较复杂和具有不确定特点的知识难以描述。

“连结主义”主张通过模拟生物神经网络,建立“刺激-响应”的联结机制与学习规则来产生智能行为。近年来,在硬件算力与海量数据的支持下,以深度神经网络为代表的基于数据驱动的人工智能技术迅猛发展,在多个领域取得了令人瞩目的成果。

然而随着研究的深入,数据驱动的人工智能的不足也逐渐暴露。其依赖海量昂贵的标注数据及巨大计算资源,不仅学习效率远低于人类,所得到的模型也存在泛化能力和可解释性不足。研究还发现深度学习网络模型十分脆弱,易受攻击和欺骗[7]。

“行为主义”认为人类的智力不仅仅是人类大脑的功能,而是大脑、身体和生存的环境的组合,认为不同行为主体与不同环境的交互过程中学习控制性任务,可以产生复杂的智能行为以更好地适应环境,提出把信息论、控制论、逻辑理论与以及计算机方法联系起来探索神经系统的工作原理。“行为主义”基于上述理论研制了机器蜘蛛、机器蝴蝶和机器鱼等“控制论动物”,其主要不足在于对智能行为的生成缺少可解释性。

(二)智能的本质

智能的本质与来源是人工智能领域的基础性问题,但对于什么是智能的本质目前尚没有严格和统一的定义。图灵认为人类智能并非某种神秘莫测的能力,人的认知过程是一种状态机,提出一种以模仿智能行为的测试来作为对智能本质的定义,即“图灵测试”,任何智能系统只要通过“图灵测试”就意味着其与人类智能具有功能上的等同性。

图灵的智能观对人工智能的发展起到了重要的推动作用,但也不断受到质疑。塞尔提出了“中文屋”思想实验,说明基于图灵计算主义的人工智能实际上并不能理解其行为的意义,其智能行为缺乏心灵“意向性”,因此不能算是“思考”,更不是人类智能。

从智能水平的角度,塞尔提出将人工智能划分为“弱人工智能”与“强人工智能”。弱人工智能是从技术角度模拟人和动物智能用于解决模式识别、专家系统、自然语言处理等特定领域的问题,其并没有自主意识和主动学习思考的能力。强人工智能则是能够自主学习、独立决策、制定计划,具备理解复杂理念和从经验中学习的抽象思维能力,并可达到甚至超过人类水平。强人工智能意味着智能奇点在逻辑上是可达的[2]。

从功能性的角度,“智能”包括获得并运用知识和经验来解决新问题、形成新概念、改造和适应新环境的能力。今天地球上所有的智能活动,都是在亿万年自然进化过程中,生物通过与环境交互,不断的学习和进化所遗留下来的实践产物。人类智能脱胎于动物智能,但却远超动物智能。人可以“把整个自然界——首先作为人的直接的生活资料,其次作为生命活动的对象(材料)和工具——变为人的无机的身体。”[3]而动物只能在狭小的范围内紧紧地依附自然,消费自然恩赐的有限的现成资源。因此,动物智能表现为针对特定生存环境的单一能力的弱智能;而人类智能则是一种摆脱自然束缚并不断超越本能的通用性强智能。

同时,按照辩证唯物主义两点论,强智能和弱智能之间必然存在不同的中间层级。例如,创造性思维长期被认为是人类独有的能力,然而大量实例证明,人类不是唯一能够进行创造的生物。比如,黑猩猩能用树枝做工具取食白蚁;海獭用石头击打贝类以去掉贝壳。澳洲黑鸢等几种猛禽会将燃烧的树枝棍扔到干燥的草原上引发“野火”,借机捕猎藏在草中的昆虫和小型动物。这些动物类似人类改造自然实践的行为,仅靠动物自身的“条件反射”本能是不足以解释的,说明动物的智能水平并不是一个静态不变的概念,也表明人类智能产生的特殊生物进化过程并不是智能产生的唯一途径。

二、智能认知的核心与实现形式

(一) 智能的多样性与理性认知

由于智能载体和表现形式的多样性,关于人工智能是否能达到和如何达到人类智能水平的问题仍然未有定论。美国心理学家桑代克把人类智力活动分为三类:一是社会智力,即了解他人和与人相处的能力;二是机械智力,即了解事物、应用机械技术和工具的能力;三是抽象智力,即了解和应用文字或数学符号的能力。可见,人类智能可大致分为社会智能和理性智能。无论是图灵测试还是塞尔“中文屋”实验,都将这两种智能混为一体,因此无法真正认识人类智能的本质。

马克思指出:人具有自然属性和社会属性,本质是社会属性。人类智能作为人类特性必然也具备自然和社会两种属性,除非人工智能载体可以模拟人类所有的社会关系并建构生物生存意图,否则人工智能不可能具有人类价值观和人类社会属性。而自然世界的客观实在性意味着人类智能对于客观世界的理性认知规律是客观实在,并可以认识和模拟的。因此,借助机器远超人类的计算能力和物理持久性,掌握了客观世界认知规律的人工智能在认知方面必然能够达到乃至超越人类智能水平。

围棋曾被视为人工智能游戏最大的挑战。然而随着AlphaGO的横空出世,最强版AlphaGo Zero完全不需要使用人类的经验棋局和定式,只是从基本规则开始摸索,自发学习,不仅重现了人类围棋“定式”,而且发现了许多未知的“定式”,有力说明了人类经验的有效性和局限性。AlphaGO Zero策略网络的设计,呈现出类似人类棋手的“棋感”,表明所谓人类“第六感”并非神秘莫测不可捉摸,而是根植于物理实在和可重现的。

(二) 智能实现的因果推断形式

那么,人类理性智能认知的核心是什么?珀尔等人认为,人类智能的根本能力就是因果推断能力,因果推断是人类想象能力与改造世界能力的意识基底和心智结构,强人工智能就是具有因果推断能力的智能。珀尔将因果推断分为三个层次:关联因果、干预因果、反事实推理[4]。关联因果关系不仅可以描述事实之间的数量关系,而且还指出了这些数量关系的产生过程是源于人们的经验而非抽象的推理或思考,对从已知的事物到想知道的事物迈进的认知描述。干预因果是指当改变事件A时,事件B是否会跟着随之改变。反事实因果即如果想让事件B发生某种变化时,能否通过改变事件A来实现。三个层次从“有什么”的直观发问深入到“为什么”的反思追问,最终形成完整的智能思维和意识。

把因果推断作为人类智能思维的核心能力和智能实现的一般形式,展示了因果推断与人类意识活动之间的内在关联,突破了行为主义、连接主义和符号主义等人工智能理论模式,逻辑地回答了强人工智能实现的理论路径[5]。弱人工智能因无法处理规则性因果关系而将其简化为“相关性”,而非通过因果关系网络把事件融合而成的现实。导致其虽具备一定的观察的事实结果“知识化”成预测未来的能力,能对部分单一领域中的问题进行有效处理,但其有效性严重依赖于事件相关数据的数量与种类,不能刻画事实之间的逻辑关系和方向关系,深度学习的困境正是源于此。

二、理性智能生成的强化学习方法

因果推断方法通过超越相关性,形成对事实关系进程逻辑表达的因果关系路径。因果路径分析可以对不同领域数据产生过程及其中规则性因果进行形式化表达,以帮助更好理解与解释事实关系。人类改造自然的实践活动也往往表现为复杂的行为序列,从原始的钻木取火,石器打造到古代的手工制作,再到现代的工业产品,都需要严格准确的工序流程。如何发现这些工序中子任务间的因果关系,体现了人类思维的创造性。

(一) 试错学习方法与最优序列规划

巴甫洛夫的“条件反射”实验表明,在环境中设置奖惩机制,可以刺激动物通过与环境的交互按照预期方向学习行为,在反复尝试的过程中排除错误的活动方式直至成功。

对于生物试错学习机理的模拟产生了强化学习。强化学习主要由智能体、环境、状态、动作、奖励组成。智能体执行了某个动作后,所面临的环境将会转换到一个新的状态,并会相应给出奖励信号。智能体根据新的环境状态和奖励,按照一定的策略执行下一步的动作。上述智能体和环境进行的目标导向交互方式,使智能体能够学习在不同状态应采取何种动作使得自身获得最大奖励。在强化学习框架下,不仅使因果路径通过智能体以类似于人与环境交互的试错学习方法进行路径规划的方式呈现出来,而且回应了图灵关于人类认知实质是有限状态转换的智能观,从而可以用来解决理性人工智能生成的问题。

(二) 从超越“深蓝”到跨越奇点

1997年,IBM公司的国际象棋程序“深蓝”与当时的人类世界冠军卡斯帕罗夫的六局比赛中赢得胜利,但“深蓝”的胜利主要是依赖强大的算力优势。而基于强化学习框架的Alpha Zero被用于国际象棋后,迅速成为国际象棋史上最好的棋手程序。在与最强的传统象棋程序Stockfish的比赛中,AlphaZero取得28胜72平的成绩。Stockfish每秒计算6千万个位置,而AlphaZero只计算6万个,但它会呈现出一种以往电脑程序所没有的洞察力。AlphaZero这种新型智能程序似乎拥有基于对国际象棋游戏本质理解的精湛技艺,表现出一种令人敬畏的机器力量。

从因果推断理论的角度分析AlphaZero的训练算法,可以发现记录不同走法的价值网络,对应关联因果;策略网络针对当前棋局预测提供不同策略,计算对后续棋局影响,对应干预因果;而通过自我博弈生成训练数据对价值网络和策略网络进行优化,对应反事实因果。因此AlphaZero已经实现了因果推断的三个层次,在棋类领域已经达到了智能奇点。

四、结语

因果推断理论三层递进的逻辑在某种程度上刻画了人类智能形成的实践机制。本文运用因果推断理论对于人类智能,动物智能,机器智能的分析表明,这些智能的理性认知部分本质上是相同的,只是处于不同的认知水平层次。因果推断理论超越了在神经层面和认知层面进行关于意识生成与表达,揭示了无论是基于碳基的人,还是基于硅基的人工智能,因果推断能力是跨越意识与存在界限的核心因素,证明了实现纯理性强人工智能的逻辑可能性,而强化学习框架进一步给出了以计算方式生成纯理性强人工智能的具体技术路径。

人的意识是以人的概念抽象化客观世界,同时具体化主观世界,在此基础上进行智能活动并达到主观与客观世界的统一。虽然因果推断指出了抽象智能推理的一般形式,但概念的生成才是思维和智能的基础。现有的深度强化学习虽然对于棋类问题已取得了较好的效果,但在其它领域如何更好的提取概念仍是强化学习需要进一步探索的问题。在因果推断的基础上,如果能够发明自主“提出问题”与“表达概念”的智能算法,那么实现纯理性的强人工智能和超人工智能就存在逻辑上的可能性。另一方面,对于指数级超过人类文明的纯理性超人工智能也需要进一步研究其与人类社会的互动关系,更好地应对这种关系异化带来的生态伦理问题,避免其对人类文明的威胁。

参考文献:

[1] 闫坤如. 人工智能技术异化及其本质探源[J]. 社会科学文摘, 2020(11).

[2]梅剑华. 人工智能与因果推断—兼论奇点问题[J]. 哲学研究, 2019(6).

[3]马克思. 1844年经济学哲学手稿[M]. 中共中央马克思恩格斯列宁斯大林著作编译局,人民出版社, 2000: 170-171页。

[4]朱迪亚·珀尔, 达纳·麦肯齐, 江生, 于华(译). 为什么—关于因果关系的新科学[M]. 中信出版集团, 2019:1-5.

[5]涂良川, 乔良. 人工智能“高阶自动化”的主体可能性—兼论人工智能奇点论的存在论追问[J]. 现代哲学, 2021(6):32-40.

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/你好赵伟/article/detail/238737
推荐阅读
相关标签
  

闽ICP备14008679号