赞
踩
What is past is prologue.
过去只是序幕。
——William Shakespeare(莎士比亚)
人工智能(Artificial Intelligence),英文缩写为AI。是新一轮科技革命和产业变革的重要驱动力量,是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。
人工智能是智能学科重要的组成部分,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能是十分广泛的科学,包括机器人、语言识别、图像识别、自然语言处理、专家系统、机器学习,计算机视觉等。
人工智能大模型带来的治理挑战也不容忽视,营造良好创新生态,需做好前瞻研究,建立健全保障人工智能健康发展的法律法规、制度体系、伦理道德。着眼未来,在重视防范风险的同时,也应同步建立容错、纠错机制,努力实现规范与发展的动态平衡。
人工智能的目标是生产出能够以人类智能相似的方式做出反应的智能机器。这些机器能够执行复杂的任务,如学习、推理、规划等,从而在理论和实践上形成一个独立的系统。
关于什么是“智能”,涉及到诸如意识(CONSCIOUSNESS)、自我(SELF)、思维(MIND)(包括无意识的思维(UNCONSCIOUS_MIND))等问题。人唯一了解的智能是人本身的智能,这是普遍认同的观点。但是我们对我们自身智能的理解都非常有限,对构成人的智能的必要元素也了解有限,所以就很难定义什么是人工智能。人工智能的研究往往涉及对人的智能本身的研究。其它关于动物或其它人造系统的智能也普遍被认为是人工智能相关的研究课题。
尼尔逊教授对人工智能下了这样一个定义:“人工智能是关于知识的学科――怎样表示知识以及怎样获得知识并使用知识的科学。”而另一个美国麻省理工学院的温斯顿教授认为:“人工智能就是研究如何使计算机去做过去只有人才能做的智能工作。”这些说法反映了人工智能学科的基本思想和基本内容。即人工智能是研究人类智能活动的规律,构造具有一定智能的人工系统,研究如何让计算机去完成以往需要人的智力才能胜任的工作,也就是研究如何应用计算机的软硬件来模拟人类某些智能行为的基本理论、方法和技术。
20世纪70年代以来,人工智能被称为世界三大尖端技术之一(空间技术、能源技术、人工智能)。也被认为是21世纪三大尖端技术(基因工程、纳米科学、人工智能)之一。这是因为近三十年来它获得了迅速的发展,在很多学科领域都获得了广泛应用,并取得了丰硕的成果,人工智能已逐步成为一个独立的分支,无论在理论和实践上都已自成一个系统。
人工智能是研究使用计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,主要包括计算机实现智能的原理、制造类似于人脑智能的计算机,使计算机能实现更高层次的应用。人工智能将涉及到计算机科学、心理学、哲学和语言学等学科。可以说几乎是自然科学和社会科学的所有学科,其范围已远远超出了计算机科学的范畴,人工智能与思维科学的关系是实践和理论的关系,人工智能是处于思维科学的技术应用层次,是它的一个应用分支。从思维观点看,人工智能不仅限于逻辑思维,要考虑形象思维、灵感思维才能促进人工智能的突破性的发展,数学常被认为是多种学科的基础科学,数学也进入语言、思维领域,人工智能学科也必须借用数学工具,数学不仅在标准逻辑、模糊数学等范围发挥作用,数学进入人工智能学科,它们将互相促进而更快地发展。
麦卡洛克-皮茨(McCulloch-Pitts)神经元模型是神经网络和计算神经科学领域的先驱性工作,由美国科学家沃伦·麦卡洛克(Warren McCulloch)和沃尔特·皮茨(Walter Pitts)于1943年首次提出。这个模型是基于数学和逻辑的概念来模拟生物神经元的行为,为后续的人工神经网络研究奠定了基础。
在麦卡洛克-皮茨模型中,神经元被简化为一个逻辑门一样的处理单元,它接收一组二进制输入信号(可以视为神经元的兴奋或抑制状态),并根据这些输入应用一个固定的权重(表示连接强度)。神经元会计算加权输入的总和,然后与一个预设的阈值进行比较。如果加权输入的总和超过了这个阈值,神经元就会“激发”,输出1;否则,输出0。这种行为可以用一个简单的逻辑函数来描述,类似于布尔逻辑中的“与”、“或”操作。
尽管这个模型非常简单,并且没有考虑到实际生物神经元的许多复杂特性(如时间延迟、学习能力等),但它开创了用数学模型理解和模拟大脑功能的新途径。后续的神经网络模型,比如那些带有连续激活函数的模型,都是在这个基本框架上发展起来的,增加了更多的生物现实性和计算能力,例如引入了学习规则来调整权重,使得网络能够适应和学习复杂的输入输出关系。
1949年,沃伦·韦弗撰写了一篇具有影响力的报告,标题为《翻译备忘录》(“Translation Memorandum”),这份文档虽然不是与香农直接合作的产物,但其灵感部分来源于香农的信息论思想。在这份报告中,韦弗提出了将自然语言翻译视为一种编码-解码过程的观点,这一思想深受香农信息论中“信息的传输与处理”概念的影响。韦弗的报告被认为是机器翻译领域早期的重要文献之一,它激励了后来对自动翻译系统的探索和开发。
香农本人在1948年发表了《通信的数学理论》(“A Mathematical Theory of Communication”),这篇论文奠定了现代信息论的基础,虽然没有直接讨论机器翻译,但其理论框架为包括机器翻译在内的多种信息处理技术提供了理论支撑。香农的信息论强调了信息的量化、编码、传输和解码过程,这些原则对于理解如何将一种语言的信息转换成另一种语言至关重要。
因此,虽然香农和韦弗没有联合发表一份特定的关于机器翻译的备忘录,但他们各自的工作相互影响,并共同为机器翻译乃至整个自然语言处理领域的发展奠定了重要的理论基础。
图灵测试(Turing Test)是由英国数学家、逻辑学家艾伦·图灵(Alan Turing)于1950年提出的一个关于机器是否能够展现出智能行为的测试。其基本思想是,如果一台机器能够在文本交流中,让判断者(人类)无法确定与之交流的是人还是机器,则可以认为这台机器具有人工智能。
具体来说,图灵测试通常包括三个参与者:一台计算机、一个人类审问者以及一个人类被试。审问者通过键盘与另外两方进行文字交流,目标是判断哪一方是机器,哪一方是真人。如果在多次测试中,有相当比例的审问者无法准确区分机器与人类,那么这台机器就被认为通过了图灵测试。
图灵测试更多地是一种哲学思考和智力实验,旨在探讨“机器能否思考”的问题。它不直接衡量机器的智能水平,而是关注机器是否能以人类难以辨别的方式表现智能行为。随着人工智能技术的发展,图灵测试成为了评估人工智能系统的一个著名标准,尽管它在学界也存在不少争议和批评。
1951 年计算机科学家斯特雷奇(Christopher Strachey)编写了西洋跳棋程序,被认为是符号主义人工智能的第一个程序。至此,人工智能三大范式和图灵测试皆已就位,人工智能成为一门学科也可谓只欠东风。
1951 年,明斯基(Marvin Lee Minsky)和埃德蒙兹(Dean S. Edmonds)开发了具有 40 个神经元的随机神经模拟强化计算器(Stochastic Neural Analog Reinforcement Calculator,SNARC)。SNARC 模拟了一只老鼠在迷宫中奔跑并寻找目标的行为,是最早的复杂神经网络,也是最早的强化学习思想的应用。
随机神经模拟强化计算器(Stochastic Neural Analog Reinforcement Calculator, SNARC)是一个较为特殊的概念,它似乎源自对历史技术和理论的提及,而非一个现实中广泛使用的工具或现有技术产品。从提供的信息片段来看,SNARC是一个理论上的或构想中的设备,设计用于神经网络和强化学习领域,结合了随机神经网络与强化学习的概念。这个概念似乎受到了马文·李·明斯基(Marvin Lee Minsky)的影响,他是人工智能领域的先驱人物。
随机神经网络(Stochastic Neural Networks)是指那些在处理或传递信息时包含随机因素的神经网络模型,这样的设计可能用于处理不确定性问题、模拟生物神经系统的噪声特性,或是作为复杂系统中的一种探索机制。强化学习则是一种机器学习方法,通过奖励或惩罚来训练算法做出更好的决策。
第一台可编程机器人,普遍认为是“Unimate”,它是由美国人乔治·德沃尔(George Devol)发明,并与约瑟夫·英格伯格(Joseph Engelberger)合作商业化生产的。Devol在1954年申请了一项名为“程序化物品搬运装置”的专利,这是工业机器人的基础概念,专利号US2988237A,该专利在1961年获得批准。
Unimate机器人首次在工业生产中得到应用是在1961年的通用汽车公司(General Motors)的一家工厂里,它被用来执行简单的重复性任务,比如从模具中取出热金属部件并将其堆放整齐。这标志着工业机器人时代的开始,展示了机器人在自动化生产中的潜力,极大地提高了生产效率和安全性。
Unimate是一个具有可编程臂的机器人,能够根据预设的指令序列进行精确的动作,它的成功应用推动了全球范围内对工业机器人的研发和使用,促进了制造业的现代化进程。
1954 年,贝尔曼(Richard Bellman)把动态规划和价值函数引入到最优控制理论中,形成了现在称为贝尔曼方程的方法。早期人工智能最著名的“系统逻辑理论家(Logic Theorist)”,也开始于 1954 年。这是一个被后来许多人认为是人类历史上第一个真正的人工智能程序。逻辑理论家由纽厄尔(Allen Newell)、西蒙(Herbert A. Simon)和肖(Cliff Shaw)共同开发,并于 1955 年 12 月完成,最终证明了经典数学书籍 Principia Mathematica(《数学原理》)中前 52 个定理中的 38 个。同时,它还为其中一些定理找到了新的、更优雅、更简洁的证明。这项工作的论文于 1956 年 6 月 15 日完成,1956 年 8 月在达特茅斯会议上进行了程序演示,1957 年论文正式发表在 IRE Transactions on information theory 上。
逻辑理论家(Logic Theorist)是人工智能历史上一个里程碑式的程序,由美国认知心理学家艾伦·纽厄尔(Allen Newell)、J.C.肖(J. C. Shaw)和赫伯特·西蒙(Herbert A. Simon)在1956年共同开发。它是世界上最早的具有人工智能特征的程序之一,其主要功能是自动证明符号逻辑定理,特别是用于证明《数学原理》一书中的一部分命题逻辑定理。
逻辑理论家的实现采用了产生式系统(production system)的架构,这是一种基于规则的系统,能够根据当前问题的状态选择并应用合适的规则来改变状态,直至达到目标状态。该程序的核心机制包括了逆向搜索和启发式策略,使其能够在面对复杂的逻辑证明任务时,以相对有效的方式寻找解决方案。通过这种方式,逻辑理论家不仅证明了若干数学定理,还展示了计算机程序如何模拟人类的逻辑推理过程。
这一成就对人工智能领域产生了深远的影响,它不仅支持了物理符号系统理论——这一理论认为智能行为的基础是对符号的操作——还促进了信息加工观点在心理学中的发展,并且为后来的认知心理学和人工智能研究奠定了方法论基础。此外,逻辑理论家的成功也被视为人工智能作为一个独立科学领域的开端,开启了利用计算机模拟人类认知过程的研究方向。
1955 年,麦卡锡(John McCarthy)、明斯基、罗切斯特(Nathaniel Rochester)和香农四个人提交了达特茅斯会议的建议书“A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence”(《达特茅斯夏季人工智能研究项目建议书》),申请了来年举办达特茅斯人工智能会议的预算 13500 美元。该建议书已经明确使用了“人工智能(Artificial Intelligence)”一词,并在建议书中提及了相关的议题:
模拟人类大脑高阶功能的自动化计算机;
如何编写计算机程序来使用自然语言;
神经元网络;
计算量的规模理论;
自我改进;
抽象;
随机性和创造性等。
这些议题至今仍是热门的研究主题。会议拟邀请近 50 位当时在计算机、数学、神经科学等领域的专家学者。
会议原址:达特茅斯楼
现在一说起人工智能的起源,公认是1956年的达特茅斯会议。殊不知还有个前戏,1955年,美国西部计算机联合大会(Western Joint Computer Conference)在洛杉矶召开,会中还套了个小会:学习机讨论会(Session on Learning Machine)。讨论会的参加者中有两个人参加了第二年的达特茅斯会议,他们是塞弗里奇(Oliver Selfridge)和纽厄尔(Allen Newell)。塞弗里奇发表了一篇模式识别的文章,而纽厄尔则探讨了计算机下棋,他们分别代表两派观点。讨论会的主持人是神经网络的鼻祖之一皮茨(Walter Pitts),他最后总结时说:“(一派人)企图模拟神经系统,而纽厄尔则企图模拟心智(mind)……但殊途同归。”这预示了人工智能随后几十年关于“结构与功能”两个阶级、两条路线的斗争。
达特茅斯会议之后的十余年内,人工智能迎来了发展史上的第一个小高峰,研究者们疯狂涌入,取得了一批瞩目的成就。计算机被广泛应用于数学和自然语言领域,这让很多学者对面机器发展成人工智能充满希望。对很多人来讲,这一阶段开发出来的程序堪称神奇:计算机可以解决代数应用题、证明几何定理、学习和使用英语。在众多研究当中,搜索式推理、自然语言、微世界在当时最具影响力。
1956年夏天,一群数学家和计算机科学家陆续来到了达特茅斯学院数学系所在大楼的顶层。在两个月左右的时间里,他们进行了一次长时间的头脑风暴会议。
原本计划参加的有 11 名数学家和科学家,其中6个人整个期间都在,他们是:马文·明斯基、朱利安·毕格罗、麦凯教授、雷·所罗门诺夫、约翰·霍兰德、麦卡锡。
有的呆了一半时间,有的比较短暂,例如:香农、罗切斯特、塞尔弗里奇、艾伦·纽厄尔、赫伯特·西蒙。再加上其他感兴趣的人士,据说与会人员共有47位左右。
没有发现这次研讨会有全体人员的合照,是七个微笑的年轻男人坐在草坪上的黑白照片特写,其中有发起和出席会议的几位主要代表人物,这7人都为人工智能、计算机科学或相关领域做出了贡献。他们是(从左到右):
奥利弗·塞尔弗里奇:MIT数学家;
纳撒尼尔·罗切斯特:BM信息研究主管,会议发起人之一;
雷·所罗门诺夫:美国数学家;
马文·闵斯基:哈佛大学数学与神经学研究员,会议发起人之一;
米尔纳:蒙特利尔麦吉尔大学神经心理学教授;
约翰·麦卡锡:达特矛斯学院数学助理教授,会议发起人之一;
克劳德·香农:贝尔电话实验室数学家,会议发起人之一。
达特茅斯会议上七位主要科学家合影
简单介绍一下这七位先驱以及其他几位科学家对人工智能方面的贡献。
(1)机器知觉之父:奥利弗·塞尔弗里奇(Oliver Gordon Selfridge,1926—2008)
奥利弗出生于英国,是Selfridges百货创始人哈里·塞尔弗里奇的孙子。他是人工智能的先驱, 被称为“机器知觉之父”。他少年时代在墨尔文学校接受教育,移居美国后在麻州就学。1945年,他获得MIT数学学士学位。随后,他成为诺伯特·维纳的研究生,但没有撰写自己的博士论文,未获得博士学位。
然而,塞尔弗里奇在神经网络、模式识别和机器学习方面撰写了重要的早期论文,他的“鬼域模型”(Pandemonium)论文(1959 年)为人工智能领域公认的经典之作。是图像识别中最早的计算模型之一,影响了现代联结主义者、人工智能和单词识别模型的发展。
(2)纳撒尼尔·罗切斯特(Nathaniel Rochester,1919—2001)于 1948 年 11 月加入 IBM,是IBM 701总设计师,他编写了第一个汇编语言,并参与了人工智能领域的创立。他领导了实用子程序的准备工作,以促进 IBM 及其客户对 IBM 701 的使用。并与应用科学部门的规划小组合作,为国防计算器制定了严格的规范。他为机器的设计制定了出色的规划和系统规范,包括算术函数和逻辑运算。1967 年,他被任命为 IBM 院士。
(3)雷·所罗门诺夫(Ray Solomonoff,1926– 2009)是美国数学家。他于 1956 年发表了第一份关于非语义机器学习的报告,于 1960 年发明了算法概率,并发表了推出柯尔莫哥洛夫复杂性和算法信息论的定理,是算法信息论和概率人工智能分支的创始人。在 1960 年加州理工学院的一次会议上首次描述了这些结果,并在 1960 年 2 月的一份报告《归纳推理一般理论的初步报告》中描述了这些结果。算法概率是一种独立于机器的方法,为解释给定观察的每个假设(算法/程序)分配概率值,最简单的假设(最短的程序)具有最高的概率,而越来越复杂的假设接收越来越小的概率。
(4)马文·明斯基(Marvin Minsky,1927—2016),生于美国纽约市犹太人家庭,美国科学家,专长于认知科学与人工智能领域,MIT人工智能实验室的创始人之一,著有几部人工智能和哲学方面的作品。1969年,因为在人工智能领域的贡献,获得图灵奖。闵斯基奠定了人工神经网络的研究基础。一直在MIT任教直到过世为止。
他有数项发明,如1957年的共聚焦显微镜,1963年的头戴式显示器。1951年,他设计并建构了第一部能自我学习的人工神经网络机器,SNARC。1952年,他发明会自行关闭电源的无用机器。
(5)米尔纳(Peter Milner,1919 – 2018)在英国出生长大,1944 年移居加拿大。原来是一名电气工程师,但当他的妻子布伦达·米尔纳 (Brenda Milner)在麦吉尔大学学习神经科学时,他对神经科学产生了兴趣,成为了与她同一个导师的研究生,后来自己在麦吉尔任教。他与詹姆斯·奥尔兹合作,发现了大鼠大脑中的快乐中枢和疼痛中枢。他研究大脑不同区域的神经元活动的同步。
(6)麦卡锡(John McCarthy)在组织了这次会议的一年后, 1956 年秋移居MIT担任研究员。从1962 年开始,麦卡锡成为斯坦福大学的全职教授,并一直任职到 2000 年退休。1971 年因其对人工智能领域的贡献而获得图灵奖。
麦卡锡发现原始递归函数可以扩展到使用符号表达式进行计算,从而产生了LISP编程语言, 1960 年LISP发布后很快成为人工智能应用程序的首选编程语言。
麦卡锡还发明了所谓的“垃圾收集”方法,帮助推动了MIT的Project MAC;以及后来在斯坦福大学,帮助建立了斯坦福人工智能实验室。
麦卡锡在创建三个最早的分时系统(兼容分时系统、BBN 分时系统和达特茅斯分时系统)方面发挥了重要作用。分时系统的开发,促成了互联网和云计算的出现。
(7)克劳德·香农(Claude Shannon,1916—2001),美国数学家、电子工程师和密码学家,被誉为信息论的创始人。他是这次会议的积极组织者之一。香农发明了很多设备,举其中一个与AI有关的:他的办公桌上放着一个他称之为“终极机器”的盒子,这是香农根据马文·明斯基提出的想法而做出来的。这个盒子外表平淡无奇,只是在一侧有一个开关,弹一下开关,盒盖就会打开,一个机械手会伸出来;将开关复原,机械手就缩回盒子。此外,香农还做了一个设备能够复原魔方。
(8)除了这几位之外,与会者中还有不少人物,例如,研究博弈论,提出“纳什均衡”的诺贝尔经济奖得主约翰·纳什(John Nash Jr.,1928—2015),也在出席者的名单中。
(9)亚瑟·李·塞谬尔(Arthur Lee Samuel,1901—1990)美国计算机科学家,他是电脑游戏与人工智能方面的先锋。塞谬尔的电脑跳棋程式是世界上最早能成功进行自我学习的计算机程序之一,也因此是人工智能(AI)基础概念的早期展示之一。
(10)西蒙(Herbert Simon,1916—2001),汉名为司马贺,美国学者、计算机科学家和心理学家,研究领域涉及认知心理学、计算机科学、公共行政、经济学、管理学和科学哲学等多个方向。为1975年图灵奖得主,1978年,获得诺贝尔经济学奖。
(11)艾伦·纽厄尔(Allen Newell,1927—1992)是计算机科学和认知信息学领域的科学家,曾在兰德公司,卡内基梅隆大学的计算机学院、泰珀商学院和心理学系任职和教研。他是信息处理语言(IPL)发明者之一,并写了该语言最早的两个AI程序,合作开发了逻辑理论家(Logic Theorist 1956年)和一般问题解决器General Problem Solver。1975年他和赫伯特·西蒙(司马贺)一起因人工智能方面的基础贡献而被授予图灵奖。
1957年夏季,在塔尔斯基的号召下,一个逻辑学家的大聚会在康奈尔大学举行,会上数学家亚伯拉罕·罗宾逊(Abraham Robinson,数学和逻辑领域有好几个罗宾逊,且互有关联)指出,埃尔布朗(Herbrand)定理可以把一阶逻辑的问题转化为命题逻辑。这激发了大家寻求统一高效的定理证明的实现方法。
人工智能三大范式皆有突破。联结主义流派提出了感知机(Perceptron),一台通过硬件来实现更新权重的计算机器;符号主义流派发明了 IPL (Information Processing Language),一种方便进行启发式搜索和列表处理的编程语言;行为主义流派提出了马尔可夫决策过程(MDP)的框架,一种最优控制问题的离散随机版本。此后,人工智能发展可谓一日千里。
1958 年麦卡锡对 IPL 进行大幅改进, 推出了 LISP 编程语言,于 1960 年发布。1958 - 1959 年,几何定理证明器(Geometry Theorem Machine)和通用问题求解器(General Problem Solver,GPS)相继出现,这是接近于人类求解问题思维过程的人工智能程序。1960 - 1962 年,MDP 的策略迭代方法和 POMDP(Partially Observable Markov Decision Processes)模型被提出。
接下来是三个第一波浪潮中的典型代表系统。首先是塞缪尔开发的西洋跳棋程序在 1962 年 6 月 12 日挑战当时的西洋跳棋冠军尼雷(Robert Nealey)并获胜。其次是 1964 - 1967 年第一个聊天机器人 ELIZA 发布,它给用户一种具备理解人类语言能力的感觉,这让当时的许多用户认为 ELIZA 具备真正的智能和理解力,甚至具备感情属性。第三个是 1965 年开始开发的专家系统 DENDRAL(Dendritic Algorithm),这是一个模拟有机化学家决策过程和问题解决行为的化学分析专家系统,能够确定有机分子的结构。专家系统将在第二波浪潮中大显神通。
西洋跳棋程序、ELIZA以及 DENDRAL 等众多人工智能程序及应用一方面繁荣了人工智能学科,同时也将整个社会的带入一种乐观的状态,许多人认为,十至二十年的时间内,真正的人造智能机器将会诞生。明斯基就曾说到“我相信,在一代人的时间内,机器将涵盖几乎所有方面的人类智能”——创造“人工智能”的问题将得到实质性的解决。
世界上最早的鼠标诞生于1964年,美国人道格·恩格尔巴特(鼠标之父)发明,全球最大的专业技术学会IEEE将鼠标的发明列为计算机诞生50年来最重大的事件之一。51年前的今天,1968年12月9日,恩格尔巴特在IEEE会议上,展示了世界上第一个鼠标,一个木质小盒子,一个按钮,里面有两个互相垂直的滚轮,工作原理是由滚轮带动轴旋转,并使变阻器改变阻值,阻值的变化就产生了位移讯号,经电脑处理后屏幕上指示位置的光标就可以移动。 由于拖着一条长尾巴连线,被恩格尔巴特博士和他的同事戏称为“Mouse”(鼠标),后来,恩格尔巴特博士申请了专利,起名“显示系统X-Y位置指示器”,因此他也被称为“鼠标之父”。
美国斯坦福国际研究所研制出机器人Shakey,这是首台采用人工智能的移动机器人。
“移动”是机器人的重要标志,移动机器人的发展已有几十年的历史了。据了解,世界上第一台能实现移动的机器人叫Shakey,它是由查理·罗森(Charlie Rosen)领导的美国斯坦福研究所(现在称之为SRI国际)于 1956-1972 年研制而出的,Rosen最初在1963年11月提出了这个机器人构想。并与他的团队在1965年向DARPA撰写了一份研究计划(PDF),详细叙述了能够执行侦查任务的智能自动机器人。DARPA最终向研究人员提供了75万美元资金,相当于现在的580万美元,来创建Shakey。
花费巨额研发的Shakey首次全面应用了人工智能技术,装备了电子摄像机、三角测距仪、碰撞传感器以及驱动电机,能简单解决感知、运动规划和控制问题。当年Shakey通过无线通信系统由两台计算机控制,但当时的计算机运算速度非常缓慢,导致 Shakey需要数小时的时间来感知和分析环境,并规划行动路径。
在今天看来,机器人Shakey简单而又笨拙,但它却是当时将AI应用于机器人中最为成功的案例,证实了许多属于人工智能领域的严肃科学结论,其在实现过程中获得的成果也影响了很多后续的研究。
1969 年开始大约 10 年的时间,被称为人工智能的第一个冬天。
1972 年,著名的用于诊断血源性传染病的专家系统 MYCIN(见图 4)和用于内科诊断的临床专家系统 INTERNIST-I 开始开发和发布;
MYCIN system 一种帮助医生对住院的血液感染患者进行诊断和用抗菌素类药物进行治疗的专家系统。从能与控制结构上可分成两部分:①以患者的病史、症和化验结果等为原始数据,运用医疗专家的知识进行向推理,找出导致感染的细菌。若是多种细菌,则用 0 到1的数字给出每种细菌的可能性。②在上述基础上,给出针对这些可能的细菌的药方。
1976 年,地质领域的用于勘探矿产资源的专家系统 PROSPECTOR 开始开发。
事实上,在整个 1970 年代,专家系统就像肥沃土壤中的种子一样不断地吸收养分,并在许多狭窄的领域已经成功应用,只待时机一到,破土而出,拔节而长,蓬勃发展。而即将到来的 1980 年代,正是专家系统繁荣和收获的季节。
进入 1980 年代,专家系统的繁荣,使得人工智能成为一个新兴产业。其核心缘由之一是专家系统从非常狭窄的领域逐渐发展为通用化,并在千行百业上应用。典型的例子是 DEC 公司。DEC 公司从 1980 年开始持续多年开发了用于配置计算机的专家系统 R1(内部代号为 XCON)。截止 1986 年,R1 为 DEC 公司处理了 80000 个订单,平均每年节省了约 2500 万美元,其中 1986 年节省了 4000 万美元。到 1987 年初,R1 系统有 6200 条专家规则,以及 2 万个零部件的描述。此外,DEC 还开发了销售 XSEL 销售助手专家系统,该系统可以和 R1 进行交互,辅助销售人员销售计算机系统。另一个典型的例子是杜邦公司,到 1988 年已经建立了 100 个专家系统,每年为公司节省了估计的 1000 万美元,并有另外 500 个系统正在开发中。下表列出了一些 1980 - 1990 年代典型的专家系统,管中窥豹,可见一斑。
如此大量的专家系统在各行各业应用,得益于面向构建专家系统的引擎、逻辑编程语言和知识库的出现和繁荣。在引擎方面,EMYCIN、ARBY、KEE 等是典型的代表。在编程语言方面,LISP、ROSIE 和 Prolog 是典型代表。特别是 Prolog,它以一阶逻辑为基础,用接近于自然语言的方式来编写逻辑与规则,是构建专家系统最好的编程语言。Prolog 的程序由两个主要部分组成:事实和规则,事实是被认为是真实的陈述,规则是描述不同事实之间关系的逻辑语句。
Prolog 等逻辑编程语言和引擎的流行使得构建专家系统愈加容易。在知识库方面则出现了本体,这是由麦卡锡在 1980 年从哲学中引入到人工智能学科的。关于本体,在《知识图谱:认知智能理论与实战》一书中,将本体总结为“‘存在’和‘现实’就是能够被表示的事物,本体被用于对事物进行描述,定义为‘概念化的规范’(specification of a conceptualization),用于表示存在的事物(the things that exist),即现实中的对象、属性、事件、过程和关系的种类和结构等等。自此,专家系统往往会“列出所有存在的事物,并构建一个本体描述我们的世界”,而这所列出来的,也往往被称为知识库。这些本体库或知识库,典型代表有 CYC、WordNet 等。
专家系统的繁荣,将人工智能第二波浪潮推向巅峰,其标志是许多大学开设了专家系统的课程,世界财富 1000 强公司中有三分之二以上都在使用专家系统来处理日常的业务活动,涵盖了农业、商业、化学工业、通信、计算机系统、教育领域等,几乎包括人类生产生活的方方面面。《哈佛商业评论》在 1988 年的一篇文章认为“基于专家和知识的系统正在商业环境中迅速出现。我们调查的每家大公司都预计到 1989 年底将至少拥有一个使用该技术的生产系统”。
在第二波浪潮中,以专家系统为代表的符号主义人工智能是绝对的统治者。但在火热的专家系统之下,联结主义和行为主义人工智能也有着重大发展。1973 年 Tsetlin 自动学习机器和遗传算法被提出。1970 年代末到 1980 年代初,基于时间差分(Temporal Difference,TD)学习的各类条件反射心理模型被广泛研究。同一时期,联结主义的学者们则对神经网络的持续研究和演进,梯度下降和导数的链式法则相结合的反向传播终于被用到了多层神经网络的训练上。在网络结构方面,1980 年卷积神经网络的雏形 Neocogitron 已经出现。1982 年,论文“Neural networks and physical systems with emergent collective computational abilities”(《具有涌现集体计算能力的神经网络和物理系统》)提出了 Hopfield 网络。这篇论文的名字很有意思,是不是看到了一个很熟悉的名词,对,就是“涌现”!1985 年,玻尔兹曼机(Boltzmann Machine)被提出,其作者是后来获得图灵奖的辛顿(Hinton)。1983 年,强化学习中的经典算法 Actor-Critic 方法将显式地表示独立于价值函数的策略,Actor 即用于选择行动的策略,而“Critic”(批评家)则是对行动评估的价值函数。1986 年,限制玻尔兹曼机(Restricted Boltzmann Machine)出现,1987 年,AutoEncoder 模型被提出。1988 年,经典的强化学习模型 TD(λ) 被提出,旨在从延迟奖励中建立准确的奖励预测。1989 年,图灵奖获得者杨立昆(Yann LeCun)提出了 LeNet,这是一个 5 层的卷积神经网络。同年,Q 学习(Q-Learning)算法被提出,它是一种无模型强化学习算法,可直接学习最优控制的方法马尔可夫决策过程的转移概率或预期奖励。1991 年,循环神经网络(Recurrent Neural Network,RNN)出现。1992 年 Q 学习的收敛性被证明。1997 年,长短期记忆网络(Long Short-Term Memory,LSTM)被提出。
接下来,是第二波浪潮中的两个标志性事件。其一是联结主义和行为主义相结合的 TD-Gammon。TD-Gammon 是 IBM 利用 TD(λ) 方法训练神经网络而开发出的西洋双陆棋程序,发布于 1992 年。其游戏水平略低于当时人类顶级双陆棋玩家的水平。其二是 IBM 的深蓝(Deep Blue)打败了国际国际象棋世界冠军卡斯巴罗夫(Гарри Кимович Каспаров)。深蓝开始于卡耐基梅隆大学于 1985 年建造的国际象棋机器深思(Deep Thought)。1996 年 2 月 10 日,深蓝首次挑战国际象棋世界冠军卡斯巴罗夫,但以 2-4 落败。1997 年 5 月再度挑战卡斯巴罗夫,以 3.5:2.5 战胜了卡斯巴罗夫,成为首个在标准比赛时限内击败国际象棋世界冠军的计算机系统。赛后,卡斯帕罗夫勉强地说“计算机比任何人想象的都要强大得多。”
巅峰之后,人工智能开始变冷,人工智能研究的资金和兴趣都有所减少,相应的一段时间被称之为人工智能的第二个冬天。但另一方面,从现在来看,1990 年代,深度学习和强化学习的理论与实践已经非常成熟了,只待时机一到,就会再次爆发。《吕氏春秋·不苟论》有语“全则必缺,极则必反,盈则必亏”,人工智能的发展也如此。同样的,否极终将泰来,持续积蓄能量的人工智能,终究爆发出第三波浪潮。
在人工智能的第二个冬天中,明星的光环照耀在互联网浪潮之上,大量的资金投入到 Web,互联网大发展。这个过程中,专家系统和互联网相结合,万维网联盟 W3C 推动符号主义人工智能的发展。典型的代表性技术有资源描述框架(Resource Deion Framework,RDF),RDFS(RDF Schema,RDFS, RDF-S 或 RDF/S)和语义网(Semantic Web),网络本体语言(Web Ontology Language,OWL),链接数据(Linked Data)。同样的,在这段时间中,许多实际和商业模式识别应用主要由非神经网络的方法主导,如支持向量机(SVM)等方法。然而,自 1990 年代起,多层神经网络已经成熟,只不过受限于算力太小,数据不足,而没有广泛应用。大约在 2006 年,多层神经网络以深度学习的名义开始火热起来,开启了人工智能的第三波浪潮。
2000 年,图灵奖获得者 Bengio 提出了用神经网络对语言建模的神经概率语言模型,图神经网络(Graph Neural Network,GNN)则在 2004 年被提出。2006 年,深度信念网络(Deep Belief Networks,DBN)、堆叠自编码器( Stacked Autoencoder)和 CTC(Connectionist temporal classification)相继被提出,深度卷积网络(LeNet-5)通过反向传播被训练出来,而且,第一个使用 GPU 来训练深度卷积网络也出现了,神经网络和 GPU 开始联姻。
这么多第一次,使得很大一部分人认为 2006 年是深度学习元年。此后,深度学习开始了轰轰烈烈的发展。2007 年 Nvidia 发布 CUDA,2008 年,去噪自编码器(Denoising Autoencoder)和循环时态 RBM 网络相继出现。2009 年语义哈希(Semantic hashing)概念被提出,这为后来的 Word2vec 以及大语言模型打下了基础。同年,华人深度学习的代表性人物李飞飞开始构建 ImageNet 数据集并从次年开始连续 8 年组织了计算机视觉竞赛。2010 年,堆叠了 9 层的 MLP 被训练出来。2011 年,在 IJCNN 2011 德国交通标志识别比赛中,深度卷积神经网络模型实现了 99.15% 的识别率,超越了人类的 98.98% 识别率。这是人造模型第一次超越了人类视觉的模式识别。此后,越来越多的视觉模式匹配任务中,人类都开始落后。2012 年,深度卷积网络在 ImageNet 的 2 万个类别的分类任务、ICPR2012 乳腺癌组织图像有丝分裂目标检测竞赛和电子显微镜(EM)层叠中的神经结构分割挑战赛等都超越了人类水平。深度学习在 2012 年首次赢得了 1994 年以来每两年进行一次的全球范围内的蛋白质结构预测竞赛中,这是神经网络在这个领域第一次露出头角,几年之后,AlphaFold 将会彻底解决这个问题。同年“谷歌猫”带着深度学习破圈而出,和大众见“面”!
在深度学习浪潮之下,语言和知识的发展也丝毫没有落后。大量的本体库在这期间被构建,典型的有基因本体 GO、SUMO、DOLCE、COSMO、DBpedia、Freebase、FIBO、YAGO、NELL,Schema.org、WikiData。然而,本体库中知识与逻辑互相交织,复杂程度高,导致不能与深度学习的研究成果相融合。2012 年 Google 将知识从本体库中分离出来,提出了知识图谱概念,并逐渐发展出一整套完整的体系,到十年后我创作的珠峰书《知识图谱:认知智能理论与实战》出版之时,该体系最终成熟,随后微软、百度、搜狗等也相继推出知识图谱。
2013 年的重磅技术无疑是 Word2vec。2014 年,除了生成对抗网络(Generative adversarial network,GAN)外,最重磅的当属深度神经网络在人脸识别的准确率上超越人类。这个成绩先是由 Facebook 的 DeepFace 模型实现了首次接近人类表现。随后,汤晓鸥老师带领的团队连续发表三篇论文,不仅超越了人类的准确率,还持续刷新成级(在此特别纪念汤晓鸥老师)。人脸识别在当时不仅迅速出圈,比如在演唱会抓逃犯的吸引眼球的新闻。同时人脸识别也迅速成为广泛使用的身份认证的工具,比如用于火车站或者机场的身份认证等等。2016 年,经典书籍 Deep Learning《深度学习》出版,语音识别的准确率开始超越人类。
然而,这几年,最受关注的,当属 DeepMind 开发的围棋 AI 程序 AlphaGo,其思想与 20 多年前的 TD-Gammon 相似,融合使用了神经网络和强化学习的方法。2015 年 AlphaGO 战胜了职业选手樊麾,这是人工智能程序第一次战胜围棋职业选手。此后的 AlphaGo 加速进化,于次年(2016 年)以 4:1 的成绩战胜了曾获得世界冠军的职业选手李世石。2017 年,更强版本的 AlphaGo Master 以 3:0 的成绩完胜当时排名世界第一的职业围棋选手柯洁。随后,DeepMind 在 Nature 上发表论文,推出了 AlphaGo Zero,这是一个号称能够以 100:0 击败其前任的围棋 AI 程序。当时许多人都想起了 20 年前,IBM 深蓝击败国家象棋世界冠军之后,人工智能转冷。AlphaGO 是否意味着又一次人工智能的冬天即将来临?这是不少人的想法。
这个转冷并没有发生,反倒迎来了新的突破,预训练大语言模型的出现以及其所展示出来的高度智能水平。大模型浪潮发端于 2017 年,这一年,Google 提出了变换器网络 Transformer 和 MoE(Mixture of Expert)架构,OpenAI 和 Google 联合提出了通过强化学习来对齐人类偏好的 RLHF 方法,以及 OpenAI 提出了用于强化学习的近端策略优化算法(Proximal Policy Optimization Algorithms PPO)。变换器网络、MoE 架构和 RLHF 将在 2023 年大展身手,让人们无限期待通用人工智能 AGI 的到来。
2018 年,图灵奖颁布给在人工智能深度学习方面的杰出贡献者 Yoshua Bengio、Geoffrey Hinton 和 Yann LeCun,这是人类对深度学习的认可,也说明了人工智能在社会方方面面所起的作用。同年,更令人兴奋的则是 BERT 的出现,这是第一次在阅读理解上超越了人类专家水平的人工智能模型。语言一直都被认为是人类智能的标志性能力,而 BERT 的语言理解能力则被认为是人工智能的一次重大突破。BERT 的另一层启示则是证明了模型越大,能力越强,从此掀起了“规模战争”。同样出现在 2018 年的还有 GPT、Mesh-TensorFlow 模型和奖励建模(Reward Modeling)的方法。当然,它们在 BERT 的光耀之下黯然无色。
2019 年,GPT-2、ERNIE、RoBERTa、Megatron、T5 等众多大语言模型出现。同年,强化学习和深度学习的结合使得人工智能在开放复杂的实时战略游戏中崭露头角,这包括 DeepMind 的 AlphaStar 和 OpenAI 的 Five。在科学研究方面,FermiNet 用来求解近似计算薛定谔方程,在精度和准确性上都达到科研标准。2020 年,Google 提出了 Never Give Up 策略,用来求解复杂的探索博弈;微软则发布了 Suphx 麻将 AI,接近了人类顶尖麻将玩家的水平,这是人工智能在不完全信息博弈领域的突破。
2020 年出现了非常多的大语言模型,比如 Turing-NLG、ELECTRA、CPM 等,当然,大语言模型的明星当属 GPT-3,这是当时最大的预训练语言模型,具备零样本学习的能力。ViT 架构也出现于 2020 年首次将变换器网络用于视觉任务。从此,变换器网络开始一统深度学习领域。
2020 年最重磅的显然是 AlphaFold,这是一个用于解决蛋白质折叠问题的人工智能系统。2021 年改进版 AlphaFold2 被认为已经解决了蛋白质折叠问题,是“令人震惊的” 和“变革性的”。2023 年最新版的 AlphaFold 不仅可以对蛋白质数据库(PDB)中的几乎所有分子进行预测,并能够达到原子精度,而且还能够预测蛋白质折叠之外的其他生物分子的精确结构,如配体(小分子)、蛋白质、核酸等。
2021 年,从图像到文本的 CLIP 和 Forzen 等模型,从文本到图像的扩散模型和 DALL-E 等模型,以及 V-MoE(视觉 MOE)架构等相继出现,跨模态模型成为了新的热点。GLaM 则是第一个参数规模高达 1T(一万亿)的模型。OpenAI 则使用 GitHub 上的大量代码训练了专门用于生成程序的 Codex 模型,开启了代码大模型的研究。更为重要的是,2021 年 6 月 29 日基于 Codex 的 GitHub Copilot 发布,这是一款跨时代的产品,极大地提升了程序员的工作效率。
时间来到了 2022 年。首先是 OpenAI 推出了 InstructGPT,这是在无监督预训练语言模型 GPT-3 之上,使用有监督微调、奖励模型、人类反馈的强化学习 RLHF 等多种方法加以优化的模型,也被称之为 GPT-3.5。在 GPT-3.5 之上,OpenAI 于 2022 年 11 月 30 日推出的 ChatGPT,它是一个被许多人认为是能够通过图灵测试的聊天机器人。ChatGPT 的推出迅速出圈,发布仅两个月就有 1 亿用户参与狂欢,成为有史以来用户增长最快的产品。
2022 年还有几个关键的成果,这包括 MoE 架构中的 Expert Choice Routing 方法,在 Chinchilla 中国年探讨的规模法则,即大模型的参数规模、训练语料的规模以及计算量之间的关系,对齐了语言和视觉的 Flamingo 多模态大模型等。另外,一篇“Emergent Abilities of Large Language Models”(《大语言模型的涌现能力》)发布,让圈内外的人大谈“涌现”。还记得 1982 年的那个“涌现”么?2023 年,好风(ChatGPT)凭借力,全球范围内开始了百模大战。OpenAI 升级了 ChatGPT,推出了 GPT-4、GPT-4v 和 ChatGPT-4,并围绕着 ChatGPT 推出了 ChatGPT Plugins、Code Interpreter、GPT Store、GPT Team 等。同时,微软基于 OpenAI 的 GPT-4,推出了 Bing Chat(后来改名为 Bing Copilot)、Office Copilot 等产品。Google 则推出了 Bard、Gemini,Meta 推出了 LLaMA、LLaMA2 等,Twitter 推出了 X.ai 和 Grok。国内的百模大战更是激烈,截止 2024 年 1 月,国产大模型超过 200 个。典型的国产大模型有百度的文心一言、智谱华章的清言、阿里云的通义千问、上海人工智能实验的书生、达观数据的曹植,深度求索的 Deepseek Coder、科大讯飞的星火、抖音的豆包等。在产品方面,字节跳动也推出了 Coze,这是类似 GPT Store 一样的产品。除了大模型之外,Google 在 2024 年初提出的 AlphaGeometry 极大地提升了数学领域的推理能力,这是一个才用了神经符号学的方法,是联结主义和符号主义相融合的模型。
人工智能的应用非常广泛,包括零售、医疗、交通、教育、家居、物流、安防等多个领域。例如,在零售业中,人工智能可以用于客流统计、智能供应链管理、无人便利店等;在医疗领域,人工智能可以辅助诊断与治疗、疾病预测、医学影像辅助诊断等;在交通领域,通过智能交通系统提高通行能力、简化交通资源管理等;在教育领域,人工智能可以改善教育资源的分配和提升学习效率;在家居领域,通过智能家居系统提供便利和节能的生活环境。
此外,人工智能按照智能程度可以分为弱人工智能、强人工智能和超人工智能。弱人工智能专注于完成特定任务,如语音识别或图像识别;强人工智能具备学习、语言理解、认知推理等能力;超人工智能则是指具备自主思维意识和创新能力的AI系统。
用来研究人工智能的主要物质基础以及能够实现人工智能技术平台的机器就是计算机,人工智能的发展历史是和计算机科学技术的发展史联系在一起的。除了计算机科学以外,人工智能还涉及信息论、控制论、自动化、仿生学、生物学、心理学、数理逻辑、语言学、医学和哲学等多门学科。人工智能学科研究的主要内容包括:知识表示、自动推理和搜索方法、机器学习和知识获取、知识处理系统、自然语言理解、计算机视觉、智能机器人、自动程序设计等方面。
人工智能的研究方法多样且灵活,主要取决于研究者的兴趣和专长领域。以下是一些常见的研究方法:
1951 年,图灵发表的一个演讲“Intelligent Machinery, A Heretical Theory”(《智能机器:一种异端理论》)中提到“一旦机器思考的方法启动,它很快就会超越我们脆弱的能力。机器不会死亡,他们能够相互交互来提升彼此的智慧。因此,就跟我们预期的一样,机器将会掌控一切。”但真如同图灵预期的那样了么?70 多年过去了,图灵所预期的那个机器掌控一切的时代仍未到来。
2022 年底,ChatGPT 再一次掀起了人们对人工智能的极大范围的讨论,而这一次,人工智能将会走向何处?显然,人们观点并不一致,就连图灵奖获得者辛顿和杨立昆的立场也完全相反。辛顿认为通用人工智能将会很快到来,他致力于通用人工智能向善、通用人工智能与人类的和平共处。而杨立昆则相反,认为大模型固然能力很强大,但大模型的原理决定了它无法产生通用人工智能。而我认为大模型给通用人工智能带来了曙光,但这条路真的能实现通用人工智能么?我也没有答案。我曾经对符号主义人工智能的历史进行了深度的研究,这一次我仍然相信“以史为鉴,可以知兴替”。于是乎,我转向历史,去寻找蛛丝马迹,寻找能够指引未来的那道亮光,而这篇文章算是一个总结。
当然,现在我仍然没有答案。但我发现,在前面两波人工智能浪潮中,乐观者跟辛顿所代表的乐观者一样,人们多次预期机器智能超越人类,但随后并未实现。我也发现,每一波人工智能浪潮,都在前一波浪潮的基础之上,应用面更为广泛,影响更为深远。
但是有一点,单纯依靠大模型是无法实现通用人工智能的。从前面所介绍的历史来看,符号主义、行为主义和联结主义,都是智能的一部分在人工智能学科上的体现。也就是说,人工智能三大范式的融合,是实现通用人工智能的基础。这点与我一直在普及的“大模型+知识图谱+强化学习”的理念是一致的。另一方面作为实干家、实践者,我认为,不管通用人工智能是否能到来,至少在应用上,现阶段的人工智能是一个新的起点。未来 10 年,人工智能在全社会全人类的应用上具有无限的可能、无限的机遇。大家可以想象一下,千行百业都在大模型、知识图谱等人工智能技术的帮助下,生产力成倍地提升,社会价值和经济价值是多么巨大!
当然,现阶段,有许多问题在不断地被讨论。但事实上,这些问题在前两波浪潮中同样被不断讨论。比如人工智能是否会取代某些职业(比如医生等),事实上是绝大多数职业至今并未消失,而是在人工智能产品的帮助下更好地服务人类,制造出更高级的产品等。又比如,这种强大的产品危害人类的问题,但危害人类的并非这些产品,而是一部分人类利用这些产品对另一部分进行伤害。对此,我觉得,既要以史为鉴,但也不能刻舟求剑。同时,我一边期待一边呼吁,科技向善,人工智能向善!
当然,还有很多很多关于智能的未解之谜有待我们去探索。知识从何而来?人类为何而智能?心智是如何从物理大脑中产生的?智能是否可以计算?人类是否能够在并不了解自身智能的原理下制造出真正智能的机器?人类智能真的和现在这些人工智能算法相似么?人工智能如何帮助我们更好地理解人类自身?至今我仍然未能看到答案。这或许是进化论最伟大的奥秘。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。