赞
踩
【专栏:前沿进展】近来,超大规模预训练模型快速发展,在自然语言处理领域引起热议。基于深度学习的自然语言处理技术正沿着“极大数据、极大模型、极大算力”的轨道,“无所不用其极”地一路奋进。
在8月28日举办的“第六届语言与智能高峰论坛”中,来自厦门大学史晓东教授(厦门大学人工智能研究所所长,中国中文信息学会常务理事),创新工场周明博士(创新工场首席科学家,澜舟科技创始人,ACL 前主席,微软亚洲研究院前副院长)等对预训练模型领域的发展情况做主题演讲报告。
史晓东教授提出,尽管当下有许多人认为大模型存在“大而无当”的问题,并以此提倡发展小模型,但小模型却可能“贫穷限制想象力”。NLP 如何能够走得更远,并非非此即彼。
周明博士认为针对当下 NLP 面临的难题,无论是神经模型还是符号模型,都存在难解问题。参照李飞飞等人最近提出的“Foundation Models”,周明建设性地提出,我们应该定义 “Foundation Skills”,并做微调来适应大任务。此外,周明还建议 “建立体系化的benchmark,推出推理评测的 GLUE”。
智源社区对相关的报告进行了整理,供读者参考。感谢史晓东教授和周明博士对本文的校对。
整理:戴一鸣
责编:贾 伟
大而强VS小而美
- 自然语言处理模型应该如何演进?-
讲者:史晓东,厦门大学教授
我今天的演讲主题是《大而强VS小而美,自然语言处理模型应该如何演进》。大家上午也听了孙茂松老师等老师的报告,都提到目前预训练训练语言模型越来越大。从这张比较早的图可以看出,GPT-3跟以前的模型相比参数规模差得非常大。
今年谷歌、国内的悟道等,都在 GPT-3的基础上,又扩大了将近10倍的参数规模。比如悟道2.0的规模达到了1.75万亿,这类模型我称之为“大而强”。它是目前我们第二代人工智能的一个主流模型,也就是目前深度学习的标志性模型。
但是这种对大而强模型的追求,也遭到了一些学者的挑战。很多学者认为大数据从来不是人类智能的进化过程的必备条件,我们人类不需要大数据。比如说著名的朱松纯教授,他提出任务驱动的因果推理学习不需要大数据的学习模式,而是靠举一反三,这种模型我简单称之为“小而美”。这个小而美的模型其实是跟传统的第一代理性主义模型是比较接近的。
现在这个问题就是 “大而强” 和 “小而美”,到底哪个才是将来自然语言处理发展的思路。我简单说一下大模型的问题。首先大模型需要大的算力,学校、科研机构不一定有这么强的算力,只有像谷歌、OpenAI才有这样的实力,学术界有的时候就是力有不逮,这种情况下应该怎么办?要跟他们合作吗?
另外一个方面的问题是大模型都是需要消耗能源,然后我们上午也听到Pascale Fung提到的Green Transformer。还有一个方面问题是大的模型水分很大,很多研究发现大模型可以压缩得很小。
大模型是不是一定能够学到好的表示,比如GPT-3能够做两位数以内的加法,但是他能学懂什么叫加法吗?比较新的一些模型,比如说悟道模型,以及谷歌的Switch Transformer里都提到了mixture of expert(MoE)架构,也就是用多个子模型,来降低模型的参数量,增加运算速度,这解决了部分问题,但是根本上没有解决前述问题。
尽管有很多研究说GPT-3可以做很多这种无监督或者few-shot的学习,但它是不是具有通用智能?此外,不管模型多大,永远有一些数据是小样本的,这些数据怎么办?就要抛弃吗?
小模型其实也有很多问题,第一个就是说我们一句俗话叫“贫穷限制了想象力”,你都没见过世面,你怎么能理解人家的操作。另外,任何小模型都要考虑统计上的局限,输入数据太小的话,统计上没有意义。
另外小模型也存在着认知困局的问题。从时间和空间两个维度来看,比如说“朝菌不知晦朔,蟪蛄不知春秋”,“夏虫不可语冰”,“井蛙不可语海”等。没有先验就没办法去认知,但是有先验知识的话也会带一定的偏见,上午也很多人谈到了一些偏见问题。
如果说模型很小的话,简单智能能不能发展成复杂智能?弱人工智能能发展成强人工智能吗?所以在这种情况下,如何在大而强和小而美模型之间来进行选择?
这个论坛我们邀请到了四五位嘉宾来给大家分享,我这里列出了一些冲突的概念,只是作为一些提示。大家可以在演讲中思考一下,什么才是通用人工智能核心的自然语言理解模型这个基本问题。
符号推理还是神经网络?
- 从计算机求解美国司法学院入学考试题谈起 -
讲者:周明,创新工场首席科学家
2019年ACL主席,曾担任微软亚洲研究院副院长
美国很多学生要考司法学院,它的考试题名为LSAT,题目有三种类型,分别是分析推理、逻辑推理和问答理解,主要考察学生的通用理解和推理能力,不考具体的专业。
基于这种考试设计的AI,和中国的高考机器人,东大的高考项目不大一样,在那些项目中,需要要对每个专业,比如语文数学历史等进行建模,而这个考试只需要对通用理解进行建模。这个LSAT测试集是一个用于研究推理的理想的数据集合。
在分析推理方面,目前符号的方法是最佳的,在这个任务上具有优越性。由于缺少数据,神经网络无法训练,而写规则的时候可以根据问题的特点写一系列针对性的规则,所以规则的方法在这里有一定的优势。
在逻辑推理方面,符号方法和神经方法融合最好。对每一道题,用符号方法去理解逻辑,然后根据逻辑的等价规律进行延伸和推广,然后对每一个答案也进行逻辑抽取,然后利用推广的这些逻辑对答案的逻辑再进行推广,然后把推广的逻辑变换成文字,把文字加回到神经网络中进行训练,这个方法目前是最优的。
它的好处就是把逻辑方法充分的用到问题的实质里头去了,然后用逻辑方法来扩展了数据,而没有直接用逻辑方法去推导,所以这个组合方法在这种题目上取得了最优的结果。
在阅读理解方面,神经网络加预训练的方法是最好的,这种方法充分利用了端到端训练来捕捉这个问题的特点,然后再加上现在的SOTA的阅读理解方法,所以比任何其他的方法都会好很多。
这个LSAT实验基本上覆盖了符号推理、神经网络推理或者两者的可能的结合。基于这个LSAT的实验,我想谈一下自己的感想。
1. 符号方法还是神经网络方法?
LSAT有三大类的问题,每一大类问题有自己的特点,要根据每个问题的特点,都设计出了对这个问题来讲最优的一种方法,这是用到了专家经验进行的,但是很多情况下,实际上我们对问题性质不是很理解,要做很多试探,也可能没有那么多专家经验,因此在做任何推理的问题的时候,大家都比较茫然。
选择用符号方法还是神经方法?符号方法的优点主要是可解释性,缺点主要是不易复制、不易迁移。神经方法可以端对端训练,门槛比较低,便于维护,但是缺点是知识难以融入,没有可解释性。
分析推理的问题实际上有两部分,一是理解这个问题本身,二是推理。一般而言,人理解问题没有问题,但是推理有点问题,所以机器跟它是相反的。
用符号推理的方法来理解问题,还是用神经网络的方法理解问题,目前的分数都不高,虽然符号比神经网络高很多,所以现在的难点是:怎样用符号的方法能够很快的撰写出一些规则,代价也比较低,我认为现在没有解。
2. Foundation skills
用神经网络的方法,数据标注集合很大,然后做端到端训练,我认为也是不可取的,因为有很多任务基本上没有多少数据。还有一些可解释性问题、常识问题和Few-shot问题,目前解决不好。其实基本上,真实情况下,所有的问题都是小任务的,很少有标注数据,可是人却只需要一点数据就大概明白意思了,就可以做事情了。所以我在想人是有一些基础能力的,叫做 Foundation Skills(基础能力)。这些基础能力不用针对每一个任务都像现在的神经网络端对端的重新学一遍。
前几天像斯坦福李飞飞提到的 Foundation Models,Model是指的是具有支持不同任务能力的模型。但是人不管用什么 Model,体现在外围是 Foundation Skills,比如语义理解、证据检索,语言理解像分词、句法分析、常识问题,完成某一个基本任务,每个人都有 Foundation Skills,虽然能力各有不同,但是人在解决一个大问题的时候,是调用了 Foundation Skills,然后对每一个用到的Foundation Skills 要快速做 Domain-Adaptation。
所以我认为,第一我们要定义 Foundation Skills,第二我们能够对某一个 Foundation Skills 做微调来适应大任务。第三,在一个新的大任务的时候,哪怕只有一些很小的数据,都可以对整个异构的网络来进行微调。所以我们想能不能去研究 Foundation Skills,能不能研究 Domain Adaptation,虽然目前没有明确的答案。
3. 如何建立推理评测集合的GLUE,推进推理研究?
我觉得推理非常重要,也许过去重视的不够,但是像Hinton、Bengio、Yann Lecun等都提到,人工智能下一步主要依赖于表征学习和推理,需要两者的互相努力、互相推进。现在推理的数据集有分析推理、逻辑推理、尝试推理、多跳推理等等,但这些数据集都是有很多问题。比如说题型比较单一,很多数据集都是众包方式,质量良莠不齐,很多的推理类型还没有覆盖,这样的数据集要进一步的完善。
还有些数据推理任务没有相应的数据集,比如类比推理就没有数据集。所以应当补充这样的数据集,然后形成一个推理任务的“GLUE”,推动推理整个领域的发展,谢谢大家。
欢迎点击“阅读原文”参与文章讨论。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。