赞
踩
周末应领导的要求听了一下午的直播(什么时候能不再做领导对啥感兴趣你就要每天围着什么转的牛马呢?),一打开还看到了自己本科的老师(死去的记忆突然攻击我)。既然做都做了,还是有些结果比较好,简单分享一下我的笔记和一些思考
以ChatGPT为代表的对话式大型语言模型
模型角度:具备涌现能力的模型(目前看来为自回归的、参数规模在百亿以上的,就是10+B)
涌现能力:小实体不具备,但是小实体聚在一起的规模达到一个质变点的时候忽然出现的能力。参数规模小的时候没有,在参数规模突破百亿时,忽然出现了一些能力。目前比较特色的有:
情景学习能力(in-context learning)
思维链能力(chain-of-thought)能够进行逐步推理,分解复杂问题
执行指令的能力(Instruction learning)
我们后面会逐一详谈
能够以对话的形式和人类交互
能够和人类的意图对齐:helpful, honest, harmless
ChatGPT
有趣的三个能力
In-context learning
学习上下文的能力,比如在输入的自然语言中给出一些示例,以“问题1-答案1,问题2-答案2,目标问题”的形式输入模型,得到的答案效果明显提升(few-shot),表现为一种被示例引导的语言生成能力。
chain of thought:
可以视为基于In-context learning的一种能力——输入的示例不再是直接给出答案,而是“问题1-步骤1-步骤2-步骤3-答案1,问题2-步骤1-步骤2-步骤3-答案2,目标问题-”的形式, 此时模型输出的内容也会呈现明显的步骤,仿佛具备了思考的过程
base GPT-3并没有这个能力,怀疑是后来进行的代码数据的预训练带来的
program-aided reasoning:辅助解决神经网络算术运算能力不足的问题
在chain-of-thought基础上,再附上代码程序语句,比如计算的公式。然后模型在生成的时候,就会也生成代码辅助计算,从某种程度上实现把计算能力分离出神经网络的效果,提升算术运算的理解效果
learning from natural instructions
通用的AI能力
Chatgpt表现出了强大的通用能力,似乎可以应对所有和语言有关的问题,或者凡是可以转换为语言形式的任务。这与其训练过程有关,通常通过大规模的语料进行预训练,从而获得语言的通用能力,然后再为了完成下游的具体任务,比如文本分类、序列标注,再进行第二个环节的训练。目前有如下几个范式:
预训练 + 全参数微调
模型较小时用的多,把预训练得到的通用模型,变成具体任务的专家
存在的问题:
预训练 + 提示学习进行inference
预训练+指令学习
发展方向
模型的能力通常用Knows矩阵评估,给知识领域做如下划分
发展的方向:扩充knows knows和knows unknows
大佬们感兴趣的工作
MOSS模型:200亿参数,中英文公开数据集,有对话能力,能基于交互进行迭代优化。提及工作耗费128卡,4个月,语料500B互联网数据
Prompt领域的工作:
NLG的评价方法
应用于业界垂类场景
涌现原因的试解释
大佬们关心的未解之谜
一些碎碎念(题外话,可太长不看)
直播的最后是一个圆桌讨论,台上的人都是我不认识的各种大佬,title很多,年纪也都比我大不少,听他们聊天的时候我边在打扫卫生,脑子里放空般地想了很多,包括ChatGPT横空出世以来,工作上、网络上发生的种种变化、焦虑和讨论。
专家们都是信心满满的,认为OpenAI提供了一条可行的路,只是路很长,但是大家抬起脚使劲走就行了。
我不知道有多少人和我有同样的感受,从一个不成熟的独生子的角度来说,路的方向和路程的长度对我而言都是非常重要的。我从小是非常适应孤独的,我会我也喜欢和别人合作,但我常常首先思考自己一个人就能解决的方案,优先寻找自己一个人就能做好的事。
这个让大佬们兴奋的领域,对我来说是一个遥远的领域,有多遥远呢?我自己一个人的学习不够,我和小伙伴一起学习还是不够,它所体现出来的算力问题、经济成本,让我觉得它是一个和我无关的事情,我能做的事甚少。即便方向在那里,但是路程的长度同样让我却步,因为我的青春,甚至我的一生,都是非常短暂的。这大概是一种精致的利己,不愿意为什么事业奉献自己的一生,但大概同时也是一种没有希望的现实,和这个社会其他的一些方面相似。没有感受到在某个事业中能迸发个人价值的希望的人,要如何燃烧自己的动力源,投身某项事业中呢?
我不知道这算不算是一种对于普通的自己的自我接纳,还是一种不想再前进的怯懦。于我而言,我只要学会使用这样的新技术(一个人就能使用的话),做一些我自己觉得有意思的东西就好了。这仿佛是我对于网上最近涌现的替代焦虑,顿悟的答案。对我来说,大模型就像是键盘、鼠标,就像JAVA PYTHON一样,只是人和机器交互的一种新方式,这个方式更加没有门槛也不需要练习,就说话就行了。我只想用它做一些我一个人就能做出来的好玩的东西,我自己觉得好玩并且享受就好了。
但是即便是一个这么新、这么便捷的人机交互的方式,也一定有人不会使用。就像文字、键盘、鼠标、手机,每一个时代的技术都不会覆盖到每一个人,于是每个时代都产生各种各样的需求,他们需要被各种各样的新事物服务。过去我用编程语言让机器创造程序,实现我想要的效果,可能未来我只要和机器说话,就可以实现我要的效果,而这个效果,服务于不同的人群,满足不同的需求,我还是有自己的一席之地,但是说话这件事太没有门槛(真的吗?),所以难免会产生淘汰焦虑。
但未来谁能预料呢,过分关注未来,只是在给现在找借口罢了——“反正未来也会XXXX,我现在不采取什么行动也可以”或者“等我怎么怎么样了,我再好好过怎样的人生,所以现在我就先不采取行动,好好忍耐吧”。
我始终觉得,关键不在于未来的周遭是如何的,关键是理想的自己有什么特质,如何靠近。我期待自己是一个这样的人:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。