赞
踩
NLP(自然语言处理)是一项致力于让计算机能够理解、解释、操作人类语言的技术。它涉及文本分析、语音识别、语义理解等领域,其发展对人机交互、信息检索、智能客服等领域有着深远影响。
NLP技术在机器翻译、情感分析、智能问答等方面应用比较广泛。例如,机器翻译系统如Google Translate已经能够达到人类水平甚至更高水平。情感分析可以帮助企业了解用户情绪,智能问答系统则可以提供高效准确的信息检索服务。
后文用ChatGPT泛指大模型相关技术,国内外现有的大模型数不胜数,比如:ChatGPT-3.5、GPT-4、LLaMA、PaLM 2、Claude、文心一言、百川、Minimax、通义千问、讯飞星火等。
ChatGPT是由OpenAI开发的一种基于深度学习的自然语言处理技术,它是建立在GPT(生成式预训练模型)系列之上的。GPT模型以Transformer结构为基础,采用了大规模的无监督学习,通过大量的文本数据进行预训练,然后可以通过微调或者fine-tuning来适应特定的任务或者应用场景。
ChatGPT专注于对话系统和自然语言生成任务,能够生成自然流畅、连贯的文本响应,使得与人类进行对话的体验更加自然和智能化。它可以用于智能客服、聊天机器人、虚拟助手等应用场景,也可以用于生成文章、答题、写作等任务。
ChatGPT的一个关键特点是其能够理解上下文,并根据上下文信息进行语言生成,从而实现更加准确、贴近人类的对话。随着深度学习技术的不断进步,ChatGPT也在不断优化和演进,为人机交互和自然语言处理领域带来更多可能性。
ChatGPT应该会颠覆以往的 NLP 行业的生态,对NLP产业进行降维打击。
但也不用悲观,在这个信息时代,发展极快,互联网的起起伏伏,人工智能行业的起起落落,也不只是一两次了。NLP 业态的改变不是一朝一夕的,接下来几年,让我们逐步见证 NLP手工业 到NLP工业 的变迁。
泛指2022年前,以ChatGPT出现时间分割。
绝大多数的 NLP 工程师们所做的工程项目,主要是针对某些特定任务提出一个具体的模型,进行有针对性的数据标注,然后再制作模型。简而言之,就是以 NLP 子任务独立进行研究开发。比如分词、实体识别、文本分类、相似度判别、机器翻译、文摘系统、事件抽取等。
比如,一个公司需要做一套舆情监控系统,那么 NLP 工程师需要做的工作包括文本分类、关键词(短语)抽取、实体识别、事件抽取、文本聚类、相似度判别等等模型或模块。
这些任务,要么以小模型如 fasttext 完成;要么以 预训练+finetune 模式完成;而对于一些数据过于稀疏,本身过于小众的任务,就直接采用规则和解析的方式来做。
需要指出的是,NLP 的任务,除了前述的若干传统研究方向以外,还包括大量的十分小众的任务,比如根据下面的一段话,模型需要返回应当几点通知用户参会:
我今天比较累了,想9点睡觉,然后明天的会议吧,早上大概9点一刻叫我一声,我上线,大概到中午能开完。
针对这种小众任务,传统 NLP 手段处理这种问题是比较困难的。
另一方面,NLP 的工作还以数据领域进行了区分,比如,针对医疗文本领域需要定制一套实体识别系统,用于识别药物、疾病、诊疗日期等实体类型;而针对法律领域,则需要定制另一套实体识别系统,用于识别所犯罪行、量刑年限、罪犯名称、原告、被告等信息。两个模型完成的功能相似,但却并不能互通使用。
也就是说,NLP 产业界实际上处于一种手工业模式,你干你的,我干我的,针对不同的企业、不同的需求,需要不断地定制模型、定制数据来完成工作。每一个定制需求都需要人力,从而涌现出大量的 NLP 公司和从业者。
另外,NLP 中,还有一部分内容:知识图谱。知识图谱这个概念专门用来记录现实世界中的客观存在的事务的关联关系,对于 NLP 任务也极为重要。更准确地讲,应当叫做领域知识图谱,几乎没有哪个机构可以做出一个通泛的图谱来供应用。
但知识谱图属于有多少人工,就有多少智能的最典型代表,据我所了解,在各个互联网大中小厂的一些落地应用中,几乎找不到正面典型,反而各种失败的尝试不可计数。
过去很多国内外的头部、非头部科研机构发表了大量的论文,在过去几年 AI 行业暴发式增长的前提下,相关的论文发表数量呈现出井喷式增长。下图只是顶级期刊会议论文的数量,你懂的。
之所以国内外涌现出数量庞大的NLP或AI科研机构,关键原因是因为:以往的模型不需要消耗太多的 GPU,不需要花费太多的钱,科研经费还能养活的起。
相信不少研究生也都了解,为了毕业、找工作,导师为了业绩、评职称,被迫写出了许多水平参差不齐的论文。
绝大多数论文,还停留在针对 NLP 特定任务,优化改进策略上。但已经被头部的科研机构甩开了好远。科研院校很大程度上已经跟不上 NLP 领域最先进的技术了。
ChatGPT的功能强大,大家应该有目共睹。它几乎洗刷了原先 NLP 产业界手工作坊式的生态。
以前很多传统的NLP任务处理,现在基本只需要一个prompt就可以搞定,比如:时间实体抽取、分词、文本摘要、机器翻译等等,示例:
这个效果基本上已经将传统 NLP 任务卷下马了。试问还有多少传统 NLP 任务能够超越 ChatGPT?用过最新GPT4的同学会感叹大模型的进步之快。
可能有些人会说,ChatGPT不是万能的,很多问题解决不了,甚至回答都是错误的,捏造事实的场景不在少数。
当然了,ChatGPT 并不是一个完美优质的 LLM 模型。但可以得出结论,ChatGPT 已经完全抹去了传统 NLP 业态中,需要分不同子任务、分不同领域数据场景的手工业模式,而是直接采用大模型,以对话形式,直接形成了大一统,进入了机器时代。
ChatGPT 对 NLP 业态的改变,类似于传统的手工纺织女工,完全由机器替代了。 当然,会有很多纺织女工(NLP 工程师)表示,ChatGPT 造价昂贵,成本高昂,中小公司用不起,很难形成规模应用。 蒸汽机刚诞生时,价格也是十分高昂的,但是生产力的发展从来都不会因价格而停滞。
随着时间的推移,这个购买价格会逐渐趋于一个稳态:购买接口的价格要大幅度低于雇佣 NLP 工程师,但 OpenAI 或谷歌等巨头依然能够获得巨额垄断利润。
想想20年前一辆汽车的价格,再看看现在,很多事物的发展都是类似的过程。
用蒸汽机替代纺织女工,但并非100%的女工都被替代,还是会留下一些被雇佣来操作机器的。新行业会诞生新的岗位需求,也需要一定时间演进。
当然,调用接口意味着暴露数据,存在数据安全性问题,这会给 NLPer 们留下不多的生存空间。
ChatGPT 的算法原理十分高深复杂吗?貌似并不是,但这样的模型很难做出来。
制作这样的一个模型,OpenAI 、微软、谷歌都已经通过公开的论文,教会了我们,至少在目前看起来,参数超级庞大达数千亿,GPU 显卡集群超级庞大达数千块,文本数据量多达上万亿。甚至今后的发展还要更大。这些统统都需要钱。
换句话讲,目前看,NLP 领域的科研就是需要有钱,有钱,还是有钱。这个门槛死死地卡住了绝大多数(甚至说是几乎所有)的科研院校的师生,大家只能紧紧跟上最新的技术发展,而无法真正参与其中。
人工智能领域的比拼,从来都不是在比谁的算法更优,论文更多,论文发表的期刊更牛。真正比拼的就是投入的钱,GPU显卡支撑的算力、互联网带来的高质量的数据。
论文,包括高水平论文,从来都不是人工智能领域真正卡脖子的关键节点,算力和数据才是。否则,最高精尖的论文根本不可能公开发表,让全世界看到。
更何况,深度学习科研一直都被诟病,模型假设过于特殊,黑盒模型始终不可解释。很多论文发表出来,更像是一篇宣传稿,而不像是一篇有深度的学术报告。
人工智能的发展,会结束过去科研机构遍地开花,不论什么高校都要开设几个NLP、CV 实验室的时代;进而开启一个巨头垄断的时代。它的发展会像 Nvidia、台积电、ASML、日本高精钢铁一样,全世界仅此一家,独门生意,别无分号。你想开设分店,需要前期投入百亿、千亿、甚至万亿的巨额财富。
好在,科研机构是受到国家保护的,教授、副教授们即便技术能力已经被淘汰,但是国家依然会养着,这是体制的巨大能量。那些不被体制保护的研究者们,将直接面对风雨。
算法的训练依赖数据,我遇见过某些算法工程师、科研人员对处理数据、分析数据是极其厌恶的,认为这是 dirty work。但 ChatGPT 告诉我们,大规模的数据,高质量的标注数据是极其重要的。
国内近些年,内容平台被逐渐分流至其它互联网平台上,各个垂直领域的互联网平台仅仅占据了某些数据,事实上很难形成一个大而全面的数据合集。这也会影响国内 NLP 行业的发展。
同样地,标注数据的质量不足也是十分突出的问题。在绝大多数 NLP 从业者的印象里,不论是否承认数据的重要性,标注数据就是 dirty work,是招聘几个中专、初中学历的外包、临时工来完成的工作。
而 ChatGPT/InstructGPT 告诉了我们,标注数据,非研究生、工程师干不了。数据标注被提到了一个极高的高度。
总之,系统化地获取高质量数据的成本也是非常高昂的,这同样意味着一般性的企业和科研机构无法触及到这部分数据。
NLP 的科研将变成一小撮人从事的工作,其他人都会随着时间被甩开。
ChatGPT绝不是完美的,也称不上强人工智能。我们能做的,就是朝着接下来的演进方向继续前进。到底有哪些研究方向。
这个工作就要交给全世界的互联网巨头和科技巨头来完成了。如何让大型对话语言模型能够融合自家的数据,形成有效的生产力。
如果OpenAI搞技术封锁,或者自身的业务对数据安全性有极高的需求,这依然是突破内卷的好方式。复制不管用,那就得自己重新造另外一个 ChatGPT 模型了。
数据的重要性可以说十分重要,但凡制作大模型,都需要依赖海量的数据,如果能够掌握数据入口,掌握内容和流量,依然是个非常稳固的靠岸基地。
数据,实际上就是互联网一直在玩的东西,谁掌握了数据,谁就掌握了内容,掌握了流量,掌握了互联网。
有的人会想到,充分利用模型来实现功能,需要有优质的 prompt 来进行引导。但我个人感觉,这个工作确实重要,但它实在很难成为 NLP 工程师和从业人员们的一个从业门槛。
对于业界,之前NLP被诟病最多就是无法落地、需求不足,ChatGPT证明了大模型可以把流畅度推到一个非常靠谱的地步,这就给落地带来了希望。
回归初心,我们到底想解决什么场景的什么问题?大模型本身是没有价值的,基于大模型基础上的应用才是有价值的。NLPer们在这方面有先天的优势。
大模型技术的发展,NLP行业短期可能会受强烈冲击,但长期来看未必是坏事,机遇与挑战一直是共存的。不局限于某个领域和技术,事实上一旦我们选择了技术岗,就意味着必须选择做一个终身学习者。
参考:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。