赞
踩
在快速发展的人工智能领域,自然语言处理已成为研究人员和开发人员关注的焦点。作为这一领域显著进步的证明,近年来出现了几种开创性的语言模型,突破了机器能够理解和生成的界限。在本文中,我们将深入研究大规模语言模型的最新进展,探讨每个模型引入的增强功能、它们的功能和潜在的应用程序。
我们将从2018年的一个开创性的BERT模型开始,并以今年的最新突破结束,如Meta AI的LLaMA和OpenAI的GPT-4。如果您想跳过,以下是我们介绍的语言模型:
如果这些深入的教育内容对您有用,您可以订阅我们的人工智能研究邮件列表,以便在我们发布新材料时得到提醒
2018年,谷歌人工智能团队推出了一种新的自然语言处理(NLP)尖端模型——BERT,即变形金刚的双向编码器表示。它的设计使模型能够考虑每个单词左右两侧的上下文。虽然概念上很简单,但BERT在11项NLP任务上获得了最先进的结果,包括问答、命名实体识别和其他与一般语言理解有关的任务。该模型标志着NLP的一个新时代,语言模型的预训练成为一种新标准。
为了消除早期语言模型的局限性,特别是在预训练的表示是单向的方面,这限制了可用于预训练的架构的选择,并限制了微调方法。
推进11项NLP任务的最先进技术,包括:
OpenAI团队引入了GPT-3,作为为每个新的语言任务提供标记数据集的替代方案。他们建议,扩大语言模型的规模可以提高与任务无关的少镜头性能。为了测试这一建议,他们训练了一个175B参数的自回归语言模型,称为GPT-3,并评估了它在二十多个NLP任务上的性能。在少快照学习、一次快照学习和零样本学习下的评估表明,GPT-3取得了可喜的结果,甚至偶尔优于精细调整模型取得的最新结果
对话应用程序语言模型(LaMDA)是通过微调一组专门为对话设计的基于Transformer的神经语言模型而创建的。这些模型最多有137B个参数,并经过训练使用外部知识来源。LaMDA开发人员心中有三个关键目标——质量、安全和基础。结果表明,微调可以缩小与人类水平的质量差距,但该模型在安全性和基础性方面的性能仍低于人类水平
谷歌的Bard最近作为ChatGPT的替代品发布,由LaMDA提供动力。尽管巴德经常被贴上无聊的标签,但这可以被视为谷歌致力于优先考虑安全的证据,即使在谷歌和微软为在生成人工智能领域建立主导地位而展开的激烈竞争中也是如此。
路径语言模型(Pathways Language Model,PaLM)是一个5400亿参数的基于Transformer的语言模型。PaLM使用Pathways在6144个TPU v4芯片上进行训练,Pathways是一种新的ML系统,用于跨多个TPU吊舱进行高效训练。该模型展示了在少量学习中扩展的好处,在数百种语言理解和生成基准上取得了最先进的结果。PaLM在多步推理任务上优于经过微调的最先进模型,并在BIG基准测试上超过了平均人工性能。
Meta AI团队声称,在更多代币上训练的较小模型更容易重新训练和微调特定的产品应用程序。因此,他们引入了LLaMA(大型语言模型元AI),这是一组具有7B到65B参数的基础语言模型。LLaMA 33B和65B在1.4万亿代币上进行了训练,而最小的模型LLaMA 7B在1万亿代币上训练。他们只使用公开可用的数据集,而不依赖于专有或受限数据。该团队还实施了关键的体系结构增强和训练速度优化技术。因此,LLaMA-13B的性能优于GPT-3,比GPT-3小了10多倍,LLaMA-65B表现出与PaLM-540B的竞争性能。
尽管LLaMA-13B比GPT-3小了10倍多,但它还是超过了GPT-3,而LLaMA-65B在对抗PaLM-540B时保持了自己的优势。
GPT-4是一个大规模的多模式模型,它接受图像和文本输入并生成文本输出。出于竞争和安全考虑,有关模型架构和培训的具体细节被保留。在性能方面,GPT-4在传统基准测试上超越了以前的语言模型,并在用户意图理解和安全属性方面显示出显著的改进。该模型在各种考试中也达到了人类水平的表现,包括在模拟的统一律师考试中获得最高10%的分数。
近年来最重要的人工智能研究突破来自在巨大数据集上训练的大型人工智能模型。这些模型展示了令人印象深刻的性能,思考人工智能如何彻底改变整个行业,如客户服务、营销、电子商务、医疗保健、软件开发、新闻业和许多其他行业,令人着迷。
大型语言模型在现实世界中有许多应用。GPT-4列出了以下内容:
关注最近的人工智能突破并思考它们在现实世界中的潜在应用是非常令人兴奋的。然而,在现实生活中部署这些模型之前,我们需要解决相应的风险和限制,不幸的是,这些风险和限制非常重要。
如果你询问GPT-4的风险和局限性,它可能会为你提供一长串相关问题。在筛选了这个列表并添加了一些额外的注意事项后,我最终发现了现代大型语言模型所具有的以下一组关键风险和限制:
大型语言模型无疑彻底改变了自然语言处理领域,并在提高各种角色和行业的生产力方面显示出巨大的潜力。他们能够生成类似人类的文本,自动化日常任务,并在创造性和分析过程中提供帮助,这使他们在当今快节奏、技术驱动的世界中成为不可或缺的工具。
然而,承认和理解这些强大模型的局限性和风险是至关重要的。偏见、错误信息和恶意使用的可能性等问题不容忽视。随着我们继续将这些人工智能驱动的技术融入我们的日常生活,在利用它们的能力和确保人类监督之间取得平衡至关重要,尤其是在敏感和高风险的情况下。
如果我们成功地负责任地采用生成性人工智能技术,我们将为人工智能和人类专业知识共同推动创新和为所有人创造一个更美好世界的未来铺平道路。
本文:【NLP】2023年改变人工智能的前六大NLP语言模型 | 开发者开聊
- 做一个简单介绍,酒研年近48 ,有20多年IT工作经历,目前在一家500强做企业架构.因为工作需要,另外也因为兴趣涉猎比较广,为了自己学习建立了三个博客,分别是【全球IT瞭望】,【架构师研究会】和【开发者开聊】,有更多的内容分享,谢谢大家收藏。
- 企业架构师需要比较广泛的知识面,了解一个企业的整体的业务,应用,技术,数据,治理和合规。之前4年主要负责企业整体的技术规划,标准的建立和项目治理。最近一年主要负责数据,涉及到数据平台,数据战略,数据分析,数据建模,数据治理,还涉及到数据主权,隐私保护和数据经济。 因为需要,比如数据资源入财务报表,另外数据如何估值和货币化需要财务和金融方面的知识,最近在学习财务,金融和法律。打算先备考CPA,然后CFA,如果可能也想学习法律,备战律考。
- 欢迎爱学习的同学朋友关注,也欢迎大家交流。全网同号【架构师研究会】
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。