你好赵伟

这个屌丝很懒，什么也没留下！

热门标签

热门文章

当前位置: article > 正文

从 ELMo 到 ChatGPT：历数 NLP 近 5 年必看大模型

作者：你好赵伟 | 2024-04-30 02:09:31

赞

踩

历数 nlp 近 5 年必看大模型

团队博客: CSDN AI小组

相关阅读

先上 “万恶之源”：Transformer
在这里插入图片描述

按机构分类

AI21 Labs

发布时间	模型名称	参数量	机构	相关链接	开源
2021-09	Jurassic-1 (J1)	J1-Jumbo v1 (178B), J1-Large v1 (7.5B), J1-Grande v1 (17B)	AI21 Labs	论文 , 官方文档, 技术报告	受限

Alibaba

发布时间	模型名称	参数量	机构	相关链接	开源
2019-08	StructBert	structbert.en.large(340M), structroberta.en.large(355M), structbert.ch.large(330M)	Alibaba Group Inc.	论文, GitHub	模型

Allen Institute for AI

发布时间	模型名称	参数量	机构	相关链接	开源
2018-02	ELMo	Small(13.6M), Medium(28.0M), Original(93.6M)	Allen Institute for AI & University of Washington	论文	模型

Amazon

发布时间	模型名称	参数量	机构	相关链接	开源
2022-03	DQ-BART	与标准BART相比，参数减少了30倍	Cornell University & AWS AI Labs & University of Pennsylvania	论文

Anthropic

发布时间	模型名称	参数量	机构	相关链接	开源
2021-12	Anthropic-LM	Anthropic-LM v4-s3 (52B)	Anthropic	论文1, 论文2	未开源

BAAI

发布时间	模型名称	参数量	机构	相关链接	开源
2021-06	Wu Dao 2.0	1.75T	BAAI	官网	模型

Baidu

发布时间	模型名称	参数量	机构	相关链接	开源
2019-05	ERNIE	114M	Baidu	GitHub, 论文	模型

BigScience

发布时间	模型名称	参数量	机构	相关链接	开源
2022-05	T0pp	11B	BigScience etc.	论文	模型
2022-07	BLOOM	176B	BigScience	论文	模型
2022-11	BLOOMZ	176B	BigScience etc.	论文	模型

Cohere

发布时间	模型名称	参数量	机构	相关链接	开源
2022-06	Cohere	Cohere xlarge v20220609 (52.4B), Cohere large v20220720 (13.1B) , Cohere medium v20220720 (6.1B) , Cohere small v20220720 (410M) , Cohere xlarge v20221108 (52.4B), Cohere medium v20221108 (6.1B)	Cohere	官网	受限

DeepMind

发布时间	模型名称	参数量	机构	相关链接	开源
2021-07	AlphaFold	21M	DeepMind etc.	论文
2021-12	Gopher	280B	DeepMind	论文, 官网	未开源
2022-03	Chincilla	70B	DeepMind	论文	未开源
2022-03	GopherCite	280B	Deepmind & University College London	论文
2022-04	Flamingo	80B (largest)	Deepmind	论文	flamingo-mini模型
2022-05	Gato	1.2B	Deepmind	论文
2022-09	Sparrow	70B	Deepmind	论文

EleutherAI

发布时间	模型名称	参数量	机构	相关链接	开源
2021-03	GPT-Neo	5B, 2.7B (XL)	EleutherAI	论文	模型
2021-06	GPT-J	6B	EleutherAI	博客	模型
2021-12	StableDiffusion	890M	LMU Munich & Stability.ai & Eleuther.ai	论文	模型
2022-04	GPT-NeoX	20B	EleutherAI	论文	模型

Google

发布时间	模型名称	参数量	机构	相关链接	开源
2018-10	BERT	Base = 110M, Large = 340M	Google AI Language	论文	模型
2019-01	Transformer XL	151M	Carnegie Mellon University & Google Brain	论文	模型
2019-05	XLNet	Base=117M, Large=360M	Google AI Brain Team & Carnegie Mellon University	论文	模型
2019-09	ALBERT	Base = 12M, Large = 18M, XLarge = 60M	Google Research & Toyota Technological Institute at Chicago	论文	模型
2019-10	T5	11B	Google	论文	模型
2019-12	Pegasus	Base = 223M, Large = 568M	Imperial College London & Google Research	论文	模型
2020-03	ELECTRA	Base = 110M, Large = 330M	Google Brain & Stanford University	论文	模型
2020-07	BigBird	取决于整体架构	Google Research	论文	模型
2020-10	ViT	86M(Base) to 632M (Huge)	Google Research	论文	模型
2021-01	Switch	1T	Google	论文	模型
2021-06	Decision Transformers	117M	Google Brain & UC Berkeley & Facebook AI Research	论文	模型
2021-12	GLaM	1.2T覆盖64个专业领域，但只有96B被激活用于推理	Google	论文, 官方博客
2022-01	LAMDA	137B	Google	论文, 官方博客
2022-04	PaLM	540B	Google Research	论文, 官方博客	未开源
2022-05	UL2	20B	Google Research	论文	模型
2022-06	Imagen	2B	Google Research	论文, 官网
2022-06	Minerva	540B	Google Research	论文, 官网
2022-12	Flan-T5	11B	Google	论文	模型

Huggingface

发布时间	模型名称	参数量	机构	相关链接	开源
2019-10	DistilBERT	66M	Huggingface	论文	模型

iFLYTEK

发布时间	模型名称	参数量	机构	相关链接	开源
2020-11	MacBert	MacBERT-large, Chinese(324M), MacBERT-base, Chinese(102M)	iFLYTEK AI Research & Harbin Institute of Technology	论文	模型

Meta (Facebook)

发布时间	模型名称	参数量	机构	相关链接	开源
2019-07	RoBERTa	356M	Facebook AI & University of Washington	论文	模型
2019-10	BART	比 BERT 多 10%	Facebook AI	论文	模型
2019-10	XLM-RoBERTa	Base = 270M, Large = 550M	Facebook AI	论文	模型
2020-01	mBART	与BART相同	Facebook AI Research	论文	模型
2021-07	HTML	400M	Facebook AI & University of Washington	论文
2022-01	CM3	13B (largest)	Facebook AI Research	论文
2022-03	SeeKer	与基模型相同	Facebook AI Research & ETH Zürich	论文, 官网
2022-05	OPT	175B, 66B	Meta AI	论文, 官网	模型
2022-08	BlenderBot3	175B	Meta AI & Mila/McGill University	论文	blenderbot-3B模型, 模型
2022-11	Galatica	120B	Meta AI	论文	模型

Microsoft

发布时间	模型名称	参数量	机构	相关链接	开源
2019-03	MT-DNN	330M	Microsoft Research	论文	模型
2019-05	UniLM	340M	Microsoft Research	论文, GitHub	模型
2019-10	DialoGPT	1.5B	Microsoft Corporation	论文	模型
2020-02	Turing NLG	17B	Microsoft	官方博客
2021-03	Swin Transformer	29M-197M	Microsoft Research Asia	GitHub , 论文	模型

NVidia

发布时间	模型名称	参数量	机构	相关链接	开源
2019-09	Megatron-LM	8.3B (GPT-like), 3.9B (BERT-like)	NVidia	论文, GitHub
2021-10	Megatron Turing NLG	530B	Microsoft & NVIDIA	论文, 官方博客	未开源
2022-06	Global Context ViT	90M	NVidia	论文

OpenAI

发布时间	模型名称	参数量	机构	相关链接	开源
2018-06	GPT	117M	OpenAI	论文	模型
2019-02	GPT-2	1.5B	OpenAI	论文	模型
2020-05	GPT-3	GPT-3 davinci v1 (175B), GPT-3 curie v1 (6.7B), GPT-3 babbage v1 (1.3B), GPT-3 ada v1 (350M)	OpenAI	论文, GitHub	受限
2021-01	DALL-E	12B	OpenAI	论文, 官方博客, Demo
2021-02	CLIP	未知	OpenAI	论文, GitHub	模型
2021-07	Codex	Codex davinci v2 (Unknow), Codex davinci v1 (Unknow), Codex cushman v1 (Unknow)	OpenAI	论文	受限
2021-12	GLIDE	12B	OpenAI	论文, Demo
2022-01	InstructGPT	InstructGPT davinci v2 (175B), InstructGPT davinci v1 (175B), InstructGPT curie v1 (6.7B), InstructGPT babbage v1 (1.3B), InstructGPT ada v1 (350M*)	OpenAI	论文, 官网	受限
2022-04	DALL-E-2	3.5B	OpenAI	论文, 官网
2022-10	GPT-3.5	175B	OpenAI	官网	未开源
2022-10	ChatGPT	与 GPT3 相同	OpenAI	官网	未开源

Salesforce

发布时间	模型名称	参数量	机构	相关链接	开源
2019-09	CTRL	1.63B	Salesforce Research	论文	模型

Tsinghua University

发布时间	模型名称	参数量	机构	相关链接	开源
2020-10	GLM	130B	Tsinghua University & Zhipu.AI	论文, Demo	10B版模型

UC Berkeley

发布时间	模型名称	参数量	机构	相关链接	开源
2021-06	Trajectory Transformers	比 GPT 更小的架构	UC Berkeley	论文	模型

Yandex

发布时间	模型名称	参数量	机构	相关链接	开源
2022-06	YaLM	100B	Yandex	GitHub, 博客	模型

持续更新中 …

由于涉及到的模型较多，文中可能存在纰漏，还望指正，谢谢！

参考

[1] CRFM Benchmarking
[2] Transformer models: an introduction and catalog — 2023 Edition

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/你好赵伟/article/detail/510951

推荐阅读

相关标签

Copyright © 2003-2013 www.wpsshop.cn 版权所有，并保留所有权利。

闽ICP备14008679号