赞
踩
团队博客: CSDN AI小组
相关阅读
先上 “万恶之源”:Transformer
按机构分类
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|---|---|---|---|---|
2021-09 | Jurassic-1 (J1) | J1-Jumbo v1 (178B), J1-Large v1 (7.5B), J1-Grande v1 (17B) | AI21 Labs | 论文 , 官方文档, 技术报告 | 受限 |
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|---|---|---|---|---|
2019-08 | StructBert | structbert.en.large(340M), structroberta.en.large(355M), structbert.ch.large(330M) | Alibaba Group Inc. | 论文, GitHub | 模型 |
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|---|---|---|---|---|
2018-02 | ELMo | Small(13.6M), Medium(28.0M), Original(93.6M) | Allen Institute for AI & University of Washington | 论文 | 模型 |
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|---|---|---|---|---|
2022-03 | DQ-BART | 与标准BART相比,参数减少了30倍 | Cornell University & AWS AI Labs & University of Pennsylvania | 论文 |
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|---|---|---|---|---|
2022-05 | T0pp | 11B | BigScience etc. | 论文 | 模型 |
2022-07 | BLOOM | 176B | BigScience | 论文 | 模型 |
2022-11 | BLOOMZ | 176B | BigScience etc. | 论文 | 模型 |
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|---|---|---|---|---|
2022-06 | Cohere | Cohere xlarge v20220609 (52.4B), Cohere large v20220720 (13.1B) , Cohere medium v20220720 (6.1B) , Cohere small v20220720 (410M) , Cohere xlarge v20221108 (52.4B), Cohere medium v20221108 (6.1B) | Cohere | 官网 | 受限 |
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|---|---|---|---|---|
2021-07 | AlphaFold | 21M | DeepMind etc. | 论文 | |
2021-12 | Gopher | 280B | DeepMind | 论文, 官网 | 未开源 |
2022-03 | Chincilla | 70B | DeepMind | 论文 | 未开源 |
2022-03 | GopherCite | 280B | Deepmind & University College London | 论文 | |
2022-04 | Flamingo | 80B (largest) | Deepmind | 论文 | flamingo-mini模型 |
2022-05 | Gato | 1.2B | Deepmind | 论文 | |
2022-09 | Sparrow | 70B | Deepmind | 论文 |
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|---|---|---|---|---|
2021-03 | GPT-Neo | 5B, 2.7B (XL) | EleutherAI | 论文 | 模型 |
2021-06 | GPT-J | 6B | EleutherAI | 博客 | 模型 |
2021-12 | StableDiffusion | 890M | LMU Munich & Stability.ai & Eleuther.ai | 论文 | 模型 |
2022-04 | GPT-NeoX | 20B | EleutherAI | 论文 | 模型 |
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|---|---|---|---|---|
2018-10 | BERT | Base = 110M, Large = 340M | Google AI Language | 论文 | 模型 |
2019-01 | Transformer XL | 151M | Carnegie Mellon University & Google Brain | 论文 | 模型 |
2019-05 | XLNet | Base=117M, Large=360M | Google AI Brain Team & Carnegie Mellon University | 论文 | 模型 |
2019-09 | ALBERT | Base = 12M, Large = 18M, XLarge = 60M | Google Research & Toyota Technological Institute at Chicago | 论文 | 模型 |
2019-10 | T5 | 11B | 论文 | 模型 | |
2019-12 | Pegasus | Base = 223M, Large = 568M | Imperial College London & Google Research | 论文 | 模型 |
2020-03 | ELECTRA | Base = 110M, Large = 330M | Google Brain & Stanford University | 论文 | 模型 |
2020-07 | BigBird | 取决于整体架构 | Google Research | 论文 | 模型 |
2020-10 | ViT | 86M(Base) to 632M (Huge) | Google Research | 论文 | 模型 |
2021-01 | Switch | 1T | 论文 | 模型 | |
2021-06 | Decision Transformers | 117M | Google Brain & UC Berkeley & Facebook AI Research | 论文 | 模型 |
2021-12 | GLaM | 1.2T覆盖64个专业领域, 但只有96B被激活用于推理 | 论文, 官方博客 | ||
2022-01 | LAMDA | 137B | 论文, 官方博客 | ||
2022-04 | PaLM | 540B | Google Research | 论文, 官方博客 | 未开源 |
2022-05 | UL2 | 20B | Google Research | 论文 | 模型 |
2022-06 | Imagen | 2B | Google Research | 论文, 官网 | |
2022-06 | Minerva | 540B | Google Research | 论文, 官网 | |
2022-12 | Flan-T5 | 11B | 论文 | 模型 |
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|---|---|---|---|---|
2020-11 | MacBert | MacBERT-large, Chinese(324M), MacBERT-base, Chinese(102M) | iFLYTEK AI Research & Harbin Institute of Technology | 论文 | 模型 |
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|---|---|---|---|---|
2019-07 | RoBERTa | 356M | Facebook AI & University of Washington | 论文 | 模型 |
2019-10 | BART | 比 BERT 多 10% | Facebook AI | 论文 | 模型 |
2019-10 | XLM-RoBERTa | Base = 270M, Large = 550M | Facebook AI | 论文 | 模型 |
2020-01 | mBART | 与BART相同 | Facebook AI Research | 论文 | 模型 |
2021-07 | HTML | 400M | Facebook AI & University of Washington | 论文 | |
2022-01 | CM3 | 13B (largest) | Facebook AI Research | 论文 | |
2022-03 | SeeKer | 与基模型相同 | Facebook AI Research & ETH Zürich | 论文, 官网 | |
2022-05 | OPT | 175B, 66B | Meta AI | 论文, 官网 | 模型 |
2022-08 | BlenderBot3 | 175B | Meta AI & Mila/McGill University | 论文 | blenderbot-3B模型, 模型 |
2022-11 | Galatica | 120B | Meta AI | 论文 | 模型 |
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|---|---|---|---|---|
2019-03 | MT-DNN | 330M | Microsoft Research | 论文 | 模型 |
2019-05 | UniLM | 340M | Microsoft Research | 论文, GitHub | 模型 |
2019-10 | DialoGPT | 1.5B | Microsoft Corporation | 论文 | 模型 |
2020-02 | Turing NLG | 17B | Microsoft | 官方博客 | |
2021-03 | Swin Transformer | 29M-197M | Microsoft Research Asia | GitHub , 论文 | 模型 |
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|---|---|---|---|---|
2019-09 | Megatron-LM | 8.3B (GPT-like), 3.9B (BERT-like) | NVidia | 论文, GitHub | |
2021-10 | Megatron Turing NLG | 530B | Microsoft & NVIDIA | 论文, 官方博客 | 未开源 |
2022-06 | Global Context ViT | 90M | NVidia | 论文 |
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|---|---|---|---|---|
2018-06 | GPT | 117M | OpenAI | 论文 | 模型 |
2019-02 | GPT-2 | 1.5B | OpenAI | 论文 | 模型 |
2020-05 | GPT-3 | GPT-3 davinci v1 (175B), GPT-3 curie v1 (6.7B), GPT-3 babbage v1 (1.3B), GPT-3 ada v1 (350M) | OpenAI | 论文, GitHub | 受限 |
2021-01 | DALL-E | 12B | OpenAI | 论文, 官方博客, Demo | |
2021-02 | CLIP | 未知 | OpenAI | 论文, GitHub | 模型 |
2021-07 | Codex | Codex davinci v2 (Unknow), Codex davinci v1 (Unknow), Codex cushman v1 (Unknow) | OpenAI | 论文 | 受限 |
2021-12 | GLIDE | 12B | OpenAI | 论文, Demo | |
2022-01 | InstructGPT | InstructGPT davinci v2 (175B*), InstructGPT davinci v1 (175B*), InstructGPT curie v1 (6.7B*), InstructGPT babbage v1 (1.3B*), InstructGPT ada v1 (350M*) | OpenAI | 论文, 官网 | 受限 |
2022-04 | DALL-E-2 | 3.5B | OpenAI | 论文, 官网 | |
2022-10 | GPT-3.5 | 175B | OpenAI | 官网 | 未开源 |
2022-10 | ChatGPT | 与 GPT3 相同 | OpenAI | 官网 | 未开源 |
由于涉及到的模型较多,文中可能存在纰漏,还望指正,谢谢!
[1] CRFM Benchmarking
[2] Transformer models: an introduction and catalog — 2023 Edition
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。