全球1000+研究员在Twitter直播训练超大模型？？

作者：小丑西瓜9 | 2024-04-21 22:15:10

踩

bigscience bloom网址

文 | 王思若

将视角转换到2020年，OpenAI发布了拥有1750亿参数量的GPT-3, 在阅读理解、语言翻译、问答等多种任务展现了令人惊艳的效果，算法+工程二者结合展现了大模型的“暴力美学”，也同时开启了千亿、万亿参数模型的 “军备竞赛”。

从模型框架到并行架构，从NLP,CV再到多模态，大型语言模型（LLM）逐渐成为了少数几个公司和研究院竞相争抢的赛道。

之后我们见证了从DeepMind的2800亿参数Gopher到NVIDIA和微软联合发布的5300亿参数的Megatron-Turing，从Google的1.6万亿参数的Switch Transformer再到智源的1.75万亿参数的悟道2.0。

尽管有些模型开放了API接口或参数，但详尽的技术细节却未公之于众，导致难以全然复现。

例如，OpenAI拒绝公布GPT-3模型参数，DeepMind对于让蛋白质结构预测走上新阶段的AlphaFold2也只是公布了推理代码。学界和社区呼唤开源，但是我们也无法苛求这些以盈利为立足之本的企业能够全然公开其技术研究成果。

这似乎是一个关于巴别塔的困境——人类联合起来兴建希望能通往天堂的高塔，但是上帝为了阻止人类让人类说不同语言，互相之间不能沟通，进而导致计划失败。

在这些公司试图建立起自己的技术壁垒的同时，也涌现了一批人去尝试打破它们。Meta复现并完全开源了GPT-3，哥伦比亚大学全流程复现并开源了AlphaFold2。

今天我们要介绍的主角，也是这批力量中不可忽视的一个组织——BigScience，一个包容、开放、协作共享的大型语言模型（LLM）社区，围绕研究和创建超大型语言模型的开放式协作研讨会，由HuggingFace、GENCI和IDRIS发起的开放式合作，汇集了全球 1000 多名研究人员。

BigScience既不是实体组织，也不是互联网企业，有人说这是一群希望构造更加开源、开放社区的学者汇聚形成的“星星之火”。接下来，笔者将阐述这群人的故事，或许，从他们开始AI社区的规则将迎来转变。

BigScience的故事

这个故事开始于21年1月，Hugging Face创办者之一的Thomas Wolf、来自超级计算机制造商GENCI的Stéphane Requena和来自运营超级计算机的法国公共研究机构IDRIS的Pierre-François Lavallée对人工智能进行了探讨，并一致认为工业界应该和学术界合作构建开源、开放的通用型研究工具。
21年1月-4月，Hugging Face联合法国学术社区成立了BigScience声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：【wpsshop博客】