很楠不爱3

这个屌丝很懒，什么也没留下！

热门标签

想玩GPT-3申请不到？UC伯克利让你免费在线玩，无需注册，最快10s出结果

作者：很楠不爱3 | 2024-04-10 19:02:38

踩

羿阁衡宇发自凹非寺
量子位 | 公众号 QbitAI

你说，咱今天可以不加班不？

不，到点走不了，今天这班你必须得加。

如此冷冰冰的回答，来自一个可以免费调戏千亿参数大模型的网站：

这个网站是依托Meta AI开源的预训练语言模型OPT-175B做的，背后团队来自加州大学伯克利分校。

最近该网站在twitter有点火。

再加上不用注册，可以“白嫖”，不少人一边大呼Nice，一边已经去网站“到此一游”了。

如果你之前不知道它，不妨现在跟我们去玩一玩。

这是一个什么网站？

网站主页整个看起来还挺清爽，最重要的是位于页面中心的输出和输入框。

在上方的输入框敲入你需要的内容，点击一下左下角的蓝色按钮，再等上那么一会儿，你就能得到结果了。

目前可以实现的功能有：询问事实，直接聊天，航班代码，多语言翻译，加密货币，代码，计算数学……

比如把你想要回家的迫切心情翻译一下：

或者来点儿数学题：

为了使用起来更简便，网站上只给了三个生成参数：

响应时长、温度参数和Top-p。

在初始设置值下，无论输入句的长与短，响应时长都需要20来秒的时间。

我们试了一下，把这一参数极限往左或往右拉，发现响应时长大概是维持在10-90秒这个区间里。

温度参数控制采样分布的尖锐程度，较低的温度会促使生成器从模型中选择得分较高的token。

Top-p从累计概率超过p的最小可能单词集中抽样，较小的p值会阻止生成器从模型中选取分数较低的token。

团队在网站主页上还声明，虽然只给大家用三个，但是我们后端是支持多种生成技术和参数的！

如果用户现在就想尝试更多的超参数，在网站上体验不同的生成技术，可以通过使用团队做出的一个系统Alpa（用来训练和服务大模型），自己增加相关服务的设置。

他们目前在开发一个RESTFUL API 来公开完整的参数集，后续可以关注一下。

因为采用的是随机抽样，所以针对同一个问题，每一次生成的结果都会有所不同。

比如，前后两次想让网站帮忙解决“中午吃啥”这个千古难题，它一会儿推荐你吃三明治，一会儿推荐你吃沙拉。

（总之是非常健康了）

在隐私保密这一块，网站称不会存储输入的内容，只会记录输入词长度这一类东西。

团队还说了，对于没多少AI相关背景，还想了解接触一下AI生态系统的人来说，网站挺容易上手。

为了验证友好性，我们找来一个AI小白玩儿了一下这个网站。

打开网站，这位旁友啥参数也没动，单刀直入，在输入框里明目张胆地输入了

让我们邀请读者在阅读这篇文章后，关注我们的公号吧。

21.7秒后，网站和我们一起面带热情的微笑，暗（ming）示（shi）你记得关注量子位（手动狗头）。

网站背后的技术依托

要想搞清网站背后的原理，首先，让我们先了解一下它为什么会选择OPT-175B做原型。

OPT-175B，是Meta AI开源的预训练语言模型，共有1750亿个参数，今年5月开源的时候，简直引发了AI研究社区的大轰动。

原因是它的效果完全不输GPT-3，还弥补了OpenAI不够open的问题，有时候被大家戏称为GPT-3的免费版本。

△用14个NLP任务对GPT和OPT进行测试，平均精度相差不大

不仅从完整模型到训练代码、部署代码完全开放，OPT-175B运行时的碳消耗更是连GPT-3所需的1/7都不到，属实是非常环保省能了。

可以说，OPT-175B的开源增加了大模型开发的开放性。

而这个神奇网站背后的技术Alpa，则堪称是OPT-175B的“加强免费版”。

Alpa，是一个专门用于训练和服务大规模神经网络的系统。

此前，无论是OpenAI的GPT-3，还是Meta AI的OPT-175B，都已经实现了将神经网络扩展到数千亿参数。

但是呢，神经网络规模越大，训练和服务他们的分布式系统技术就更复杂。

现有的模型并行训练系统，要么要求用户手动创建一个并行化计划，要么要求用户从有限的模型并行化配置空间中自动生成一个。

相对来说有点复里复杂的，而且还做不到在分布式计算设备上扩展复杂的DL模型。

Alpa的优势在于，仅通过几行代码，就能实现大规模分布式训练和服务的自动并行化。

具体来说，Alpa的突破之处有以下几点：

专为大型模型设计：Alpa在分布式集群上实现了数十亿参数的训练模型的线性缩放，专为训练和服务于GPT-3等大型模型而设计。
没有硬件限制：不依赖最新一代的A100 80GB GPU或花哨的InfiniBand硬件，凭借自家的GPU集群即可使用OPT-175B，特别是在40GB A100、V100等老一代GPU上也能提供更灵活的并行性服务。