赞
踩
当地时间3月3日,谷歌联合创始人之一、拥有千亿美元身价的谢尔盖·布林(Sergey Brin)现身在一场以谷歌旗下大模型Gemini 1.5为主题的黑客马拉松活动上。
此前Gemini因文生图下引发巨大争议,在近40分钟的演讲中,布林承认了内部测试不充分的错误并道歉,谈到了Gemini的开发内幕、AGI(通用人工智能)、AI对社会影响等众多话题,还在现场分享了对于近期引发热议的Gemini文生图问题的看法。
布林在演讲的开头就指出,Gemini 1.5 Pro模型的诞生其实只是个意外。Gemini1.5在内部开发时候的代号是金鱼(goldfish),没想到最后训练出来的模型拥有非常强大的“记忆力”(百万token上下文窗口)。
主要内容包括:
- Gemini绘画犯了内部测试不充分的错误,模型中确实存在还没有完全理解的部分,在最近的修复工作中,团队已将此问题改善了至少80%。
- Gemini API不会涨价,一方面模型的推理优化方面一直在持续改进,谷歌在TPU推理方面做的非常好。另一方面是小模型越来越有效。
- AI对程序员工作的影响,布林持开放态度,AI可以帮助提高编程的安全性,并且AI在编写单元测试方面做得很好。
- 我确实觉得AI的推理能力令人振奋,这就是我归来的原因,AI的发展进程太让人兴奋了。作为一名计算机科学家,看到这些模型年复一年令人惊叹的进步。
- 在谷歌AR眼镜上犯了操之过急的错误,在技术还为成熟时就将其早早推向市场。
- 广告的商业模式会随着时间推移而变化,但无论广告如何变,AI都能更好地定制广告,只要创造巨大的价值,总会找到商业模式。
我们确实无法完全预测AI的未来走向,我们发现,AI似乎会影响诸多职业,包括平面设计师、客户经理、医生、高管等等,所以我不认为程序员是否应该被拿出来单独讨论,对当前的大型语言模型来说,编程可能是最具挑战的任务之一。
- 很难预测哪些垂直行业将受到AI冲击,除了都能看到的客服或工作流程自动化、涉及长文档分析的行业之外,未来还会有不那么明显受到冲击的行业出现。
以下为谢尔盖·布林40分钟问答实录:
提问:你对Gemini绘画在种族问题上翻车有什么看法?
谢尔盖·布林:Gemini所生成的图片不是我预期的。我们在图像生成上确实出了问题,主要是因为内部没有进行彻底的测试。我想这些图片促使很多人深入测试了基础文本模型。文本模型有两种不同的效果,一方面,坦白说,如果你深入测试任何一个文本模型,无论是我们的,ChatGPT,还是Grok,它都会说出一些相当奇怪的东西,感觉相当奇怪极为偏激的言论,都可能出现诱导的情况。
但也要坦白说,Gemini模型中有一些我们还无法完全理解的部分,比如为什么在很多情况下,它的输出结果会偏激,这并不是我们的初衷。但如果你从上周开始再次尝试的话,在最近的修复工作中,团队已将此问题改善了至少80%。所以,我希望你们都去试一试。这应该会产生很大的影响。
当前你们试用的Gemini 1.5 Pro,还未面向公众发布。过去,它被称为BARD,该模型不会有太多意料之外的输出或倾向,除了一个普遍状况:对模型进行了“红队测试”,这个模型可能出现一些极端状况。但我希望,即使进行了红队测试,模型也不要展现出强烈的偏差或特定的倾向。我想我们可以尝试一下,尽管今天我们更期待的是更新后的长上下文能力,以及其他一些技术特性,对吗?
提问:是的,随着最近多模态的发展,你们有考虑过像是视频聊天GPT这样的项目吗?
谢尔盖·布林:我们可能不会直接这样称呼它。不过,无论是输入还是输出,多模态,包括视频、音频的发展都非常令人兴奋,我们已经进行了早期的实验,我想说这是一个很让人兴奋的领域。
你们还记得那个小鸭子的视频吗?虽然视频中已经充分声明了它并不是实时的,但它还是让我们陷入了麻烦。但我们确实做过一些工作,比如审核图片,逐帧分析。目前,我觉得我们还没有现成的实时展示。
提问:你个人会在一些项目中写代码吗?
谢尔盖·布林:说实话,我并未真正编写过代码。虽然这并不是你会觉得非常厉害的代码,但有时我还是会偶尔调试一下,只是为了我自己理解模型是如何工作的,或者以稍微不同的方式分析性能。再次强调,技术层面上你门可能并不会留下太深刻印象,但能亲自动手尝试还是挺有意思的。
有时我会使用AI为我编写代码,因为我对有些代码生疏了,且它们实际上做得相当不错。
提问:你认为这个领域的新进展对我们创造更好的游戏或游戏引擎意味着什么?你对此有何看法?
谢尔盖·布林:我们当然希望AI能够助力我们创造更好的游戏或游戏引擎。对于游戏引擎来说,显然在图形方面很可以借助AI做出很多新颖有趣的事。
但或许更有意思的是AI如何与其他虚拟玩家及游戏元素进行交互,现在游戏里面临的人物被称为单调的NPC之类的,但未来NPC或许会变得极具智能和吸引力。
这无疑是一种充满可能性的新领域。由于我个人不是一个资深游戏玩家,可能无法完全想象AI为游戏带来的所有未来可能性,但AI的确为游戏开启了许多新机遇。
提问:你最期待的AI应用类型是什么?
谢尔盖·布林:目前我最激动的应用是我们正在尝试的1.5 Pro版本中关于长上下文的试验,无论是输入大量代码还是视频。我看到有人输入自己的代码和录制的视频,指出这里有个bug,模型居然能够在代码中识别出bug所在。
这种能力令人难以置信,我真的不明白模型是如何做到的,我们正在探索利用长上下文解决更多复杂问题的可能性。当前的情况是服务器资源紧张,但大家应该继续尝试利用长上下文解决问题。
提问:你提到了几次你不确定这个模型是如何工作的,或者你不确定它能否做到它所做的事情。你认为我们会达到一个能够真正理解这些模型工作原理的阶段,还是如果我们只是信任模型的开发者不会犯错误,那么这些模型将永远是个黑箱?
谢尔盖·布林:不,我认为我们可以学会去理解这些模型的工作原理。事实上,在训练这些模型时,我们可以尝试上千种不同的能力。一方面,它能够做到某些事情的能领确实令人惊讶,但另一方面,对于任何特定的能力,我们都可以回过头去分析比如查看代码和视频在每一层之间注意力的流向。我们可以深入分析它。
我并不太清楚研究人员在深入分析模型原理方经取得了多大进展,但要真正剖析一个模型为什么能够做到某些事情,需要耗费大量的时间和研究。
而且依我所见,绝大多数剖析工作都是在分析为什么模型做不到某些事情,而不是分析它为什么能够做到。所以我想说,我们大概是可以理解模型的工作原理的,研究人员可能正在朝这个方向努力,但目前大部分精力都放在了弄清楚模型失败的原因上,而不是成功的原因。
提问:是的,在计算机科学领域有一个称为"反射式编程"的概念,指的是程序能够查看并修改自身的源代码。而在人工通用智能(AGI)的研究中也有一个类似的概念叫做"递归自我完善"。那么,你对于语言模型能够修改自己的提示有什么看法呢?这些又与自主性和通用人工智能的建设有何关联?
谢尔盖·布林:是的,我觉得让这些AI程序可以实现自我改进非常令人兴奋。我记得在研究生阶段曾写过一个游戏,就是你在飞行穿越一个迷宫时射击墙壁,墙壁对应着内存中的位,它会翻转那些位,游戏的目标是尽快让它崩溃。虽然这并没有直接回答你的问题,但这是一个自我修改代码的例子,只不过它并没什么实际用途。不过我还是希望人们玩这个游戏,直到计算机崩溃为止。
回到你刚才提出的积极例子,我今天看到人们只是谈论他们。比如开环控制(OpenLoop)对于某些非常有限的领域或许管用,如若没有人为干预引导它,我猜它或许能做出一些持续改进。
但我认为我们暂时还无法在一些重要的领域实现这一点,首先,一百万长度的上下文对于大型代码库来说还远远不够。启动整个代码库可能有难度,但你可以先进行检索,然后进行修改编辑。
我个人可能没有进行足够的实践,但至少在目前看来,我还没有看到复杂的代码会自我迭代并进行改进,不过这的确是一件令人振奋的事。正如我所说,借助人类的辅助,我们绝对有能力做到,比如,我现在就会使用 Gemini 去尝试处理一些代码,但还没有进行过非常开放循环的深度工作。
提问:我很好奇,你怎么看Sam Altman为了芯片筹集七万亿美元的事?你如何从长远的角度看待这个问题?”
谢尔盖·布林:我看到了这则新闻的标题,但我并没有深入研究内容。我猜这可能是个具有一定煽动性的标题或者声明,我不太清楚。他并没有向我要那么多钱,这笔钱我猜测可能是用于芯片开发或者类似的项目。
对于芯片来说我懂得不多,我不是芯片开发的专家,但我感觉这不是一个你可以用钱,或者说是大量砸钱就能解决的问题。
提问:如何平衡训练成本。
谢尔盖·布林:是的,我们大模型的训练的成本的确很高,这是像我们这样的公司必须面对的问题。但我认为,从长远来看,其实用性和效益将非常高。如果我们以人的生产力来衡量,大语言模型能在一周的工作中为某人节省一个小时的时间,那么这个小时的价值是巨大的。而且,使用这些技术的人或者即将使用这些技术的人是非常多的。不过,这确实是对未来的一种冒险投资,但它的成本不过七万亿美元。
提问:会在手机等终端设备上运行模型吗?
谢尔盖·布林:对,模型会在其他终端设备上运行。我们已经将它部署到了安卓版的Chrome,还有就是像 Pixel 手机这样的设备上。如今Chrome浏览器也可以运行相当不错的模型,我们最近开源了Gemma模型,它只有几十亿参数规模还较小。
在设备上运行模型非常实用,你不依赖网络连接,时延很低。而且小模型还能调用云端的更大模型,所以我认为在终端设备上运行模型是一个非常好的选择。
提问:你认为哪些行业或领域会受到的影响最大,创业公司应该考虑去挖掘一下哪些行业?
谢尔盖·布林:哪些行业有巨大的机会呢?我觉得这很难预测,但有一些机会非常明显的行业,比如客户服务,或者分析各种不同长度的文档,进行工作流程自动化,我想这些都是人们能想到的。
但我认为还有一些不太明显的行业,我无法预测,特别是看到这些特定的多模态模型所拥有的惊人能力,这就是为什么我们请你们所有人来的原因,你们才是真正的创新者,能找到这些机遇所在。
提问:看起来Gemini成本更低,效果甚至更好,响应非常迅速,所以我想问的是,它会一直保持这个水平吗,还是你们计划在将来提高价格呢?
谢尔盖·布林:我预计我们不会提高价格。实际上,我并不太了解定价的情况,我预计我们不会提高价格,有两个主要的原因。首先,模型推理方面一直在进行优化,每个月都有新的想法和优化方法,日复一日的累积起来就可以产生显著的效果。我觉得我们的TPU在推理方面确实做得很好,虽然不是GPU,但对于某些推理工作负载来说,TPU的架构配置非常适合。
另一个重要的因素是,我们现在能够让生成的模型规模越来越小而且更有效,无论是架构的变化,训练的变化,还是其他的一些因素,都使得模型即使在同样的规模下也越来越强大,所以我不认为价格会上涨。
提问:你对人工智能将如何影响医疗保健和生物技术有何预测?
谢尔盖·布林:AI在医疗保健和生物技术方面有很多应用场景。
在生物技术领域,人们着眼于AlphaFold等模型进行药物发现,用来理解生命的根本运行机制。我认为你会看到人工智能在这方面做得越来越多,包括研究分子键合,或是阅读并总结期刊文章等。
从患者的角度来看,在这个领域我们还有很长的路要走,因为我们不能仅依赖AI,AI也会犯错误。但我认为未来AI可以提供更个性化的医疗服务,AI 能够更深入地研究个体,包括他们的病史,扫描结果等。通过医生的辅助直接提供更好的诊断和建议,这是可能的。
提问:你们是否在致力于研究非Transformer架构,来更好地进行推理和规划?
谢尔盖·布林:我想现在绝大部分改进工作仍然是基于Transformer架构。我相信公司里肯定会有人对非Transformer架构,过去六七年间,Transformer取得了很大的进步,但这并不意味着未来不会出现新的颠覆性的架构。
另外一些例如稀疏化等渐进式改进,虽然仍然是Transformer的一部分,但同样可能带来革命性的变化,所以我没有一个确切的答案。
提问:Transformer在推理方面是否存在瓶颈?
谢尔盖·布林:是的,有许多理论研究揭示了Transformer的局限性,比如存在层数上限、无法处理某些特定问题等等。但我不太清楚这些理论结果是否能够直接外推到当前的Transformer架构上,因为现实情况往往没有达到理论工作中的假设条件。但我可能会尝试并且也可能会尝试其它架构,这也是很酷的事情。”
提问:如何看待谷歌AR眼镜项目,现在苹果有Vision Pro,你会考虑再给它一次机会吗?
谢尔盖·布林:我感觉我可能做出了一些错误的决定。我当时对谷歌眼镜项目寄予很大期望,现在看来,当时推出谷歌眼镜可能为时过早了一些,我在这个项目上确实犯了一些错误。一方面当时整体技术发展尚未成熟,另一方面我当时将其过于急切地推向市场,没有正确地将它定位为一款原型产品,我本应对其设定更为合理的期望。
我个人对A硬件供应链的了解并不深入,但有很多事情我希望我能做得更好。我个人依然是轻量级小型显示设备的支持者,这样你可以全天佩戴,而不像现在的设备那么笨重。不过苹果的Vision Pro和Oculus等设备确实很令人印象深刻,当亲自体验过后,你就会对那种沉浸式体验赞叹不已。不过我当年的初衷就是追求轻便小型这种体验。
提问:那么,你是否认为Gemini在扩展能力方面有可能向3D或者空间计算,甚至是模拟世界的方向延伸?在谷歌眼镜之后,谷歌已经拥有了一些相关的产品,比如谷歌地图,街景,AR核心等等。你是否认为这些产品之间存在某种协同效应?
谢尔盖·布林:这是一个好问题,坦白说,我之前并未考虑过这个问题,但现在你这么一说,我们没有理由我们不将更多3D数据等模态融入模,或许会产生一些有趣的事情。
我没有理由不尝试将这些能力加入到已经拥有文本理解能力的模型中。话说回来,也许Gemini的团队已经在做这方面的工作了,我不太清楚。
提问:你是否乐观地认为我们能够将“幻觉”能力引入文本生成模型?你怎么看待它可能导致传播虚假信息的伦理问题?
谢尔盖·布林:这确实是当前面临的一个重大问题。毫无疑问,随着时间的推移,我们减少了人工智能的“幻觉”,我非常期待它们的误判率能够接近零,那将成为一项突破。但是,我们不能仅寄希望于突破性进展,我们将继续做各种我们能做的事情,希望随着时间的推移,错误率能够持续地降低。
错误信息是一个复杂的问题,你不希望你的AI机器人编造事实,但他们也可能被误导,这涉及到许多复杂的政治问题,关于不同的人如何看待真假信息,这引发了一场广泛的社会辩论。
另一个需要考虑的问题是,AI是否会被外部行为体操纵而故意生成虚假信息。从这个角度来看制造一个错误频发的 AI 其实不难。你可以对任何开源文本模型做些调整,就能生成各种虚假信息。如果你不关心准确性,这很容易做到。
因此,我认为,检测AI生成内容是一个重要的领域,我们也在致力于此,这样至少你可以识别某些内容是否由AI生成。
提问:英伟达的CEO黄仁勋曾经说过,随着人工智能即将普及,程序员未来会消失,你怎么看?作为程序员,我们如何保护自己的职业?
谢尔盖·布林:我们确实无法完全预测AI的未来走向。经过多项研究,我们发现,AI似乎会影响诸多职业,包括平面设计师、客户经理、医生、高管等等,所以我不认为程序员是否应该被拿出来单独讨论,实际上对当前的大型语言模型来说,编程可能是最具挑战的任务之一。
但如果你在谈论几十年后的未来,我们应该为此做好准备。很难说,AI是不是会在编程方面变得非常出色,但实际上这种情况适用于任何领域。因此我可能不会特意将编程单独列为"不要学习"的领域,不过我可能也没有办法给出一个很好的答案。
提问:如果很多人开始使用这些AI写代码,这会如何影响IT的安全性?你可以认为,代码可能会导致一些问题被忽视,或者你可以认为我们会得到越来越完善的测试套件,也许信息安全是程序员的一条出路,因为代码总得有人来审查。
谢尔盖·布林:哇,你们都在考虑职业发展问题了。我可能不适合对具体行业给出未来的发展预测,但我确实认为,目前使用AI进行单元测试是很直接的事情,AI在这方面做得很好。所以我的希望是,AI会提高代码安全性而非降低。
通常来说,代码的不安全性在某种程度上源自人们的懈怠,而AI正好比较勤奋。因此,从概率上讲,AI应该会给安全性带来正面影响,但我不会因此劝阻你追求安全性方向的职业。
提问:你们有在人形机器人方面努力吗?
谢尔盖·布林:多年来我们在人形机器人这一领域做了大量工作,收购了很多公司,也出售了很多公司。现在有无数家公司在做人形机器人,我们内部也有团队从事各种形式的机器人研究。
我对此有何看法?一般来说,在这股新的AI浪潮之前,我更专注于硬件项目。但我发现硬件方面的工作更为艰难,无论是考虑技术层面还是商业落地层面。
我并不是在劝阻人们从事这一领域,我们确实需要人员投入。但与此同时,软件和AI的进步速度是如此之快,我觉得那才是火箭飞船。如果我现在分心去支持当前的AI硬件制造,这可能并不是最好的时间投资,相比之下我更应该着眼于下一代AI的支持。
提问:考虑到广告收入,你如何看待广告无所不在的趋势?
谢尔盖·布林:作为涉足这一领域的人,我对商业模式的变迁并不太担心。我认为,25年来我们为所有人提供世界一流的信息搜索服务,这一点是了不起的,而这是通过广告收入来支撑的。无论是非洲的孩子还是美国的总统,他们都能获取到同等的基础信息,这是一件好事。
同时,我预计商业模式将随着时间的推移进行演变,广告模式或许仍会存在,但AI能更好地个性化定制广告,这是我个人比较赞同的。但即使最终我们的Gemini Pro需要借鉴其他公司的付费模式,最重要的是为你能提供大量的价值,用AI来取代那些原本需要大量精力的工作,节省你的时间和劳动力,搜索也是这样,所以我个人觉得只要能创造出巨大的价值,我们就能找到相应的商业模式。
提问:我觉得Google搜索的未来会怎样?
谢尔盖·布林:我认为搜索的未来非常令人兴奋,因为AI大幅提高了回答问题的能力。我认为更大的机会在于那些需要对信息进行深度挖掘的情况,比如你提出一个很专业的问题,或者这个问题与你自己的个人情况有关,这些都是互联网上还没有人写过的内容。对于已经有无数人思考并写下答案的热门问题来说,AI的优势就没那么大了。
但对于那些你当下特别关注的具体问题,AI就是一个巨大的机会。
提问:那AI对于延年益寿有何作用?
谢尔盖·布林:我没有什么神奇的长生不老秘诀。但毫无疑问,AI对这个领域是有益的。无论你是研究人员,还是只想让AI为你总结文章,未来AI都可能为你提出新的假设去实验验证。就像当前的AlphaFold解开了蛋白质结构这类分子层面的问题,但或许将来能处理更复杂的系统。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。