一键难忘520

这个屌丝很懒，什么也没留下！

热门标签

每周AI新闻（2024年第11周）Meta公布Llama 3集群细节 | Sora将于年内推出 | 全球首个AI软件工程师发布_sora用电量是gpt的多少倍

作者：一键难忘520 | 2024-06-19 00:01:23

踩

sora用电量是gpt的多少倍

这里是陌小北，一个正在研究硅基生命的碳基生命。正在努力成为写代码的里面背诗最多的，背诗的里面最会写段子的，写段子的里面代码写得最好的…厨子。

每周日解读每周AI大事件。

欢迎关注同名公众号【陌北有棵树】，关注AI最新技术与资讯。

大厂动向

Meta公布Llama 3训练集群细节

Meta宣布推出两个24576-GPU数据中心规模集群，将其称作“Meta对AI未来的重大投资”，并公布其GenAI基础设施细节，涉及硬件、网络、存储、设计、性能和软件的详细信息。Meta使用这种集群设计进行Llama 3训练。到2024年底，Meta的目标是继续扩大基础设施建设，包括35万块英伟达H100 GPU，作为其产品组合的一部分，将具有相当于近60万块H100的计算能力。

Meta每天处理数百万亿个AI模型执行，因此基于Arista 7800以及Wedge400和Minipack2 OCP机架交换机构建了一个具有融合以太网远程直接内存访问（RDMA）（RoCE）网络结构解决方案的集群。另一个集群采用英伟达Quantum2 InfiniBand结构。这两种方案都互连400 Gbps端点，都是用Meta内部设计的开放GPU硬件平台Grand Teton构建的。Meta还结合英伟达NCCL更改优化了网络路由策略，以实现最佳的网络利用率。

谷歌发布通用游戏AI智能体

谷歌DeepMind团队发布了可扩展、可指导的多世界智能体SIMA（Scalable Instructable Multiworld Agent），该智能体可以遵循自然语言指令在各种视频游戏环境中执行任务，从个别游戏转向通用的、可指导的游戏AI智能体。据介绍，SIMA适用于3D虚拟环境，可通过语言接口将先进的AI模型能力转化为有用的现实世界行动。

Sora将于年内推出拟增加语音功能

据《华尔街日报》报道，OpenAI CTO米拉·穆拉蒂（Mira Murati）在采访中透露，文生视频工具Sora将在今年内发布，未来计划增加语音功能。她称，时长20秒、分辨率720P的视频仅需几分钟就能生成。

ChatGPT每日耗电量是普通家庭的1.7万倍

据《纽约时报》报道，聊天机器人ChatGPT每天需要处理超过2亿次请求，其电量消耗可能高达每天50万千瓦时。相比之下，美国普通家庭每天的平均用电量仅为29千瓦时，这意味着ChatGPT的日耗电量是普通家庭的1.7万倍以上。

苹果多模态大模型研究进展公布

根据arXiv，苹果研究人员公布了最新多模态大模型研究成果MM1，这一系列模型参数最高为30B。得益于大规模的预训练，MM1具有增强的上下文学习和多图像推理等能力，可以实现少量的思维链提示。

论文地址：https://arxiv.org/pdf/2403.09611.pdf

GPT-4.5 Turbo疑似曝光网传可能6月发布

网友发现GPT-4.5 Turbo的信息疑似在搜索引擎上被提前泄露，Bing、DuckDuck Go等搜索引擎已对GPT-4.5 Turbo产品页面建立了索引。根据泄露信息，GPT-4.5 Turbo有256k上下文窗口，知识截止日期是2024年6月。

苹果开测AI广告产品

据Business Insider报道，苹果已经开始测试一款类似于谷歌Performance Max的AI广告产品，希望为其年收入70亿美元的广告业务提供动力。这款AI工具用于优化App Store的广告活动，能自动决定在App Store中放置广告的位置，与谷歌的Performance Max和Meta的Advantage+功能相仿。苹果已开始在一小群广告客户中测试该产品，预计将在未来几个月正式推出这款产品。

谷歌新研究：模型窃取攻击程序，获取模型关键信息

根据arXiv，谷歌于3月11日推出了首个模型窃取攻击程序，该程序从OpenAI的ChatGPT或谷歌的PaLM-2等黑盒生产语言模型中提取精确的、重要的信息。具体来说，在给定典型的API访问的情况下，研究人员的攻击恢复了Transformer模型的嵌入投影层。其攻击运行花费不到20美元，提取了OpenAI的Ada和Babbage语言模型的整个投影矩阵。由此，团队首次确认这些黑盒模型的隐藏维度分别为1024和2048。团队还恢复了GPT-3.5-turbo 模型的精确隐藏维度大小，并估计恢复整个投影矩阵的查询成本低于2000美元。

论文地址：https://arxiv.org/pdf/2403.06634

OpenAI开源Transformer结构分析工具

根据社交媒体X，OpenAI超级对齐团队联合负责人Jan Leike宣布，OpenAI开放了自己内部一直用于分析Transformer内部结构的工具。该工具结合了自动可解释性和稀疏自动编码器，允许开发者快速探索模型而无需编写代码。

GitHub地址：https://github.com/openai/transformer-debugger

创业 & 投融资

Physical Intelligence获OpenAI投资为机器人研发“大脑”

据彭博社报道，AI创企Physical Intelligence已融资7000万美元，投资方包括OpenAI、Thrive Capital、Sequoia Capital、Greenoaks Capital Partners、Lux Capital、Khosla Ventures等。Physical Intelligence由机器人和AI专家团队组成，计划创建可以为各类机器人和机器添加高级智能的软件，希望将用于构建语言模型的技术与自己的控制和指导机器的技术相结合，最终目标是创建一个作为一种通用机器人系统的人工智能。

AI基础设施平台Together AI完成1.06亿美元融

据路透社报道，英伟达支持的AI基础设施创企Together AI近日完成1.06亿美元融资，由Salesforce领投，Coatue Management等老股东跟投。自去年秋天以来，随着投资者纷纷支持生成式AI初创公司，其估值翻了一番，此次融资对Together AI的估值为12.5亿美元。

AI芯片创企篆芯获2亿元融资

据硬氪报道，篆芯半导体南京有限公司日前完成2亿元A2轮融资，此次融资由隆湫资本领投，睿悦投资、柠盟投资、君盛资本、卓源亚洲、华方资本等多家新老股东跟投。本轮融资资金将用于技术研发和产品升级。据悉，篆芯于2021年成立，主要业务是为AI、云计算、万物互联时代打造网络芯片，服务国内主流的网络设备提供商。篆芯即将推出第一款芯片“兰亭”，其具备高性能、可编程交换的特性，在云计算数据中心、园区网、核心骨干网等关键基础设施中均可适配。

AI Agent创企Nanonets获2900万美元融资

AI Agent创企Nanonets宣布获得2900万美元B轮融资，由Accel India领投，Elevation Capital、YCombinator等现有投资者参投。其累计融资金额达4200万美元。Nanonets的使命是为各种规模的企业解锁被困数据，把最重复、最平凡的办公室工作自动化。有了Nanonets的自主AI Agents，企业可在几乎任何数据上运行任何业务工作流。

爱诗科技获亿元级融资原字节高管创业

爱诗科技近日已完成亿级人民币A1轮融资，由达晨财智领投，光源资本担任独家财务顾问。同时，国内版爱诗视频大模型上线内测。爱诗科技创立于2023年4月，创始人王长虎毕业于中国科学技术大学，曾历任微软亚洲研究院主管研究员、字节AI实验室技术总监、字节视觉技术负责人等职位，爱诗科技聚焦AI视频生成大模型及应用，其视频生成产品PixVerse海外版已于2023年11月上线。

产品 & 模型

全球首个AI软件工程师发布

由华人团队创办的Cognition AI宣布推出世界上首个全自主AI软件工程师Devin，据悉能在几分钟内独立完成整个软件项目。随着其在长期推理和规划方面的进步，Devin可计划和执行需要数千个决策的复杂工程任务，能够在每一步中回忆起相关的上下文，随时间推移学习并修正错误。Cognition AI团队共10人，其中8位是华人，已获得由Founders Fund领投的2100万美元A轮融资。

Claude 3 Haiku正式上线

AI大模型创企Anthropic发布了Claude 3 Haiku，这是同系列中速度最快且最实惠的型号，该模型现已与Sonnet和Opus一起在Claude API和claude.ai上为Claude Pro订阅者提供。

Midjourney测试新算法支持生成“一致角色”

根据社交平台X，Midjourney宣布正在测试新算法，以帮助用户在图像中拥有“一致的角色”，从而让用户更好地用生成的图片讲故事，新算法对Midjourney MJ6和Midjourney Niji6版本都可用。

零一万物API上线支持输入30万汉字

大模型创企零一万物发布了Yi大模型API（应用程序接口）开放平台。据悉，此次 API 开放平台提供以下模型：Yi-34B-Chat-0205，支持通用聊天、问答、对话、写作、翻译等功能；Yi-34B-Chat-200K，支持200K 上下文，多文档阅读理解、超长知识库构建；Yi-VL-Plus多模态模型，支持文本、视觉多模态输入，中文图表体验超过GPT-4V。

3D视觉语言动作生成世界模型发布

根据arXiv，一篇论文介绍了3D视觉-语言-动作生成世界模型3D-VLA。研究人员通过引入一系列新的具体化基础模型来提出3D-VLA，这些模型通过生成世界模型无缝链接3D感知、推理和行动。具体来说，3D-VLA 构建在基于3D的大语言模型之上，并引入了一组交互令牌来与具体环境进行交互。研究保留数据集的实验表明，3D-VLA提高了具体环境中的推理、多模态生成和规划能力。

Covariant推出机器人基础模型RFM-1

3月11日，Covariant宣布推出基于真实世界多模态机器人数据的基础模型RFM-1，以赋予机器人类似人类的推理能力。该模型能在物理世界的苛刻条件下准确地模拟和操作。它是一个多模态any-to-any序列模型，拥有80亿参数，经过文本、图像、视频、机器人动作和一系列数值传感器读数的训练。其训练数据既包括常见的互联网数据，也包括丰富的现实世界物理交互数据。RFM-1对物理的理解来自于学习生成视频，通过初始图像和机器人动作的输入标注，它作为物理世界模型来预测未来的视频标注。

如果觉得不错，随手点个赞、评论、转发吧。我是陌小北，一个正在研究硅基生命的、有趣的碳基生命。如果你想第一时间看到我的文章，欢迎关注。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/一键难忘520/article/detail/734719