每周AI新闻（2024年第13周）OpenAI语音引擎15秒复刻人声|阿里开源MoE架构大模型|马斯克发布Grok-1.5

作者：weixin_40725706 | 2024-04-26 16:24:35

踩

这里是陌小北，一个正在研究硅基生命的碳基生命。正在努力成为写代码的里面背诗最多的，背诗的里面最会写段子的，写段子的里面代码写得最好的…厨子。

每周日解读每周AI大事件。

欢迎关注同名公众号【陌北有棵树】，关注AI最新技术与资讯。

大厂动向

OpenAI首推语音引擎用15秒音频复刻人声

OpenAI宣布推出语音引擎，输入文本和一个15秒的音频样本，即可生成与原始说话者非常相似的自然人声。这项工具尚未公开。OpenAI认为该技术可用于有声读物、翻译视频和播客内容、改善偏远地区的咨询服务、为有语言障碍的人士提供辅助甚至是帮助恢复声音。

阿里首次开源MoE架构大模型

根据社交平台X，阿里首次宣布开源MoE技术大模型Qwen1.5-MoE-A2.7B，这个模型以现有的Qwen-1.8B模型为基础。Qwen1.5-MoE-A2.7B激活参数为2.7亿，但在一系列基准评估中可以达到7B模型的性能。此外，与7B模型相比，它在训练成本和推理速度上具有显著优势。据官方评测显示，Qwen1.5-MoE-A2.7B在与最佳的7B模型相比取得了非常接近的性能。

GitHub地址：https://github.com/QwenLM/Qwen1.5

Hugging Face地址：https://huggingface.co/Qwen

苹果WWDC定档6月10日，将公布AI战略

苹果宣布全球开发者大会定于太平洋时间2024年6月10日-14日举办。彭博社记者马克·古尔曼（Mark Gurman）预计，苹果将推出iPhone、iPad、Mac、Vision Pro头显和智能手表的主要软件更新，其新的AI战略将成为计划中的iOS 18升级的前沿和重点。不过，他认为苹果并不打算在iOS 18升级中推出自己的聊天机器人。

字节提速AI：Flow部门下设四大业务线

据新浪科技报道，字节跳动近日上线的AI角色互动社交app“话炉”由字节跳动的Flow部门打造。新浪科技独家获悉，Flow部门隶属于字节跳动的产品研发与工程部（内部简称“PDI”），下设四大业务线，包括AI教育、国际化、社区和豆包。“话炉”属于社区业务线。

苹果与谷歌洽谈将Gemini引入iPhone

据彭博社报道，苹果已经与Alphabet旗下谷歌、OpenAI、Anthropic等外部AI合作伙伴就iOS 18服务进行了洽谈。在美国，最活跃的是与谷歌的洽谈，想法是让Gemini在苹果操作系统中为聊天机器人提供动力，而苹果自己的AI引擎将在整个新软件中处理更多的幕后任务。

创业 & 投融资

亚马逊完成对Anthropic 40亿美元投资

亚马逊宣布完成对Anthropic 40亿美元的投资，与Anthropic合作，旨在向全球客户提供最先进的生成式AI技术。Anthropic选择亚马逊云科技（AWS）作为其关键任务工作负载的主要云服务提供商，包括安全性研究及未来基础模型开发。Anthropic将利用Amazon Trainium和Amazon Inferentia芯片来构建、训练和部署未来的模型，并承诺为全球亚马逊云科技客户提供对其未来基础模型在Amazon Bedrock上的长期访问权限。

对话式AI创企Hume获5000万美元融资

据福布斯报道，总部位于纽约的Hume正在构建一种对话式AI，声称可以根据人们的声音解释情绪，近日以2.19亿美元的估值筹集了5000万美元的B轮融资。

AI视频生成创企HeyGen正进行6000万美元融资

据The Information援引知情人士消息，AI视频生成创企HeyGen正在融资6000万美元，早期风险投资公司Benchmark将领投这轮尚未结束的融资，其投资前估值为4.4亿美元，是4个月前估值的6倍。HeyGen利用AI为视频生成化身和语音。

产品 & 模型

Databricks推出开源通用大模型DBRX

根据美国数据智能公司Databricks官网，Databricks推出一个开源通用大模型DBRX。DBRX采用专家混合模型（MoE）架构，参数规模达132B，在12T文本和代码数据标记上预训练而成。通过一系列标准基准，DBRX测评超过了Llama2-70B、Grok-1、Mixtral等模型。此外，它为开放社区和企业提供了以前仅限于封闭模型的API功能。根据Databricks测试，DBRX超越了GPT-3.5，并且与Gemini 1.0 Pro表现相当。

中国10亿参数规模以上大模型数量超100个

中国发展高层论坛2024年年会落下帷幕。国家数据局局长刘烈宏称，生成式AI的快速发展对算力提出了更高、更迫切的需求，全国一体化算力体系建设的必要性愈益突出。刘烈宏谈道，我国数据生产量和存储量快速增长，为智慧城市建设运行、工业互联网利用等数智化应用提供了丰富的“原料”。以AI为例，中国10亿参数规模以上的大模型数量已超100个，行业大模型深度赋能电子信息、医疗、交通等领域，形成上百种应用模式，赋能千行百业。

360智脑70亿参数模型将开源

据新浪财经报道，360创始人周鸿祎近日在直播中透露，即将开源360智脑70亿参数模型，支持360k即50万字长文本输入。据了解，360k在国内目前开源的长文本能力中最长。周鸿祎透露，360智脑长本文能力目前已入驻大模型产品“360AI浏览器”，认为小模型速度快，用户体验也好，并且单机单卡就能跑起来，性价比更高。360AI浏览器已向用户免费开放100万字长文本处理功能。

马斯克发布Grok-1.5 上下文128k硬刚GPT-4

马斯克的xAI公司在官网上正式发布Grok-1.5大语言模型。Grok-1.5在HumanEval基准上得分74.1%，一举超过GPT-4；在编码和数学推理任务方面，Grok-1.5在MATH基准上取得了50.6%的成绩，在GSM8K基准上取得了90%的成绩，提升显著。此外，该模型可以处理更长、更复杂的提示，支持上下文长度达128k tokens，看齐GPT-4。Grok-1.5将在未来几天内向早期测试人员和X平台上现有Grok用户提供服务。

腾讯开源“照片说话”视频生成框架

根据arXiv，腾讯团队在3月26日发表的论文中开源了音频和照片驱动的视频生成框架AniPortrait。该方法分为两个阶段，最初，团队从音频中提取3D中间表示并将其投影到一系列2D面部标识中。随后，团队采用鲁棒的扩散模型，结合运动模块，将标识序列转换为逼真且时间一致的肖像动画。实验结果证明了AniPortrait在面部自然度、姿势多样性和视觉质量方面表现优异，从而增强了感知体验。

论文地址：https://arxiv.org/abs/2403.17694

GitHub地址：https://github.com/Zejun-Yang/AniPortrait

讯飞星火大模型预计6月发4.0版本对标GPT-4

36氪获悉，科大讯飞副总裁、研究院院长刘聪在博鳌2024年会现场表示，科大讯飞计划在今年6月正式发布对标GPT-4 （Turbo）当前能力的讯飞星火大模型V4.0版本。

阿里等发布基于3D的人物图片转视频模型Champ

3月22日，阿里、南京大学、复旦大学团队合作发布基于3D的人物图片转视频动画模型Champ，预训练模型已开源。该方法利用SMPL模型作为三维人体参数模型，建立统一的人体形状和姿势表示法。具体来说，作者将从SMPL序列中获取的渲染深度图像、法线映射和语义映射与基于骨骼的运动引导结合起来，用全面的三维形状和详细的姿势属性来丰富潜在扩散模型的条件。据悉，该项目成果是基于此前通义千问“全民舞王”底层技术AnimateAnyone构建。

项目地址：
https://fudan-generative-vision.github.io/champ/#/

论文地址：
https://arxiv.org/abs/2403.14781

Stability AI开源代码生成模型

AI创企Stability AI发布代码生成模型Stable Code Instruct 3B，它是基于Stable Code 3B的指令调整代码模型。通过自然语言提示，该模型可以处理各种任务，如代码生成、数学和其他与软件开发相关的查询。在软件工程相关任务方面，该模型在3B规模上提供了最先进的性能，超过了CodeLlama 7B Instruct等更大规模的模型，与StarChat 15B的性能不相上下。

阶跃星辰发布Step系列通用大模型

上海通用大模型创企阶跃星辰3月23日发布Step系列通用大模型，包括Step-1千亿参数语言大模型、Step-1V千亿参数多模态大模型，以及Step-2万亿参数MoE语言大模型的预览版，提供API接口给部分合作伙伴试用。基于Step-1和Step-1V千亿参数大模型的产品效率工具跃问和AI开放世界平台冒泡鸭已经全面开放。

如果觉得不错，随手点个赞、评论、转发吧。我是陌小北，一个正在研究硅基生命的、有趣的碳基生命。如果你想第一时间看到我的文章，欢迎关注。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/weixin_40725706/article/detail/491990