天景科技苑

这个屌丝很懒，什么也没留下！

热门标签

美团外卖AI助手来了！_微软 vasa-1

作者：天景科技苑 | 2024-07-21 20:27:55

踩

微软 vasa-1

B站：啥都会一点的研究生
公众号：啥都会一点的研究生

最近AI又有啥进展？一起看看吧~

美团内测外卖助手“问小袋”

继AI电商后，AI也开始卷向本地生活服务行业，美团于近日测试了面向C端用户的AI助手服务“问小袋”，类似于电商平台的AI导购功能，可为用户推荐符合其需求的外卖商品，以及用餐建议。目前，AI助手服务“问小袋”已在美团外卖平台中开启小范围测试

https://mp.weixin.qq.com/s/wu-jxd-nOlH8jq-I1CLm6g

阿里推出代码大模型CodeQwen1.5，支持92种编程语言

CodeQwen1.5 基于 Qwen 语言模型初始化，拥有 7B 参数的模型，其拥有 GQA 架构，经过了 ~3T tokens 代码相关的数据进行预训练，共计支持 92 种编程语言、且最长支持 64K 的上下文输入。CodeQwen1.5 展现出了非凡的代码生成、长序列建模、代码修改、SQL 能力等，该模型可以大大提高开发人员的工作效率，并在不同的技术环境中简化软件开发工作流程

https://qwenlm.github.io/zh/blog/codeqwen1.5/

报告预测中国AIGC应用市场规模将达到200亿，2030年将达万亿元

《中国AIGC应用全景报告》在北京举行的中国AIGC产业峰会上发布。报告预测，2024年我国AIGC应用市场规模将达到200亿，到2026年，中国AI市场规模将达千亿级别。2030年，我国AIGC应用将成为万亿规模市场，未来五年（2024-2028年）平均复合增长率超过30%

https://www.thecover.cn/news/Sq09Rab6AEOH90qSdq8Jkw==

昆仑万维：中国首个音乐 SOTA 模型天工 SkyMusic 音乐大模型开启公测

昆仑万维宣布天工 3.0 大模型性能提升显著，旗下的天工 SkyMusic 音乐大模型也在今日面向全社会开放公测

天工 3.0 拥有 4000 亿参数，超越了 3140 亿参数的 Grok-1，是全球最大的开源 MoE 大模型。天工 3.0 在语义理解、逻辑推理、通用性、泛化性、不确定性知识、学习能力等领域性能提升显著，数学 / 推理 / 代码 / 文创能力提升超过 30%。天工 3.0 新增了多轮搜索与综合工具调用、图表绘制、研究模式、增强模式、改图扩图等多项 AI 能力

https://www.ithome.com/0/762/373.htm

Meta推出Llama 3

Llama 3 终于来了！Meta 推出Llama 3家族的前两个模型供广泛使用：具有80亿和700亿参数的预训练和指令微调语言模型。Meta 称这些模型是目前80亿和700亿参数规模下表现最好的模型，其推理、代码生成和指令遵循能力得到了显著提升，使Llama 3 更具可控性

但这还不是全部，Meta 还在训练参数超过4000亿的大型模型，未来几个月，Meta 将发布具备多项新功能的多个模型，包括多模态性、多语言对话能力、更长的上下文窗口以及更强大的整体能力

Llama 3 模型很快将在 AWS、Databricks、Google Cloud、Hugging Face、Kaggle、IBM WatsonX、Microsoft Azure、NVIDIA NIM 和 Snowflake 等平台上推出，并得到 AMD、AWS、Dell、Intel、NVIDIA 和 Qualcomm 等公司提供的硬件平台支持

https://ai.meta.com/blog/meta-llama-3/

英特尔推出全球最大类脑计算机

英特尔推出世界上最大的神经形态计算机，模拟人脑工作原理，不同于传统计算机，而是利用人工神经元将计算与存储相结合。这款计算机拥有11.5亿个神经元，能耗仅为传统机器的百分之一。每秒可执行3.8万亿次突触操作。这一突破性的技术有望革新人工智能领域，并提升节能计算的能力

https://www.newscientist.com/article/2426523-intel-reveals-worlds-biggest-brain-inspired-neuromorphic-computer/

微软VASA-1利用音频生成栩栩如生的说话人脸

微软研究院的开创性项目VASA-1推出了一个令人瞩目的框架，该框架可以从单张静态图像和一段语音音频中生成栩栩如生的说话人脸

这一前沿模型实现了精致的唇部同步，捕捉了丰富的面部细微差别和自然头部动作，从而生成超逼真的视频

https://www.microsoft.com/en-us/research/project/vasa-1/

斯坦福报告揭示AI行业主导地位及训练成本上升

斯坦福人工智能研究所（HAI）发布的《人工智能指数》报告，对2023年全球人工智能趋势进行了全面概述

报告显示，在人工智能的开发与部署方面，行业已超越学术界。2023年发布的149个基础模型中，有108个（占72.5%）来自行业，而学术界仅有28个（占18.8%）

谷歌（18个）领先，其次是Meta（11个）、微软（9个）和OpenAI（7个）

从地域来看，美国是149个基础模型中的最大来源，共有109个，其次是中国（20个）和英国（9个）。在机器学习模型方面，美国再次位居榜首，拥有61个杰出模型，其次是中国（15个）和法国（8个）

在人工智能模型的训练和计算成本方面，Gemini Ultra以1.91亿美元领先，其次是GPT-4，其训练成本为7800万美元

2023年，人工智能在多个关键人工智能基准测试中达到了人类性能水平，如阅读理解、英语理解、图像分类等

https://aiindex.stanford.edu/wp-content/uploads/2024/04/HAI_AI-Index-Report-2024.pdf

NVIDIA RTX A400和A1000：低成本单插槽GPU

英伟达™（NVIDIA®）推出两款全新台式机图形处理器–RTX A400 和 RTX A1000，进一步丰富了其专业 RTX 显卡产品线。这些新 GPU 旨在为工作站级计算机带来增强的人工智能和光线追踪功能。RTX A1000 GPU 已在经销商处发售，而 RTX A400 GPU 预计将于 5 月上市

NVIDIA RTX A400：凭借24个用于AI处理的张量内核，A400使专业人士能够直接在桌面上运行AI应用程序，如智能聊天机器人和Copilots。可以让创意人员制作出生动逼真的3D渲染效果，此外还配备了四个显示输出，使其非常适合高密度显示环境，如金融服务、指挥与控制、零售等

NVIDIA RTX A1000：配备72个张量内核的A1000为Stable Diffusion等工具提供3倍更快的生成式AI处理速度。它在视频处理方面表现出色，因为可以处理多达38%的更多编码流，并且与前一代产品相比，解码性能提高了2倍

这两款GPU均采用纤薄的单槽设计，功耗仅为50W，为紧凑、节能的工作站提供了令人兴奋的功能

https://blogs.nvidia.com/blog/ampere-rtx-a400-a1000-ai/

Adobe携手OpenAI、RunwayML和Pika为Premiere Pro带来革新

Adobe计划将生成式AI整合到Premiere Pro中。该公司正在开发自己的Firefly Video Model，并与第三方AI模型如OpenAI的Sora、RunwayML和Pika合作，为编辑时间线带来诸如生成式扩展、对象添加和移除以及生成式B-Roll等功能

这将使编辑人员能够选择最适合其需求的AI模型，从而简化视频工作流程、减少繁琐任务并扩展创意。此外，Adobe还提供“内容凭证”功能，以追踪模型的使用情况

https://blog.adobe.com/en/publish/2024/04/15/bringing-gen-ai-to-video-editing-workflows-adobe-premiere-pro

xAI发布首款多模态模型，配备独特数据集

由马斯克创立的AI初创公司已发布其第一代多模态AI模型Grok-1.5V预览版。该模型将强大的语言理解能力与处理各种视觉信息（如文档、图表、截图和照片）的能力相结合

xAI称Grok-1.5V在多个基准测试中展现出具有竞争力的性能，包括跨学科推理、数学问题解决和视觉问答测试。值得一提的是，在RealWorldQA数据集上的表现尤为出色，该数据集评估AI模型在现实世界的空间理解能力

RealWorldQA数据集由xAI开发，包含700多张来自现实世界的匿名图像，每张图像都配有一个问题和可验证的答案。发布Grok-1.5V和RealWorldQA数据集旨在推动能够有效理解和与现实世界互动的AI模型发展

https://x.ai/blog/grok-1.5v

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/天景科技苑/article/detail/862155