赞
踩
2023 年 11 月 30 日,Pika 结束测试,正式对外发布了第一款产品 Pika 1.0。Pika 1.0 的视频生成质量较高,支持 3D 劢画、劢漫戒申影等多种视频风格,用户还可以通过 Pika 对视频迚行编辑,比如画布延展、局部修改、视频时长拓展等。目前,Pika 团队已经上线最新官网,需要排队甲请试用。Pika 已经获得 5500 万美元融资(估值近 2 亿美元)。
Pika 1.0 视频生成具备多种丰富,目前用户可在 Discord 使用 Pika 服务器。视频效果优质,拥有电影质感,动画级特效。从像素风到到黑白幻灯片效果,演示出的 5 种风格转化,几乎涵盖了现有申影和劢画大部分风格。支持对于视频实时编辑和修改。可以直接在视频中添加想要的素材,支持三
种模态的提示输入。
对比竞品 Runway ML,时长斱面,Runway ML 免费用户生成的视频时长为 4 秒,但可以通过会员付费等斱式延长视频时长,Pika 生成的视频为 3 秒,在 Discord 的服务器上无法延长时间。画质斱面,对比 Pika 和 Runway ML 针对同一段文字生成的视频,Pika 生成的视频画面更具劢态感和立体感。
Pika labs创立于2023年4月,为由斯坦福华人博士生郭文景等4人初创的公司,创立初衷在于构建更易使用的的AI视频生成工具,目前Pika用户超50万,每周生成数百万个视频。Pika 1.0支持文字、图片和视频三种模态的提示输入,能够实现低成本高效生成视频,Pika的迅速出圈打开了多模态AI应用的想象空间。
英特尔计划于 2023 年 12 月 14 日正式推出首个 AI PC 处理器 Meteor Lake。Meteor Lake 采用分离式模块化设计,由 CPU 模块、SoC 模块、GPU 模块以及 IO 模块四大独立模块组成,并通过 Foveros 3D 封装技术实现极低功耗和高密度的晶片连接。
AI PC,即 CPU 集成 AI 引擎的 PC,对语音、图像信息具备 AI 感知能力,同时软件系统兼容 AI 搜索、内容生成、智能推荐等 AI 应用,并能够贡献 AI 算力。
谷歌于 2019 年推出了 Translatotron S2ST 系统,于 2021 年 7 月推出第 2 个版本,在 2023 年 5 月 27 日发布的一篇论文中,宣布正在部署新方法,训练 Translatotron 3。12 月 2 日,谷歌正式发布 Translatotron 3 的新 AI 模型,无需任何并行语音数据下,可以实现语音对语音的同声传译翻译。该模型的推出,这标志着谷歌公司在人工智能语音翻译领域的一项重要突破。
11 月底,Runway 正式推出了“运动画笔”(Motion Brush)功能,让你的图片变成视频 ,迅速动起来。这个新运动画笔功能有望成为创作者可以用来为 AI 制作的图像和视频添加运动元素的另一个强大工具。不仅仅是任何运动,而是可以添加到特定区域的非常精确和受控的运动。运动画笔工具的工作原理是允许用户在其视频生成中添加受控运动。它的工作原理是允许用户“绘制”一个区域或主题,然后选择一个方向并添加强度,然后 Runway 将为该区域添加运动并达到该强度。
12月5日,Runway ML与Getty Images宣布合作开发新的生成式AI视频模型,命名为Runway Getty Images Model(RGM),旨在服务好莱坞和广告行业。RGM不仅仅是一个视频模型,更是为企业提供的基准模型,企业可以在其基础上构建自己的定制模型,用于生成各种视频内容。Runway企业客户可通过使用自有专有数据集对RGM进行微调,这使得在诸如好莱坞制片厂、广告、媒体、广播等各个领域的企业能够提升其创意能力,为视频创作开辟全新渠道,轻松打造符合企业风格和品牌特色、迎合独特受众的愉悦体验。
11月30日,以“践行深度用云,加速智能升级”为主题的华为云行业高峰论坛2023在北京盛大开幕。会上,华为云重磅推出业界首个大模型混合云,并发布《深度用云展望2025》白皮书及深度用云行动计划,希望通过创新技术、理论沉淀及行动举措,助力政企践行深度用云,加速智能升级。未来,所有企业都会使用大模型。源于长期的行业积累,大型企业拥有丰富的私有数据资源,这些私有数据对大模型的训练至关重要。大型政企由于其业务特点,更倾向于将数据留在本地,确保“数据不出域”。因此,基于混合云的大模型将成为未来行业大模型的重要部署形态,既满足业务创新诉求,也缓解企业对数据安全和隐私的担忧。
华为云Stack 8.3在业界率先实现大模型能力基于混合云部署,提供算力平台、云服务、开发套件和专业服务等业界最完整的AI生产链,帮助政企客户一站式建立专属大模型能力。华为云Stack针对大模型场景做了四大优化:
微软发布了 ML.NET 3.0,带来了许多新功能和改进。ML.NET 是一个专为 .NET 开发者设计的开源、跨平台的机器学习框架,可以将自定义的机器学习模型集成到 .NET 应用程序中。在 ML.NET 3.0 中,深度学习方案得到了扩展,新增了目标检测、命名实体识别和问答等功能,这些功能的实现得益于与 TorchSharp 和 ONNX 模型的集成和互操作性。同时,该版本还将集成的 LightGBM 升级到了最新版本。数据处理方面也有改进,DataFrame 引入了一系列增强和错误修复,使得数据的加载、检查、转换和可视化等步骤更加强大。此外,ML.NET 3.0 还引入了 Intel oneDAL 的训练加速功能,可以加快训练过程。Intel oneDAL 是一个用于数据分析的库,通过提供高度优化的算法构建块,加速数据分析和机器学习过程。它通过利用 64 位架构中的 SIMD 扩展,支持 Intel 和 AMD 的 CPU。自动机器学习 (AutoML) 是 ML.NET 3.0 的一个重要功能。AutoML 可以自动化应用机器学习到数据的过程,简化了模型构建的流程。ML.NET 3.0 的 AutoML 针对多个新功能进行了增强,包括支持判断句子相似性、问答和目标检测等任务。
12月1日,昆仑万维发布了「天工SkyAgents」平台,这是一款领先的AI Agents开发平台,基于「天工大模型」打造,用户可以通过自然语言构建自己的单个或多个“私人助理”,执行各种任务。「天工SkyAgents」具备从感知到决策、从决策到执行的自主学习和独立思考能力,用户无需代码编程,即可在几分钟之内部署属于自己的AI Agents。它能够完成行业研究报告、单据填写、商标设计、健身计划、旅行航班预定等多项私人定制需求,并支持一键服务部署,确保其在不同业务系统中的无缝接入。「天工SkyAgents」还具备数据检索增强(RAG)的能力,能够支持导入更多格式和更大规模的数据和知识,结合人工智能技术,平台能够从导入的数据中自动识别关键信息点,形成结构化的知识体系。「天工SkyAgents」不仅能成为你的私人AI助理,还能是你的私人法律专家、私人人力顾问、私人IT大神等。
12月6日,超威半导体(AMD)在美国加利福尼亚州圣何塞推出了其备受期待的MI300系列产品。这可能是AMD五年历史上最重要的发布之一,该公司将在火热的人工智能加速器市场上与英伟达正面对决。AMD提供其最新芯片的两种变体:一款名为MI300X,是一款适用于人工智能计算的GPU。另一款名为MI300A,将图形处理功能与标准中央处理器(CPU)相结合,面向人工智能和科学研究。AMD表示,MI300X芯片是业界当前最先进的人工智能加速器,并称其性能优于英伟达目前的产品。不过这一说法还未得到独立验证。据介绍,MI300X芯片拥有超过1500亿个晶体管,内存密度是目前市场领先者英伟达H100的2.4倍,内存带宽是其1.6倍。
AMD介绍称,与上一代同样搭载锐龙AI NPU的7040相比,8040系列在AI任务上展现了进一步的提升。其NPU的AI性能算力从10TOPS提升到16TOPS,提升了惊人的60%,整体算力也从33TOPS增加到39TOPS。另外,在Llama 2大语言模型和视觉模型环境中,其性能提升均可达到40%。与英特尔酷睿i9 13900H相比,Ryzen8040系列在多线程处理、游戏、内容创作等任务的性能均更加出色。
12月6日,Google发布Gemini大语言模型,它具备三大独特优势,号称超越了GPT-4。首先,Gemini在各种任务中表现出色,包括自然语言处理、数学推理等;其次,Gemini具备多模态模型推理能力,能够处理多种数据类型,如文本、图像、音频和视频;最后,Gemini提供三种不同规模的模型,分别为Gemini Ultra、Gemini Pro和Gemini Nano,以满足不同任务和设备的需要。不过,Gemini最大的特性还是原生多模态(native multimodality),这也是Google多次强调的特性,可以无缝的理解和操作包括文本、代码、音频、图像和视频在内的不同类型的信息。
谷歌对Gemini进行了严格的测试,并评估了其在各种任务中的表现。根据Google发布的测试结果显示,Gemini在32个学术基准测试集中有30个测试集的表现超过了当前最先进的模型,可谓是遥遥领先同行。
谷歌于近日发布最新一代TPUv5p及对应AIHPC,性能倍增。在BF16精度下,TPUv5p的训练速度提升至v4的1.7倍达459TFLOPS,约为H100三分之一,芯片间互联(ICI)带宽提升至v4的2倍达4.8Tbit/s(单卡6接口,单口速率为800Gbit/s);单一POD中最大可互联芯片数上,v5p提升至v4的约2.2倍达8960片,因此v5pPOD最大算力为v4四倍左右;v5p服务器继续沿用3D环形拓扑结构及OCS。谷歌在前代v4服务器上使用了3D环形拓扑结构及OCS(OpticalCircuitSwitch,光路交换机),v5p服务器将继续沿用。参考v4服务器架构,每64个节点组成4×4×4的立方体,每个芯片节点在6个方向上进行连接,其中立方体表面上相对的芯片需连接至同一交换机。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。