赞
踩
《从Sora看多模态大模型发展》的研报来自浙商证券,写于2024年2月。
这篇报告主要探讨了多模态大模型的发展趋势,特别是OpenAI发布的视频生成模型Sora,以及其对行业发展的影响。以下是报告的核心内容概述:
视频压缩网络(Video compression network):减少视觉数据维度。输入原始视频,输出一个在时间和空间上都压缩了的潜在空间。Sora在这个压缩后的潜在空间中进行训练。(同时训练了一个解码器将生成的潜在表征转回原像素空间)
潜空间patch(Spacetime latent patches ):类比Transformer tokens,推理时通过在合适大小的网格中随机初始化patch控制生成视频的大小。
直接在原始图片的大小上训练:过去往往将视频或者图片压缩到固定大小(比如4秒钟、分辨率256*256),Sora直接在原始素材规格上训练。
为视频训练素材生成详细字幕和标注:Re-captioning technique字幕自动生成。首先训练一个能生成详细描述的标注模型,然后用它为训练集中的视频生成文本说明。DALL E3中已经使用过,使用GPT将简短prompt转化为详细说明,这些说明会被输入到视频模型中。这可以增强文本理解能力,可以提高文本的保真度和视频的整体质量,使得Sora能够生产准确遵循用户提升的高质量视频。
Sora核心能力:3D一致性、物体持久性、世界交互、模拟数字世界
Sora模型的局限性:虽然能模拟一些基础物理互动,比如玻璃的碎裂,但还不够精确;
其他相互作用,比如吃食物,并不总是能产生物体状态的正确变化;
长视频中存在逻辑不连贯,或者物体会无缘无故出现的现象。
公司名称 | 代码 | AI+视频相关业务/产品 |
---|---|---|
科大讯飞 | 002230.SZ | 国产大模型龙头,多模态领域技术积累深厚 |
海康威视 | 002415.SZ | 研发视觉多模态大模型 |
大华股份 | 002236.SZ | 自研大华星汉大模型 |
云从科技-UW | 688327.SH | 国内CV领域龙头厂商之一 |
焦点科技 | 002315.SZ | AI外贸虚拟人视频助手 |
虹软科技 | 688088.SH | 视觉AI开放平台 |
万兴科技 | 300624.SZ | AI视频领域龙头,“天幕”大模型 |
国投智能 | 300188.SZ | AI视频图像鉴真工作站 |
当虹科技 | 688039.SH | AI智能视频解决方案 |
网达软件 | 603189.SH | 积极推动“大视频+AI"在垂直领域的布局 |
丝路视觉 | 300556.SZ | 子公司是视频染技术龙头 |
商汤-W | http://0020.HK | “日日新SenseNova"大模型 |
拓尔思 | 300229.SZ | 并面向媒体、金融、政务领域、拓天大模型 |
汉王科技 | 002362.SZ | 笔智能交互、NLP技术、大数据处理、智能人机交互、垂直领域大模型 |
- AI技术迭代不及预期的风险。
- AI商业化产品发布不及预期的风险。
- 政策不确定性带来的风险。
- 下游市场不确定性带来的风险。
报告还详细分析了多模态AI的核心技术环节、Sora模型的技术路线和应用案例,以及国内外其他厂商的AI视频生成算法及工具。此外,报告对AIGC在视频领域的商业化现状与展望进行了探讨,并预测了千亿级数字视频生成市场的未来潜力。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。