【AIGC半月报】AIGC大模型启元：2024.04（上）

作者：Monodyee | 2024-05-04 13:59:00

踩

AIGC大模型启元：2024.04（上）

(1) StreamingT2V（文生视频）

2024.04.01 Picsart人工智能研究所、德克萨斯大学和SHI实验室的研究人员联合推出了StreamingT2V视频模型。通过文本就能直接生成2分钟、1分钟等不同时间，动作一致、连贯、没有卡顿的高质量视频。
　　虽然StreamingT2V在视频质量、多元化等还无法与Sora媲美，但在高速运动方面非常优秀，这为开发长视频模型提供了技术思路。
　　研究人员表示，理论上，StreamingT2V可以无限扩展视频的长度，并正在准备开源该视频模型。

推荐文章： 文本直接生成2分钟视频，即将开源模型StreamingT2V
论文地址： https://arxiv.org/abs/2403.14773
Github地址： https://github.com/Picsart-AI-Research/StreamingT2V（即将开源）

(2) SAFE + LongFact（DeepMind根治大模型幻觉问题）

2024.04.03 Google DeepMind 的人工智能专家团队和斯坦福大学的研究者发布了一篇名为《衡量大型语言模型长篇事实性》（Long-form factuality in large language models）的研究论文，研究者们对长篇事实性问题进行了深度探究，并对语言模型在长篇事实性上的表现进行了全面评估。
　　他们推出了一套新的数据集——LongFact，其中包含了 2,280 个涵盖 38 个不同话题的引导问题；同时，提出了一个新颖的评估方法——SAFE（Self-contained Accuracy with Google Evidence），该方法运用语言模型代理人和Google搜索查询技术来进行评估。

(3) SWE-agent（AI程序员）

2024.04.03 自从“AI 程序员”Devin 问世之后，近期的一大趋势就是程序员们争先恐后地要让自己失业，试图抢先造出比自己更强大的程序员。
　　普林斯顿大学为软件工程界迎来了一位新星——SWE-agent，论文将在 4 月 10 日正式发布，目前项目已在 GitHub 上开源。
　　SWE-agent 的特点就是将 GPT-4 这样的大型语言模型（LLMs）转化为软件工程代理，使其能够修复真实 GitHub 仓库中的错误和问题。SWE-agent 在软件工程基准测试中的准确度与 Devin 相当，在解决 GitHub 仓库问题上的性能甚至超过了 Devin：SWE-agent 平均只需 93 秒就能修完 Bug。
　　完整的 SWE-bench 基准测试结果显示，SWE-agent 修复了 12.29% 的问题，Debin 则是 13.84%——但 SWE-agent 有一大优势：开源。这一成绩也表明，开源模型有能力追赶甚至超越闭源模型的性能。SWE Agent 的高精度显示了其处理复杂软件工程任务的能力。

(4) Stable Audio 2.0（音乐ChatGPT 2.0）

2024.04.04 Stability AI发布了Stable Audio 2.0。
　　普仅仅用一条自然语言指令，它就能以44.1 kHz的立体声质量，创作出高质量、结构完整的音乐作品。
而且，每首曲目最长可达3分钟！相比之下，Suno最长可创作2分钟，这方面可是被Stable Audio 2完爆了。
并且，Audo 2.0的音频到音频功能，目前只有Meta的MusicGen可以做到，连Suno都做不到。
　　模型已经在Stable Audio官网上免费开放使用了，并且很快就能通过Stable Audio API提供服务。

(5) COIG-CQIA（中文指令调优数据集）

2024.04.05 最近，大型语言模型（LLM）取得了重大进展，特别是在英语方面。然而，LLM 在中文指令调优方面仍然存在明显差距。现有的数据集要么以英语为中心，要么不适合与现实世界的中国用户交互模式保持一致。
　　为了弥补这一差距，一项由 10 家机构联合发布的研究提出了 COIG-CQIA（全称 Chinese Open Instruction Generalist - Quality Is All You Need），这是一个高质量的中文指令调优数据集。数据来源包括问答社区、维基百科、考试题目和现有的 NLP 数据集，并且经过严格过滤和处理。
　　此外，该研究在 CQIA 的不同子集上训练了不同尺度的模型，并进行了深入的评估和分析。本文发现，在 CQIA 子集上训练的模型在人类评估以及知识和安全基准方面取得了具有竞争力的结果。

推荐文章： 弱智吧：大模型变聪明，有我一份贡献
论文地址： https://arxiv.org/pdf/2403.18058.pdf
数据地址： https://huggingface.co/datasets/m-a-p/COIG-CQIA

(6) Command R+（LLM）

2024.04.05 知名类ChatGPT平台Cohere在官网发布了全新模型——Command R+。
　　据悉，Command R+有1040亿参数，支持英语、中文、法语、德语等10种语言。最大特色之一是，Command R+对内置的RAG（检索增强生成）进行了全面强化，其性能仅次于GPT-4 tubro，高于市面上多数开源模型。
　　目前，Cohere已经开源了Command R+的权重，但只能用于学术研究无法商业化。想商业应用，用户可以通过微软Azure云使用该模型或者Cohere提供的API。
　　
推荐文章： Cohere发布RAG增强版大模型并开源权重，支持中文、1040亿参数
模型地址：
官方版：https://huggingface.co/CohereForAI/c4ai-command-r-plus
量化版：https://huggingface.co/CohereForAI/c4ai-command-r-plus-4bit

(7) MoD（谷歌更新Transformer架构）

2024.04.08 谷歌终于更新了Transformer架构。最新发布的Mixture-of-Depths（MoD），改变了以往Transformer计算模式。
　　它通过动态分配大模型中的计算资源，跳过一些不必要计算，显著提高训练效率和推理速度。
　　结果显示，在等效计算量和训练时间上，MoD每次向前传播所需的计算量更小，而且后训练采样过程中步进速度提高50%。
　　
推荐文章： 谷歌更新Transformer架构，更节省计算资源！50%性能提升
论文地址： https://arxiv.org/abs/2404.02258

(8) Open-Sora-Plan（国产Sora）

2024.04.10 自从今年 2 月 OpenAI 发布了基于日语词汇“Sora”所开发的惊艳视频生成技术以来，该技术以其能够将简短文本描述转化为高清一分钟视频而引起了全球技术界的广泛关注。北京大学及兔展智能携手于三月启动了开源项目 Open-Sora-Plan，旨在通过开源方式再现 Sora 技术，并训练涵盖无条件视频生成、类似视频生成以及文本驱动视频生成等多个技术模块的综合模型。
　　日前，Open-Sora-Plan 已成功发布了 v1.0.0 版本，显著提升了视频生成效果和文本引导控制功能，目前还在训练更高分辨率（超过 1024）和更长持续时间（超过 10 秒）的视频内容。项目核心技术架构包括 Video VQ-VAE、Denoising Diffusion Transformer 以及 Condition Encoder，其中 CausalVideoVAE 架构尤为关键，它结合了变分自编码器（VAE）和矢量量化（VQ）原理，有效实现视频数据的高效压缩和重建，并且特别优化了对首帧图像的处理，使其既能单独编码静态图像又能无缝应用于视频编码，进而助力扩散模型精准捕捉视频的空间细节，提升视觉品质。
　　
推荐文章： 国产开源Sora：Open-Sora-Plan支持华为昇腾芯片，生成10秒高清视频
GitHub地址： https://github.com/PKU-YuanGroup/Open-Sora-Plan
Hugging Face 在线演示： https://huggingface.co/spaces/LanguageBind/Open-Sora-Plan-v1.0.0

(9) Grok-1.5V（马斯克-多模态模型）

2024.04.15 马斯克推出的多模态模型Grok-1.5V在多项基准测试中超越GPT-4V，具有强大的文档、图标、截图和照片处理能力。通过RealWorldQA基准测试，Grok-1.5V在理解物理世界方面表现出色。未来几个月，图像、音频、视频等多模态上的理解和生成能力将有望得到重大改进。
　　
推荐文章： 马斯克新作！Grok-1.5V多模态模型发布：数字与物理世界完美融合
官网地址： https://x.ai/blog/grok-1.5v

(10) GPT-4 Turbo（GPT-4升级）

2024.04.12 OpenAI 官方宣布，新版 GPT-4 Turbo 今天开始向所有付费ChatGPT 用户开放。知识库截止时间已经更新为 2024 年 4 月。
　　据介绍，字少事大的新版本在写作、数学、逻辑推理和编码等多个方面都有了显著的提升。
　　现在，当你使用 ChatGPT 写作时，你会发现新版本的响应速度更快，交流更加直接，而且它会更多地使用口语化的表达方式。
　　简言之，新版本在写作上更加贴近人类的自然语言习惯，多了一些人味，少了点 AI 味。
　　例如，当你需要发送短信提醒朋友回复生日晚宴的邀请时，以往 GPT 版本会像小莎士比亚一样提供满满的情绪价值，虽然情感丰富，但也显得絮絮叨叨，而现在的回复则更言简意赅，直接传达核心信息。

推荐文章： 刚刚，ChatGPT大更新，GPT-4又变聪明了

(11) Mistral-8×22B（MoE再升级）

2024.04.14 Mistral AI引发了AI领域的广泛关注，他们开源了一款拥有1760亿参数的巨型模型——Mixtral 8x22B。这款模型不仅在规模上达到了前所未有的高度，而且在多个性能基准测试中展示了卓越的能力，确立了新的行业标准。
　　Mixtral 8x22B继续沿用Mistral AI的专家混合（MoE）架构，这是一种将不同的网络专家集成到一个统一框架中的技术，允许模型根据任务需求动态调用最合适的专家处理数据。这种架构不仅提高了处理速度，还显著提升了模型在复杂任务上的表现。
　　该模型的一大创新是其高效的专家选择机制。在每个处理步骤中，模型通过一个专门设计的路由网络决定哪些专家最适合当前的任务。这种机制使得8x22B能够优化其计算资源，减少不必要的计算开销。此外，Mixtral 8x22B通过其1760亿参数和64K的上下文窗口，能够处理比以往任何模型都要长的文本输入，这对于长文本的理解和生成特别有价值。例如，在自动文档摘要或详细的故事生成任务中，该模型能够展示出更好的连贯性和文本理解能力。

推荐文章： 如何看待MistralAI开源Mistral-8×22B模型？
Huggingface模型下载：https://huggingface.co/mistral-community
AI快站模型免费加速下载：https://aifasthub.com/models/mistralai/mixtral-8x22b

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/Monodyee/article/detail/534746