【AIGC半月报】AIGC大模型启元：2024.03（上）

作者：你好赵伟 | 2024-05-07 23:27:28

踩

AIGC大模型启元：2024.03（上）

(1) Claude3（LLM）

2024.03.04 Claude3是由Anthropic发布的最新的AI大模型系列，同时，Claude3是多模态大模型，具有强大的“视觉能力”。Claude3 Opus已经在部分行业行为准则中的表现优于OpenAI的GPT-4和谷歌的Gemini Ultra，如本科生水平知识（MMLU）、研究生级别专家推理（GPQA）和基础数学（GSM8K）。

推荐文章： OpenAI劲敌出现！Claude3正式发布，超越GTP-4?
官网链接： https://www.anthropic.com/claude

(2) Open Sora（文生视频大模型）

2024.03.01 北大团队联合兔展发起了一项Sora复现计划——Open Sora

(3) Yi-9B（LLM）

2024.03.06 李开复旗下AI公司零一万物的最新力作——Yi-9B大模型正式对外开源发布。这款具有90亿参数的大模型，在代码和数学能力上达到了前所未有的高度，同时保持了对消费级显卡的良好兼容性，为广大开发者和研究人员提供了前所未有的便利性和强大功能。
　　Yi-9B作为Yi系列中的新成员，被誉为“理科状元”，特别加强了在代码和数学方面的学习能力。相较于市场上其他类似规模的开源模型，如Mistral-7B、SOLAR-10.7B、Gemma-7B等，Yi-9B展现出了最佳的性能表现。特别值得一提的是，Yi-9B既提供了浮点数版本（BF 16），也提供了整数版本（Int8），使其能够轻松部署在包括RTX 4090和RTX 3090在内的消费级显卡上，大大降低了使用门槛和成本。

(4) Stable Diffusion 3（LVM）

2024.03.06 Stable Diffusion 3采用了与 Sora 相同的 DiT（Diffusion Transformer）架构，一经发布就引起了不小的轰动。与之前的版本相比，Stable Diffusion 3 生成的图在质量上实现了很大改进，支持多主题提示，文字书写效果也更好了（明显不再乱码）。
　　Stability AI 表示，Stable Diffusion 3 是一个模型系列，参数量从 800M 到 8B 不等。这个参数量意味着，它可以在很多便携式设备上直接跑，大大降低了 AI 大模型的使用门槛。
　　在最新发布的论文中，Stability AI 表示，在基于人类偏好的评估中，Stable Diffusion 3 优于当前最先进的文本到图像生成系统，如 DALL・E 3、Midjourney v6 和 Ideogram v1。不久之后，他们将公开该研究的实验数据、代码和模型权重。

(5) CARES Copilot1.0（多模态手术大模型）

2024.03.11 CARES Copilot是由中国科学院香港创新院AI中心研发的一个可信赖、可解释、面向医疗垂直领域并能与智能医疗设备高度集成的大模型系统。CARES Copilot 1.0实现了图像、文本、语音、视频、MRI、CT、超声等多模态的手术数据理解。支持超过100K上下文的长窗口理解和高效分析，能理解超过3000页的复杂手术教材，对于年轻医生的培训和教学具有极高的实用价值。此外，该系统能通过深度检索功能，快速精确地提取手术教材、专家指南、医学论文等专业文档的信息，确保其提供的答案具有高度的可信度和可追溯性。经测试，系统能在一秒钟内完成百万级数据的快速检索，同时保持95%的准确率。该系统已在多家医院的不同科室进行了内部测试和迭代优化。

推荐文章： CARES Copilot 1.0多模态手术大模型发布，可实现轻量化部署
官网链接： /

(6) Figure 01通用机器人（Figure AI + OpenAI）

2024.03.13 Figure 01通用机器人由Figure AI和OpenAI合作完成。展示视频中，Figure AI人形机器人具有视觉能力并能表述所见画面，它伸手拿起桌上的苹果，并解释了这么做的原因，人类的提问后，这台人形机器人“思索”2~3秒后便能顺畅作答，手部动作速度则接近人类。据视频介绍，机器人采用了端到端神经网络。
　　该人形机器人由OpenAI提供了视觉推理和语言理解，Figure AI的神经网络则提供快速、灵巧的机器人动作。人形机器人将摄像机的图像输入和麦克风接收的语音文字输入OpenAI提供的视觉语言大模型（VLM）中，该模型可以理解图像和文字。Figure机载相机以10hz的频率拍摄画面，随后神经网络以200hz的频率输出24个自由度动作。画面中的人形机器人不依赖远程操作，行为都是学习而得的。

推荐文章： 与OpenAI合作13天后，Figure人形机器人展示与人类对话能力
官网链接： /

(7) Devin（AI软件工程师助手）

2024.03.13 一家成立不到两个月但拥有十名天才工程师的初创公司Cognition推出了一款名为Devin的人工智能（AI）助手，可以协助人类软件工程师完成诸多开发任务。Devin不同于现有其他AI编码者，它可以从零构建网站、自行部署应用、修复漏洞、学习新技术等，人类只需扮演一个下指令和监督的角色。
　　这是第一个真正意义上完全自主的AI软件工程师，一亮相即掀起轩然大波，因为人们担心：人类程序员是不是真要失业了？

推荐文章： 人类程序员真要失业？首位“AI软件工程师”亮相引爆科技圈
官网链接： /

(8) MM1大模型（苹果公司多模态大模型）

2024.03.15 苹果公司最新发布了一款名为MM1的大型多模态基础模型，拥有300亿参数，采用了MoE架构，并且超过一半的作者是华人。
　　该模型采用了MoE变体，并且在预训练指标和多项多模态基准测试上表现出了领先水平。研究者通过多项消融试验，探讨了模型架构、预训练数据选择以及训练程序等方面的重要性。他们发现，图像分辨率、视觉编码器损失和预训练数据在建模设计中都起着关键作用。
　　MM1的发布标志着苹果在多模态领域的重要进展，也为未来苹果可能推出的相关产品奠定了技术基础。该研究的成果对于推动生成式人工智能领域的发展具有重要意义，值得业界密切关注。

(9) AesopAgent（达摩院—智能体驱动的进化系统）

2024.03.15 阿里达摩院提出了一个关于故事到视频制作的智能体驱动进化系统——AesopAgent，它是智能体技术在多模态内容生成方面的实际应用。
　　该系统在一个统一的框架内集成了多种生成功能，因此个人用户可以轻松利用这些模块。这一创新系统可将用户故事提案转化为脚本、图像和音频，然后将这些多模态内容整合到视频中。此外，动画单元（如 Gen-2 和 Sora）可以使视频更具感染力。

(10) CogView3（文生图大模型）

2024.03.10 文生图系统的最新进展主要是由扩散模型推动的。然而，单级文本到图像扩散模型在计算效率和图像细节细化方面仍面临挑战。为了解决这个问题，来自清华大学和智谱AI 的研究团队提出了 CogView3——一个能提高文本到图像扩散性能的创新级联框架。
　　据介绍，CogView3 是第一个在文本到图像生成领域实现 relay diffusion 的模型，它通过首先创建低分辨率图像，然后应用基于中继（relay-based）的超分辨率来执行任务。这种方法不仅能产生有竞争力的文本到图像输出，还能大大降低训练和推理成本。
　　实验结果表明，在人类评估中，CogView3 比目前最先进的开源文本到图像扩散模型 SDXL 高出 77.0%，而所需的推理时间仅为后者的 1/2。经过提炼（distilled）的 CogView3 变体性能与 SDXL 相当，而推理时间仅为后者的 1/10。

推荐文章： CogView3：更精细、更快速的文生图
论文地址： https://arxiv.org/pdf/2403.05121.pdf

(11) AutoDev（微软团队全自动 AI 驱动软件开发框架）

2024.03.10 微软团队推出了全自动 AI 驱动软件开发框架 AutoDev，该框架专为自主规划和执行复杂的软件工程任务而设计。AutoDev 使用户能够定义复杂的软件工程目标，并将其分配给 AutoDev 的自主 AI 智能体来实现。这些 AI 智能体可以对代码库执行各种操作，包括文件编辑、检索、构建过程、执行、测试和 git 操作。它们还能访问文件、编译器输出、构建和测试日志、静态分析工具等。这使得 AI 智能体能够以完全自动化的方式执行任务并全面了解所需的上下文信息。
　　此外，AutoDev 还将所有操作限制在 Docker 容器内，建立了一个安全的开发环境。该框架结合了防护栏以确保用户隐私和文件安全，允许用户在 AutoDev 中定义特定的允许或限制命令和操作。
　　研究团队在 HumanEval 数据集上对 AutoDev 进行了测试，在代码生成和测试生成方面分别取得了 91.5% 和 87.8% 的 Pass@1 好成绩，证明了它在自动执行软件工程任务的同时维护安全和用户控制的开发环境方面的有效性。

推荐文章： AutoDev 1.5.3：精准的自动化测试生成、本地模型强化与流程自动化优化
论文地址： /

(12) VLOGGER（Google图生音频驱动视频方法）

2024.03.14 Google Research提出了一种从单张人物输入图像生成音频驱动人类视频的方法——VLOGGER，它建立在最近成功的生成扩散模型基础之上。
　　VLOGGER由两部分组成，一是随机人体到三维运动扩散模型，二是一种基于扩散的新型架构，它通过空间和时间控制来增强文本到图像模型。这有助于生成长度可变的高质量视频，并可通过人脸和身体的高级表示轻松控制。
　　与之前的工作相比，这一方法不需要对每个人进行训练，不依赖于人脸检测和裁剪，能生成完整的图像（不仅仅是人脸或嘴唇），并能考虑广泛的情况（如可见躯干或不同的主体身份），这对于正确合成交流的人类至关重要。研究团队还提出了一个包含三维姿势和表情注释的全新多样化数据集 MENTOR，它比以前的数据集大一个数量级（800000 identities），并且包含动态手势。研究团队在其上训练并简化了他们的主要技术贡献。
　　VLOGGER 在三个公共基准测试中的表现达到了 SOTA，考虑到图像质量、身份保留和时间一致性，同时还能生成上半身手势。VLOGGER 在多个多样性指标方面的表现都表明其架构选择和 MENTOR 的使用有利于大规模训练一个公平、无偏见的模型。最后，研究团队还展示了在视频编辑和个性化方面的应用。

推荐文章： VLOGGER：基于多模态扩散的具身虚拟形象合成
论文地址： https://arxiv.org/pdf/2403.08764.pdf

(13) TextMonkey（Monkey多模态大模型在文档领域的应用）

2024.03.15 TextMonkey是Monkey在文档领域的重要升级，突破了通用文档理解能力的边界，在场景文字识别、办公文档摘要生成、数学问题问答、文档版式分析，表格理解，图表问答，电子文档关键信息抽取等12项等文档权威数据集以及在国际上规模最全的文档图像智能数据集OCRBench上取得了显著突破，通用文档理解性能大幅超越现有方法。
　　TextMonkey能帮助我们结构化图表、表格以及文档数据，通过将图像内容转化为轻量级的数据交换格式，方便记录和提取。TextMonkey也能作为智能手机代理，无需接触后端，仅需语音输入及屏幕截图，即能够模仿人类的点击手势，能够在手机上执行各种任务，自主操控手机应用程序。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/你好赵伟/article/detail/551759