【AIGC半月报】AIGC大模型启元：2024.08（上）_flux.1 dev 不能商用

作者：Guff_9hys | 2024-08-14 11:15:29

踩

flux.1 dev 不能商用

【AIGC半月报】AIGC大模型启元：2024.08（上））

(1) FLUX.1（文生图多模态模型）

2024.08.02 昨天Midjourney刚进行大更新，今天文生图片开源领域就杀出了一匹大黑马—FLUX.1。
　　根据其测试数据显示，性能大幅度超过了DALL·E-3、Midjourney V6闭源模型，开源SD3系列的Ultra、Medium、Turbo和SDXL被全线秒杀。
　　并且FLUX.1表示，文生图只是一个开始，未来还会推出文生视频模型想和Sora、Gen-3、Luma等一线产品过过招。
　　FLUX.1的基础架构是基于Vision Transformer，使用了流程匹配训练方法，同时使用了旋转位置嵌入和并行注意层来提高模型的性能和硬件利用效率。
　　FLUX.1有120亿参数，本次一共发布了三个版本：1）Pro版，通过API使用；2）dev版，这是一个非商用的指导蒸馏模型，继承了Pro版多数性能；3）schnell版，可以商用的开源模型。
　　虽然FLUX.1有三个版本，但在文本语义还原、图片质量、动作一致性/连贯性、多样性等方面超过了Midjourney v6.0、DALL·E 3 、SD3-Ultra等主流开闭源模型，整体性能非常强劲。此外，在文本嵌入图片方面也比这些模型表现的更好。

(2) SAM 2（Meta SAM升级）

2024.08.02 Meta 在 SIGGRAPH 上重磅宣布 Segment Anything Model 2 (SAM 2) 来了。在其前身的基础上，SAM 2 的诞生代表了领域内的一次重大进步 —— 为静态图像和动态视频内容提供实时、可提示的对象分割，将图像和视频分割功能统一到一个强大的系统中。
　　Meta 多次强调了最新模型 SAM 2 是首个用于实时、可提示的图像和视频对象分割的统一模型，它使视频分割体验发生了重大变化，并可在图像和视频应用程序中无缝使用。SAM 2 在图像分割准确率方面超越了之前的功能，并且实现了比现有工作更好的视频分割性能，同时所需的交互时间为原来的 1/3。
　　该模型的架构采用创新的流式内存（streaming memory）设计，使其能够按顺序处理视频帧。这种方法使 SAM 2 特别适合实时应用，为各个行业开辟了新的可能性。
　　当然，处理视频对算力的要求要高得多。SAM 2 仍然是一个庞大的模型，也只有像 Meta 这样的能提供强大硬件的巨头才能运行，但这种进步还是说明了一些问题：一年前，这种快速、灵活的分割几乎是不可能的。SAM 2 可以在不借助数据中心的情况下运行，证明了整个行业在计算效率方面的进步。
　　模型需要大量的数据来训练，Meta 还发布了一个大型带注释数据库，包括大约 51,000 个真实世界视频和超过 600,000 个 masklets。与现有最大的视频分割数据集相比，其视频数量多 4.5 倍，注释多 53 倍，Meta 根据 CC BY 4.0 许可分享 SA-V。在 SAM 2 的论文中，另一个包含超过 100,000 个「内部可用」视频的数据库也用于训练，但没有公开。
　　与 SAM 一样，SAM 2 也会开源并免费使用，并在 Amazon SageMaker 等平台上托管。为了履行对开源 AI 的承诺，Meta 使用宽松的 Apache 2.0 协议共享代码和模型权重，并根据 BSD-3 许可分享 SAM 2 评估代码。

(3) Qwen2-Audio（阿里巴巴最新语音模型）

2024.08.10 阿里巴巴在Qwen-Audio基础之上，开源了最新语音模型Qwen2-Audio。
　　Qwen2-Audio一共有基础和指令微调两个版本，支持使用语音向音频模型进行提问并识别内容以及语音分析。
　　例如，让一位女生说一段话，然后识别她的年纪或解读她的心情；发布一段吵闹的声音，分析有哪些声音组成等。
目前，Qwen2-Audio支持中文、粤语、法语、英语、日语等主流语言和方言，这对于开发翻译、情感分析等应用非常方便。
　　与第一代Qwen-Audio相比，Qwen2-Audio在架构、性能等方面进行了大幅度优化和改进。在预训练阶段Qwen2-Audio采用了自然语言提示，替代了Qwen-Audio使用的复杂分层标签系统。
　　这一改变简化了模型的训练过程，使得模型能够更自然地理解和响应各种数据和任务，提高了模型的泛化能力能更好地理解和执行各种指令。
　　Qwen2 - Audio在指令跟随能力方面有了显著提升，通过增加指令调优和直接偏好优化等方法，可更准确地理解用户的指令，并根据指令提供更恰当的响应。

推荐文章： 阿里开源新语音模型，比OpenAI的Whisper更好！
Github地址： https://github.com/QwenLM/Qwen2-Audio

(4) Tora（阿里巴巴视频生成模型）

2024.08.10 视频生成模型最近取得了显著进展，例如，OpenAI 的 Sora 和国内的Vidu、可灵等模型，通过利用 Diffusion Transformer 的扩展特性，不仅能够满足各种分辨率、尺寸和时长的预测要求，同时生成的视频更符合物理世界的表现。视频生成技术需要在一系列图像中创造一致的运动，这凸显了运动控制的重要性。
　　当前已有一些优秀的方法如 DragNUWA 和 MotionCtrl 已经实现了轨迹可控的视频生成，但这些方法受限于传统 U-Net 去噪模型，大多只能生成 16 帧长度、固定低分辨率的视频，难以应对长距离轨迹。此外，如果轨迹过于不规则或存在偏移过大等情况，这些方法十分容易出现运动模糊、外观失真和不自然的运动如漂移闪现等。
　　为了解决这些问题，阿里云提出了一种基于 DiT 架构的轨迹可控视频生成模型 Tora。Tora能够根据任意数量的物体轨迹，图像和文本条件生成不同分辨率和时长的视频，在720p分辨率下能够生成长达204 帧的稳定运动视频。值得注意的是，Tora继承了DiT的scaling特性，生成的运动模式更流畅，更符合物理世界。
　　
推荐文章： 阿里发布轨迹可控的DiT视频生成模型—Tora
论文地址： https://arxiv.org/abs/2407.21705
项目地址： https://ali-videoai.github.io/tora_video/

(5) Qwen2-Math（阿里巴巴专业数学语言模型）

2024.08.09 阿里巴巴开源了Qwen2_Math专注数学能力的的大模型。据官方技术博客介绍，本次开源包括Qwen2-Math和Qwen2-Math-Instruct-1.5B/7B/72B。Qwen2-Math是基于Qwen2大型语言模型构建的一系列专业数学语言模型，其数学能力显著优于开源模型甚至闭源模型（例如GPT-4o）
　　在一系列数学基准测试上评估了QWen2_Math的性能。如下面的结果表明，数学专用模型Qwen2-Math-72B-Instruct超过了包括GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro和Llama-3.1-405B在内的最先进模型。
　　三个广泛使用的英语数学基准测试GSM8K、Math和MMLU-STEM上评估了Qwen2-Math基础模型。此外，还评估了三个中文数学基准测试CMath、高考数学填空和高考数学问答。所有评估都通过少量样本的思考链提示进行测试。
　　
推荐文章： 阿里重磅开源Qwen2_Math! 实操利用onnxocr+Qwen2_Math打造【AI数学老师助手】来给小孩辅导数学作业!
模型地址： https://hf-mirror.com/Qwen/Qwen2-Math-7B-Instruct
技术博客地址： https://qwenlm.github.io/blog/qwen2-math/

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/Guff_9hys/article/detail/979495