赞
踩
生成式 AI 指的是能够生成新内容(如图像、视频、文本等)的人工智能技术。近年来,生成式 AI 在图像和视频生成领域取得了突破性进展,例如:
尽管生成式 AI 取得了显著进展,但评估这些模型的性能仍然是一个挑战。传统的评估指标,例如 PSNR、SSIM、LPIPS、FID 等,虽然在某些方面提供了有价值的洞察,但在提供模型整体性能的全面评估方面往往不足,尤其是在涉及主观质量如美学和用户满意度时。
GenAI-Arena 旨在解决这一问题。它是一个开放的评估平台,允许用户参与评估不同的图像和视频生成模型。用户可以生成图像或视频,将它们并排比较,并为它们投票。通过利用用户的反馈和投票,GenAI-Arena 旨在提供一个更民主、更准确的模型性能评估方法。
GenAI-Arena是首个具有全面评估能力的平台,它不仅支持多种任务,包括文本到图像的生成、文本引导的图像编辑和文本到视频的生成,而且还包括一个公共投票过程,以确保标签的透明度。
GenAI-Arena 提供一个直观和全面的评估平台,用于生成模型,促进用户交互和参与。平台围绕三个主要任务构建:文本到图像生成、图像编辑和文本到视频生成。每个任务都支持一组特性,包括:
具体如下图所示:
GenAI-Arena 标准化现有模型的代码库,并固定了超参数和提示格式,这使得不同模型的推理公平且可复现。遵循 ImagenHub 的做法,构建了 VideoGenHub 这个新库,旨在标准化不同文本到视频和图像到视频模型的推理过程。找到了这些模型的最佳超参数,以确保它们的最高性能。
匿名战斗部分旨在确保无偏见的投票和对生成模型的准确评估。这部分的规则如下:
GenAI-Arena 集成了各种最先进的生成式 AI 模型,涵盖了不同的任务和技术。
SDXL、SDXL-Turbo 和 SDXL-Lightning 都是基于 SDXL衍生的,而 SDXL-Turbo和 SDXL-Lightning采用了不同的蒸馏方法。
一些是即插即用方法,不需要任何训练,如 Pix2PixZero、InfEdit、SDEdit 等。这些方法可以应用于广泛的扩散模型。一些模型如 PnP 和 Prompt2Prompt 需要 DDIM 反演,这比其他方法需要的时间长得多。模型还包括了专门训练的图像编辑模型,如 InstructP2P 、MagicBrush 和 CosXLEdit 。
AnimateDiff 、ModelScope 、LaVie 是从 SD-1.5 初始化的,并通过注入运动层来捕获帧之间的时间关系继续训练的。与此相反,StableVideoDiffusion 和 VideoCrafter2是从 SD-2.1 初始化的。除了这些模型,还包括了 OpenSora ,它使用了类似 Sora 的扩散变换器架构进行联合时空注意力。
GenAI-Arena 使用 Bradley-Terry 模型进行统计估计 Elo 排名,以克服直接 Elo 计算的局限性。
为了进一步调查估计的 Elo 评分的变异性,GenAI-Arena 使用了 Huber 等人描述的 "三明治" 标准误差。也就是说,对于每一轮,我们记录基于从前一轮中抽取的相同数量的战斗的估计 Elo 评分。这个过程持续了 100 轮。我们选择最低的采样 Elo 评分作为置信区间的下限,最高的采样 Elo 评分作为 Elo 评分的上限。
当前 GenAI-Arena 在 Hugging Face Zero GPU 系统上运行模型,单个生成推理的时间通常在 5 到 120 秒之间。与自回归语言模型不同,后者使用如 VLLM 、SGLang等推理加速技术在不到一秒钟的时间内生成响应,扩散模型社区并没有这样强大的基础设施。因此,预计算成为减轻计算开销和简化用户交互的必要方式。
GenAI-Museum 作为一个预计算数据池,包含来自现有数据集或用户收集的各种输入,以及每个模型的输出。基于此,额外实现了一个 "随机样本" 按钮,以促进随机生成提示并立即检索相应的图像或视频。这个功能通过每次点击 "随机样本" 按钮时向部署的 GenAI-Museum 发送请求,接收输入和两个随机模型的预计算输出来操作。通过这种方式,我们在 GPU 上节省了计算时间,使用户能够在 UI 上进行即时比较和投票,并平衡每个独特输入的投票,以便我们逐渐收集所有模型的完整组合的投票。
使用 Llama Guard 作为 NSFW 过滤器,以确保用户输入的提示适合广泛的受众,并保护基准测试的用户不接触到可能有害或冒犯的内容。在文本到图像生成任务中,总共收集了 4.3k 匿名投票,在过滤后剩下 1.7k 投票用于安全内容。观察到大量提示因性内容而被过滤掉,这占据了废弃数据的 85.6%。
官网:https://huggingface.co/datasets/TIGER-Lab/GenAI-Bench
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。