这个 AI 生成图片开源项目真好玩！

作者：小小林熬夜学编程 | 2024-04-07 02:50:17

踩

gemma 生成图片

本期推荐开源项目目录：

1. 一个好玩的图像生成项目

2. 虚拟服装试穿工具

3. 基于 AI 的文件类型检测工具

4. 谷歌开源的 Gemma

01

一个好玩的图像生成项目

这个开源项目叫做 GLIGEN GUI，是一个使用 ComfyUI 作为后端的直观图形用户界面。GLIGEN 是一种新颖的方式，你可以框出一个区域然后指定这个区域的内容，生成更符合自己意愿的图像。

比如你在一个白色的画布不同的位置框了7个框，并在不同的框设定了内容：窗户、玫瑰、青蛙、帽子等等，最终根据你标注的位置和提示，会生成如下的图片。

如果你想使用 LORAs，也支持选择 LORA 模型并调整其强度，你可以添加多个LORAs。最后，按Queue Prompt 将提示提交给ComfyUI，一旦图像生成，它将出现在画布上。

这个工具让用户可以控制生成图像的大小、位置和元素之间的空间关系，比如将一只穿着宇航服的猫放在画面中央，让它占据主要部分。

开源地址：https://github.com/mut-ex/gligen-gui

虚拟服装试穿工具

这个开源项目叫做 OOTDiffusion，是由 Yuhao Xu、Tao Gu、Weifeng Chen和 Chengcai Chen 共同开发的。

它是一种高度可控的虚拟服装试穿工具，可以根据不同性别和体型自动调整，和模特非常贴合。用户可以选择半身模型进行上半身服装试穿，适合T恤、衬衫等上身服装;也可以选择全身模型进行全身服装试穿，包括上身、下身和连衣裙等服装类型。

OOTDiffusion的核心功能是基于潜在扩散的装备融合，利用潜在扩散模型（latent diffusion models）的先进技术，OOTDiffusion实现了高质量的服装图像生成和融合，确保试穿效果自然且逼真。

开源地址：https://github.com/levihsu/OOTDiffusion

基于 AI 的文件类型检测工具

这个开源项目叫做 Magika，是由 Google 开发的。Magika 是一个基于深度学习的文件类型检测工具，它利用了深度学习的最新进展来提供准确的检测。

Magika 使用了一个定制的、高度优化的 Keras 模型，该模型只有大约 1MB 的大小，即使在单个 CPU 上运行，也能在毫秒级别内精确地识别文件类型。

在对超过 100 种内容类型（包括二进制和文本文件格式）的超过 100 万个文件进行评估后，Magika 达到了 99% 以上的精确度和召回率。

Magika 被大规模地用于提高 Google 用户的安全性，通过将 Gmail、Drive 和 Safe Browsing 的文件路由到适当的安全和内容策略扫描器。

Magika 是开源的，并且 Google 通过开源 Magika，旨在帮助其他软件提高他们的文件识别准确性，并为研究人员提供一种可靠的方法来大规模识别文件类型

开源地址：https://github.com/google/magika

谷歌开源的 Gemma

这个开源项目叫做 Gemma，是由 Google 创建，开源一周获得了 3.4K 的 Star。它是一个基于 PyTorch 的官方实现，具有以下特性：

Gemma 是一系列轻量级、最先进的开放模型，由用于创建 Google Gemini 模型的研究和技术构建。

它们是文本到文本、仅解码器的大型语言模型，提供英语版本，具有开放权重、预训练变体和指令调优变体。

提供了使用 PyTorch 和 PyTorch/XLA 的模型和推理实现，并支持在 CPU、GPU 和 TPU 上运行推理。

该开源项目提供了使用 Docker 在 CPU、GPU 上运行 Gemma 推理的方法

开源地址：https://github.com/google/gemma_pytorch

历史盘点

逛逛 GitHub 每天推荐一个好玩有趣的开源项目。历史推荐的开源项目已经收录到 GitHub 项目，欢迎 Star：

地址：https://github.com/Wechat-ggGitHub/Awesome-GitHub-Repo