moondream-开创性的小型视觉语言模型

作者：代码探险家 | 2024-07-11 22:00:45

踩

moondream

公众号：【可乐前端】，每天3分钟学习一个优秀的开源项目，分享web面试与实战知识。

每天3分钟开源

hi，这里是每天3分钟开源，很高兴又跟大家见面了，今天介绍的开源项目简介如下：

仓库名：vikhyat/moondream

项目名：moondream

开源地址：https://github.com/vikhyat/moondream

主要语言： Python

stars数量：2878

forks数量：239

开源协议：Apache License 2.0

一句话介绍

这是一个名为 moondream 的小型视觉语言模型，可以在任何地方运行，并且表现优异。

详细描述

moondream 是一个小型的视觉语言模型，通过 SigLIP 和 Phi 1.5 的权重初始化，具有18.6亿的参数模型。

它不仅能够适应各种环境，而且具有出色的性能。该模型可以运行在任何地方，既可以通过 transformers 使用，也可以通过本仓库进行使用。

推荐使用 transformers，因为它提供了最新的模型版本和便捷的使用方式。

模型定期更新，因此建议将模型版本固定到特定的发布版本，以确保持续的效果。

具体功能

在这里插入图片描述

图像问题回答：模型可以回答关于图像的问题，例如“这个女孩在做什么？”、“女孩的头发是什么颜色？”等。
图像描述：模型可以对图像进行描述，例如“图片中有一个架子，上面放着各种电子设备。左边有一把椅子，背景是砖墙。”等。
批量推断：模型支持批量推断，可以同时处理多个图像和问题。

如何使用

在使用 moondream 时，有两种主要的使用方式：

使用 transformers（推荐）：

pip install transformers timm einops
from transformers import AutoModelForCausalLM, AutoTokenizer
from PIL import Image

model_id = "vikhyatk/moondream2"
revision = "2024-03-06"

model = AutoModelForCausalLM.from_pretrained(model_id, trust_remote_code=True, revision=revision)
tokenizer = AutoTokenizer.from_pretrained(model_id, revision=revision)

image = Image.open('<IMAGE_PATH>')
enc_image = model.encode_image(image)
print(model.answer_question(enc_image, "Describe this image.", tokenizer))
1
2
3
4
5
6
7
8
9
10
11
12
13

使用本仓库：

首先，克隆此仓库并安装依赖。

pip install -r requirements.txt
1

然后，可以使用 sample.py 提供的命令行界面运行模型。当没有提供 --prompt 参数时，脚本将允许你交互式地提问。

python sample.py --image [IMAGE_PATH] --prompt [PROMPT]
1

此外，还可以使用 gradio_demo.py 脚本启动模型的 Gradio 界面。

python gradio_demo.py
1

webcam_gradio_demo.py 提供了一个 Gradio 界面，该界面使用你的网络摄像头作为输入，并实时进行推断。

python webcam_gradio_demo.py
1

总的来说，moondream 是一个功能强大、使用灵活的视觉语言模型。无论你是一名开发者，还是一名研究人员，都可以通过 moondream 获得高质量的视觉语言处理服务。

最后

感谢您的阅读，这里每天都会推送优秀的开源项目，如果觉得有帮助的话，一键三连一下吧～

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/代码探险家/article/detail/811702