当前位置:   article > 正文

moondream-开创性的小型视觉语言模型

moondream

公众号:【可乐前端】,每天3分钟学习一个优秀的开源项目,分享web面试与实战知识。

每天3分钟开源

hi,这里是每天3分钟开源,很高兴又跟大家见面了,今天介绍的开源项目简介如下:

仓库名:vikhyat/moondream

项目名:moondream

开源地址:https://github.com/vikhyat/moondream

主要语言: Python

stars数量:2878

forks数量:239

开源协议:Apache License 2.0

一句话介绍

这是一个名为 moondream 的小型视觉语言模型,可以在任何地方运行,并且表现优异。

详细描述

moondream 是一个小型的视觉语言模型,通过 SigLIPPhi 1.5 的权重初始化,具有18.6亿的参数模型。

它不仅能够适应各种环境,而且具有出色的性能。该模型可以运行在任何地方,既可以通过 transformers 使用,也可以通过本仓库进行使用。

推荐使用 transformers,因为它提供了最新的模型版本和便捷的使用方式。

模型定期更新,因此建议将模型版本固定到特定的发布版本,以确保持续的效果。

具体功能

在这里插入图片描述

  1. 图像问题回答:模型可以回答关于图像的问题,例如“这个女孩在做什么?”、“女孩的头发是什么颜色?”等。
  2. 图像描述:模型可以对图像进行描述,例如“图片中有一个架子,上面放着各种电子设备。左边有一把椅子,背景是砖墙。”等。
  3. 批量推断:模型支持批量推断,可以同时处理多个图像和问题。

如何使用

在使用 moondream 时,有两种主要的使用方式:

  • 使用 transformers(推荐):
pip install transformers timm einops
from transformers import AutoModelForCausalLM, AutoTokenizer
from PIL import Image

model_id = "vikhyatk/moondream2"
revision = "2024-03-06"

model = AutoModelForCausalLM.from_pretrained(model_id, trust_remote_code=True, revision=revision)
tokenizer = AutoTokenizer.from_pretrained(model_id, revision=revision)

image = Image.open('<IMAGE_PATH>')
enc_image = model.encode_image(image)
print(model.answer_question(enc_image, "Describe this image.", tokenizer))
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 使用本仓库:

首先,克隆此仓库并安装依赖。

pip install -r requirements.txt
  • 1

然后,可以使用 sample.py 提供的命令行界面运行模型。当没有提供 --prompt 参数时,脚本将允许你交互式地提问。

python sample.py --image [IMAGE_PATH] --prompt [PROMPT]
  • 1

此外,还可以使用 gradio_demo.py 脚本启动模型的 Gradio 界面。

python gradio_demo.py
  • 1

webcam_gradio_demo.py 提供了一个 Gradio 界面,该界面使用你的网络摄像头作为输入,并实时进行推断。

python webcam_gradio_demo.py
  • 1

总的来说,moondream 是一个功能强大、使用灵活的视觉语言模型。无论你是一名开发者,还是一名研究人员,都可以通过 moondream 获得高质量的视觉语言处理服务。

最后

感谢您的阅读,这里每天都会推送优秀的开源项目,如果觉得有帮助的话,一键三连一下吧~

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/代码探险家/article/detail/811702
推荐阅读
相关标签
  

闽ICP备14008679号