赞
踩
公众号:【可乐前端】,每天3分钟学习一个优秀的开源项目,分享web面试与实战知识。
hi,这里是每天3分钟开源,很高兴又跟大家见面了,今天介绍的开源项目简介如下:
仓库名:
vikhyat/moondream
项目名:
moondream
开源地址:https://github.com/vikhyat/moondream
主要语言:
Python
stars数量:
2878
forks数量:
239
开源协议:
Apache License 2.0
这是一个名为 moondream
的小型视觉语言模型,可以在任何地方运行,并且表现优异。
moondream
是一个小型的视觉语言模型,通过 SigLIP
和 Phi 1.5
的权重初始化,具有18.6亿的参数模型。
它不仅能够适应各种环境,而且具有出色的性能。该模型可以运行在任何地方,既可以通过 transformers
使用,也可以通过本仓库进行使用。
推荐使用 transformers
,因为它提供了最新的模型版本和便捷的使用方式。
模型定期更新,因此建议将模型版本固定到特定的发布版本,以确保持续的效果。
在使用 moondream
时,有两种主要的使用方式:
transformers
(推荐):pip install transformers timm einops
from transformers import AutoModelForCausalLM, AutoTokenizer
from PIL import Image
model_id = "vikhyatk/moondream2"
revision = "2024-03-06"
model = AutoModelForCausalLM.from_pretrained(model_id, trust_remote_code=True, revision=revision)
tokenizer = AutoTokenizer.from_pretrained(model_id, revision=revision)
image = Image.open('<IMAGE_PATH>')
enc_image = model.encode_image(image)
print(model.answer_question(enc_image, "Describe this image.", tokenizer))
首先,克隆此仓库并安装依赖。
pip install -r requirements.txt
然后,可以使用 sample.py
提供的命令行界面运行模型。当没有提供 --prompt
参数时,脚本将允许你交互式地提问。
python sample.py --image [IMAGE_PATH] --prompt [PROMPT]
此外,还可以使用 gradio_demo.py
脚本启动模型的 Gradio 界面。
python gradio_demo.py
webcam_gradio_demo.py
提供了一个 Gradio 界面,该界面使用你的网络摄像头作为输入,并实时进行推断。
python webcam_gradio_demo.py
总的来说,moondream
是一个功能强大、使用灵活的视觉语言模型。无论你是一名开发者,还是一名研究人员,都可以通过 moondream
获得高质量的视觉语言处理服务。
感谢您的阅读,这里每天都会推送优秀的开源项目,如果觉得有帮助的话,一键三连一下吧~
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。