赞
踩
还在苦苦等待GPT-4开放?开源项目MiniGPT-4就能提前体验类似GPT-4的多模态对话功能。
2023年4月17日,多模态问答模型MiniGPT-4发布,实现了GPT-4里的宣传效果
《MiniGPT-4: Enhancing Vision-language Understanding with Advanced Large Language Models》
阿卜杜拉国王科技大学的几位博士(看名字都是中国人)开发,他们认为GPT-4 先进的多模态生成能力,主要原因在于利用了更先进的大型语言模型。
为了验证这一想法,团队成员将一个冻结的视觉编码器(Q-Former&ViT)与一个冻结的 文本生成大模型(Vicuna,江湖人称:小羊驼) 进行对齐,造出了 MiniGPT-4。
在零样本 VQAv2 上,BLIP-2 相较于 80 亿参数的 Flamingo 模型,使用的可训练参数数量少了 54 倍,性能提升了 8.7 %。
git clone https://github.com/Vision-CAIR/MiniGPT-4.git
- cd MiniGPT-4
- conda env create -f environment.yml
- conda activate minigpt4
参考:【LLMs系列】90%chatgpt性能的小羊驼Vicuna模型学习与实战_小小的香辛料的博客-CSDN博客
修改minigpt4/configs/models/minigpt4.yaml第16行代码,改成vicuna的权重。
例:
- model:
- arch: mini_gpt4
-
- # vit encoder
- image_size: 224
- drop_path_rate: 0
- use_grad_checkpoint: False
- vit_precision: "fp16"
- freeze_vit: True
- freeze_qformer: True
-
- # Q-Former
- num_query_token: 32
-
- # Vicuna
- llama_model: "chat/vicuna/weight" # 将 "/path/to/vicuna/weights/" 修改为本地 weight 地址
- ...

1.下载 MiniGPT-4 checkpoint
2.在 eval_configs/minigpt4_eval.yaml 的 第11行 设置 MiniGPT-4 checkpoint 路径
- model:
- arch: mini_gpt4
- model_type: pretrain_vicuna
- freeze_vit: True
- freeze_qformer: True
- max_txt_len: 160
- end_sym: "###"
- low_resource: True
- prompt_path: "prompts/alignment.txt"
- prompt_template: '###Human: {} ###Assistant: '
- ckpt: '/path/to/pretrained/ckpt/' # 修改为 MiniGPT-4 checkpoint 路径
- ...
python demo.py --cfg-path eval_configs/minigpt4_eval.yaml --gpu-id 0
注:为了节省GPU内存,Vicuna默认加载为8位,波束搜索宽度为1。这种配置对于Vicuna 13B需要大约23G GPU内存,对于Vicuna7B需要大约11.5G GPU内存。对于更强大的GPU,您可以通过在配置文件minigpt4_eval.yaml中将low_resource设置为False以16位运行模型,并使用更大的波束搜索宽度。
本节就先到这!
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。