当前位置:   article > 正文

不用多模态GPT4,HuggingFace+LangChain实现“看图说话”_langchain huggingface

langchain huggingface

目前最热门的“闭源”人工智能是OpenAI,称得上是如日中天(遥遥领先?这个词最近听得太多,总感觉像是讽刺,对于真正的王者来说),然而其很多功能却没那么容易体验到,如多模态,暂时就无法通过API调用。

那么要实现一个简单的“看图说话”,要如何做呢?可以分两步:

  1. 通过开源的模型,让开源模型识别图片的内容,生成一句话文本描述;
  2. 让大语言模型针对文本描述生成一个简短的小故事。

提到开源模型,那就不能不提Hugging Face:https://huggingface.co/

Hugging Face是一个专注于自然语言处理(NLP)的人工智能研究组织,一个生气勃勃的开源AI社区。他们以其开源库Transformers 而闻名,该库为各种任务(如文本分类、翻译、摘要等)提供了先进的 NLP模型和工具。

我们先去Hugging Face上找图片到文本的模型:
在这里插入图片描述
我们这次用”Salesforce/blip-image-captioning-large“这个模型根据图片生成一句文本描述。不过这个模型有点大(1.8G),如果只是简单测试,也可以找小一点的模型,不然光下载模型都要花比较长的时间。

这些模型统称pretrained model,就是预先训练好了,不再需要训练,下载下来就可以直接使用。

生成图片描述

from dotenv import load_dotenv, find_dotenv
_ = load_dotenv(find_dotenv())  # read local .env file

from IPython.display import Image
from transformers import pipeline

pipe = pipeline("image-to-text",
                model="Salesforce/blip-image-captioning-large")

def
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Monodyee/article/detail/662444
推荐阅读
相关标签
  

闽ICP备14008679号