赞
踩
目前最热门的“闭源”人工智能是OpenAI,称得上是如日中天(遥遥领先?这个词最近听得太多,总感觉像是讽刺,对于真正的王者来说),然而其很多功能却没那么容易体验到,如多模态,暂时就无法通过API调用。
那么要实现一个简单的“看图说话”,要如何做呢?可以分两步:
提到开源模型,那就不能不提Hugging Face:https://huggingface.co/
Hugging Face是一个专注于自然语言处理(NLP)的人工智能研究组织,一个生气勃勃的开源AI社区。他们以其开源库Transformers 而闻名,该库为各种任务(如文本分类、翻译、摘要等)提供了先进的 NLP模型和工具。
我们先去Hugging Face上找图片到文本的模型:
我们这次用”Salesforce/blip-image-captioning-large“这个模型根据图片生成一句文本描述。不过这个模型有点大(1.8G),如果只是简单测试,也可以找小一点的模型,不然光下载模型都要花比较长的时间。
这些模型统称pretrained model,就是预先训练好了,不再需要训练,下载下来就可以直接使用。
from dotenv import load_dotenv, find_dotenv
_ = load_dotenv(find_dotenv()) # read local .env file
from IPython.display import Image
from transformers import pipeline
pipe = pipeline("image-to-text",
model="Salesforce/blip-image-captioning-large")
def
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。