当前位置:   article > 正文

Ai前沿技术汇总[1]:Quivr非结构化信息搜索、Drag Your GAN AI修图、MiniGPT-4、Falcon-40B、localGPT

quivr

“AI前沿技术”专栏汇集了最前沿的人工智能技术,包括自然语言处理、语音识别、图像识别、机器学习、深度学习、强化学习、计算机视觉、区块链技术、智能机器人技术和虚拟现实技术等。本专栏将带您了解人工智能领域的最新进展和研究成果,探索人工智能技术的应用前景,感受人工智能给社会带来的变革。

1.Quivr 是一款使用生成 AI 技术来存储和检索非结构化信息的“第二大脑”

1.Quivr 是一款使用生成 AI 技术来存储和检索非结构化信息的“第二大脑”,可以将其视为 Obsidian 的增强版,并且具备更强的人工智能功能。

https://github.com/StanGirard/quivr

Quivr可以帮助把你的本地文件向量化,然后存储到云端,随时可以查询对话。文档格式支持Text、Markdown、 PDF、音频和视频。GPT端支持ChatGPT-3/4和Claude。 向量数据库使用的是Supabase ,音视频是基于Whisper的API处理成文本的,主要语言是Python开发。

  • 存储任何文件:Quivr可以处理几乎所有类型的数据。文本、图像、代码片段等等,您只需要说出来。
  • 生成式人工智能:Quivr使用先进的人工智能技术来帮助您生成和检索信息。
  • 快速高效:Quivr专为速度和效率而设计,以确保您能够尽快访问自己的数据。
  • 安全可靠:您的数据始终在您的控制下。
  • 兼容文件格式: TXT、CSV、MD、MARKDOWN、M4A、MP3、WEBM、MP4、MPGA、WAV、MPEG、PDF、HTML、*PPTX、DOCX(每个文件限制200M)
  • 开源免费:Quivr是开源的,并且可以免费使用。

目标:Quivr上传本地文件到向量数据库并及时进行文本内容检索。

Quivr 是一款使用生成 AI 技术来存储和检索非结构化信

Quivr 是一款使用生成 AI 技术来存储和检索非结构化信

2.Drag Your GAN AI版PhotoShop

2.Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold

https://github.com/XingangPan/DragGAN

DragGAN 由两个主要部分组成:
第一部分是基于特征的运动监督,通过控制起始点向目标点运动,实现图像的变形;
第二部分是新的点跟踪方法,即最近邻检索,通过在相同的特征空间上进行点跟踪,提高了效率,并避免了累计误差损失。

DragGAN

Drag Your GAN

看效果,炸裂!PhotoShop 瑟瑟发抖,p图越来越简单

3.MiniGPT-4

https://github.com/Vision-CAIR/MiniGPT-4

阿卜杜拉国王科技大学开源MiniGPT-4,具备类GPT-4的图像理解与对话能力的多模态大模型
MiniGPT-4 是阿卜杜拉国王科技大学开源的一款多模态大模型,同时具备图像理解与对话能力。它使用 BLIP-2 的冻结视觉编码器和 Vicuna 的冻结 LLM,仅使用一个投影层进行对齐。MiniGPT-4 的训练分为两个阶段。第一阶段是传统的预训练阶段,使用 4 个 A100 GPU,大约 10 小时内训练了大约 500 万个图像和文本对。第二阶段针对对话模板进行微调,实现了类似 GPT4 性能的视觉语言能力,例如细的图像描述生成、从手写草稿创建网站等。项目目前已经在 github 开源,提供在线试用,安装环境和模型权重的步骤,可在本地运行 demo,以重新训练。

MiniGPT4 是一个具有图像理解能力的开源模型,其基于 Vicuna 大语言模型 以及 BLIP-2 中的VIT和Qformer模块进行训练,使得MiniGPT4 拥有类似于GPT4的非凡能力,例如详细的图像描述生成和从手写草稿创建网站。 此外 MiniGPT4 还具备一些的其他新的功能,包括根据给定图像写故事和诗歌,为图像中显示的问题提供解决方案,教用户如何根据食物照片做饭等。下图展示了MiniGPT4的模型结构, 更多信息请参考MiniGPT4。
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
相关链接:

4.Falcon-40B,40B性能超越650亿的LLaMA

阿联酋阿布扎比技术创新研究所开源模型Falcon,支持免费商用,40B性能超越650亿的LLaMA
Falcon 是阿联酋阿布扎比技术创新研究所(TII)开发的一种开源语言模型,免费可商用,比 LLaMA 表现更好。它有三个版本,其中 Falcon 40B 是最强大的,虽然规模稍小于 LLaMA 65B,但在性能方面表现出色,位列 Hugging Face OpenLLM 排行榜前两名。Falcon 40B 经过 1 万亿 token 网络数据集的训练,能够理解多种语言,包括欧洲小语种。该模型的训练成本低,仅相当于 Chinchilla 的 40%和 PaLM-62B 的 80%。相较于 GPT-3,Falcon 在只使用 75%的训练计算预算的情况下,实现了显著的性能提升,推理能力强,只需要 20%的计算时间。

相关链接:

https://sota.jiqizhixin.com/project/falcon

5.localGPT:使用GPT在本地设备上进行100%私密问答,无需互联网连接

通过使用 GPT 模型在本地设备上与文档进行问答交流的方式,实现 100%私密且不离开设备的聊天。该项目受到了之前 privateGPT 的启发,使用 Vicuna-7B 模型替换了 GPT4ALL 模型,并使用 InstructorEmbeddings 代替原始 privateGPT 中使用的 LlamaEmbeddings。无论是 Embeddings 还是 LLM 都将在 GPU 上运行,并提供了 CPU 支持。可以在没有互联网连接的情况下向您的文档提问,并利用 LLM 的强大功能。

相关链接:

https://github.com/PromtEngineer/localGPT

LocalGPT OFFLINE CHAT FOR YOU

更多资讯:

多模态大模型MiniGPT4和LLaVA开源(GPT4图文对话平替);MOSS、StableLM等模型放出权重、支持本地部署

IBM开源单峰骆驼,自对齐训练降低类ChatGPT实现成本;MPT-7B、RedPajama系列模型可商用,权重均发布

BLOOMChat176B开源,支持中文可商用;谷歌发布DragGAN,单张3090可跑

Falcon-40B免费商用模型开源,性能超越LLaMA-65B;多个医疗、法律领域LLM开源(含中文)

本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
推荐阅读
  

闽ICP备14008679号