Ai前沿技术汇总[1]：Quivr非结构化信息搜索、Drag Your GAN AI修图、MiniGPT-4、Falcon-40B、localGPT

作者：菜鸟追梦旅行 | 2024-04-01 10:00:42

踩

quivr

“AI前沿技术”专栏汇集了最前沿的人工智能技术，包括自然语言处理、语音识别、图像识别、机器学习、深度学习、强化学习、计算机视觉、区块链技术、智能机器人技术和虚拟现实技术等。本专栏将带您了解人工智能领域的最新进展和研究成果，探索人工智能技术的应用前景，感受人工智能给社会带来的变革。

1.Quivr 是一款使用生成 AI 技术来存储和检索非结构化信息的“第二大脑”

1.Quivr 是一款使用生成 AI 技术来存储和检索非结构化信息的“第二大脑”，可以将其视为 Obsidian 的增强版，并且具备更强的人工智能功能。

https://github.com/StanGirard/quivr

Quivr可以帮助把你的本地文件向量化，然后存储到云端，随时可以查询对话。文档格式支持Text、Markdown、 PDF、音频和视频。GPT端支持ChatGPT-3/4和Claude。向量数据库使用的是Supabase ，音视频是基于Whisper的API处理成文本的，主要语言是Python开发。

存储任何文件：Quivr可以处理几乎所有类型的数据。文本、图像、代码片段等等，您只需要说出来。
生成式人工智能：Quivr使用先进的人工智能技术来帮助您生成和检索信息。
快速高效：Quivr专为速度和效率而设计，以确保您能够尽快访问自己的数据。
安全可靠：您的数据始终在您的控制下。
兼容文件格式： TXT、CSV、MD、MARKDOWN、M4A、MP3、WEBM、MP4、MPGA、WAV、MPEG、PDF、HTML、*PPTX、DOCX（每个文件限制200M）
开源免费：Quivr是开源的，并且可以免费使用。

目标：Quivr上传本地文件到向量数据库并及时进行文本内容检索。

Quivr 是一款使用生成 AI 技术来存储和检索非结构化信

2.Drag Your GAN AI版PhotoShop

2.Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold

https://github.com/XingangPan/DragGAN

DragGAN 由两个主要部分组成：
第一部分是基于特征的运动监督，通过控制起始点向目标点运动，实现图像的变形；
第二部分是新的点跟踪方法，即最近邻检索，通过在相同的特征空间上进行点跟踪，提高了效率，并避免了累计误差损失。

DragGAN

Drag Your GAN

看效果，炸裂！PhotoShop 瑟瑟发抖，p图越来越简单

3.MiniGPT-4

https://github.com/Vision-CAIR/MiniGPT-4

阿卜杜拉国王科技大学开源MiniGPT-4，具备类GPT-4的图像理解与对话能力的多模态大模型
MiniGPT-4 是阿卜杜拉国王科技大学开源的一款多模态大模型，同时具备图像理解与对话能力。它使用 BLIP-2 的冻结视觉编码器和 Vicuna 的冻结 LLM，仅使用一个投影层进行对齐。MiniGPT-4 的训练分为两个阶段。第一阶段是传统的预训练阶段，使用 4 个 A100 GPU，大约 10 小时内训练了大约 500 万个图像和文本对。第二阶段针对对话模板进行微调，实现了类似 GPT4 性能的视觉语言能力，例如细的图像描述生成、从手写草稿创建网站等。项目目前已经在 github 开源，提供在线试用，安装环境和模型权重的步骤，可在本地运行 demo，以重新训练。

MiniGPT4 是一个具有图像理解能力的开源模型，其基于 Vicuna 大语言模型以及 BLIP-2 中的VIT和Qformer模块进行训练，使得MiniGPT4 拥有类似于GPT4的非凡能力，例如详细的图像描述生成和从手写草稿创建网站。此外 MiniGPT4 还具备一些的其他新的功能，包括根据给定图像写故事和诗歌，为图像中显示的问题提供解决方案，教用户如何根据食物照片做饭等。下图展示了MiniGPT4的模型结构，更多信息请参考MiniGPT4。
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
相关链接：

模型权重-https://huggingface.co/lmsys
论文-MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models
paddle框架下 minigpt4
获取和转换 Paddle 版 MiniGPT4 权重

4.Falcon-40B，40B性能超越650亿的LLaMA

阿联酋阿布扎比技术创新研究所开源模型Falcon，支持免费商用，40B性能超越650亿的LLaMA
Falcon 是阿联酋阿布扎比技术创新研究所（TII）开发的一种开源语言模型，免费可商用，比 LLaMA 表现更好。它有三个版本，其中 Falcon 40B 是最强大的，虽然规模稍小于 LLaMA 65B，但在性能方面表现出色，位列 Hugging Face OpenLLM 排行榜前两名。Falcon 40B 经过 1 万亿 token 网络数据集的训练，能够理解多种语言，包括欧洲小语种。该模型的训练成本低，仅相当于 Chinchilla 的 40%和 PaLM-62B 的 80%。相较于 GPT-3，Falcon 在只使用 75%的训练计算预算的情况下，实现了显著的性能提升，推理能力强，只需要 20%的计算时间。

5.localGPT：使用GPT在本地设备上进行100％私密问答，无需互联网连接

通过使用 GPT 模型在本地设备上与文档进行问答交流的方式，实现 100％私密且不离开设备的聊天。该项目受到了之前 privateGPT 的启发，使用 Vicuna-7B 模型替换了 GPT4ALL 模型，并使用 InstructorEmbeddings 代替原始 privateGPT 中使用的 LlamaEmbeddings。无论是 Embeddings 还是 LLM 都将在 GPU 上运行，并提供了 CPU 支持。可以在没有互联网连接的情况下向您的文档提问，并利用 LLM 的强大功能。