赞
踩
大模型的存储一个很重要的问题是它的模型文件巨大,而模型的结构、参数等也会影响模型的推理效果和性能,为了让大模型更加高效的存储和交换,就有了不同格式的大模型文件。
GGML (GPT-Generated Model Language): Developed by Georgi Gerganov, GGML is a tensor library designed for machine learning, facilitating large models and high performance on various hardware, including Apple Silicon.
Pros
Early Innovation: GGML represented an early attempt to create a file format for GPT models.
Single File Sharing: It enabled sharing models in a single file, enhancing convenience.
CPU Compatibility: GGML models could run on CPUs, broadening accessibility.
Cons
GGUF (GPT-Generated Unified Format), introduced as a successor to GGML (GPT-Generated Model Language), was released on the 21st of August, 2023. This format represents a significant step forward in the field of language model file formats, facilitating enhanced storage and processing of large language models like GPT.
Pros
Cons
Embedding 嵌入是一种机器学习概念,用于将数据映射到高维空间中,在高维空间中,相似语义的数据被放置在一起
Embedding Model 【嵌入模型】
Dense embedding:是一种用于自然语言处理的技术,用于将单词或短语表示为高维空间中的连续、稠密向量,捕获语义关系
BAAI/ big -base-en-v1.5
输出768个浮点数的向量(768维浮点向量)。Sparse embedding:使用大多数元素为零的向量表示单词或短语,只有一个非零元素表示词汇表中特定单词的存在。它是高效和可解释的,使它们适合于精确的术语匹配相关的任务
常用的Embedding函数
Embedding Function | Type | API or Open-sourced |
---|---|---|
openai | Dense | API |
sentence-transformer | Dense | Open-sourced |
bm25 | Sparse | Open-sourced |
Splade | Sparse | Open-sourced |
bge-m3 | Hybrid | Open-sourced |
LlamaIndex is the leading data framework for building LLM applications
LlamaCPP: Inference of Meta’s LLaMA model (and others) in pure C/C++,是一个基于Meta公司的LLaMA模型的纯C/C++版本的推理框架。它主要用于模型推理
主要支持的是Meta公司的LLaMA系列模型,如LLaMA 2、Code Llama、Falcon、Baichuan等。这些模型都是基于LLaMA架构的,并且经过特定的格式转换(如转换为gguf格式)后,才能在LlamaCPP中进行推理。
想要使用LlamaCPP进行模型推理,需要确保你选择的模型是LLaMA系列的,并且已经转换为LlamaCPP所支持的格式
The main goal of llama.cpp
is to enable LLM inference with minimal setup and state-of-the-art performance on a wide variety of hardware - locally and in the cloud.
PoetryPython packaging and dependency management tool
Poetry可以帮助您声明、管理和安装Python项目的依赖项,确保您在任何地方都有正确的堆栈。
ASGI(Asynchronous Server Gateway Interface)是一种 Python 异步 Web 服务器和应用程序之间通信的接口标准。与传统的 WSGI(Web Server Gateway Interface)相比,ASGI 更适用于高并发和实时性要求高的应用程序,例如聊天应用、实时通知、在线游戏等。
FastAPI is a modern, fast (high-performance), web framework for building APIs with Python 3.8+ based on standard Python type hints.
Chroma is the open-source embedding database. Chroma makes it easy to build LLM apps by making knowledge, facts, and skills pluggable for LLMs.
Chroma的目标是帮助用户更加便捷地构建大模型应用,更加轻松的将知识(knowledge)、事实(facts)和技能(skills)等我们现实世界中的文档整合进大模型中。
Chroma提供的工具:
Chroma的设计优先考虑:
Qdrant一个开源的相似性搜索引擎,专注于高效处理向量数据。它不仅提供了快速的相似性搜索能力,还支持向量的实时插入和删除,使其在实时场景中也能发挥重要作用。其设计旨在解决大规模向量数据检索的问题,例如图像、文本和其他复杂数据类型。
如果调用,参见安装文档
Gradio is the fastest way to demo your machine learning model with a friendly web interface so that anyone can use it, anywhere!
若要试用,参见quickstart
privategpt安装:https://docs.privategpt.dev/installation/getting-started/installation
在2024年1月底OpenAI发布新的向量模型,并提到新的向量模型支持将向量维度缩短。向量模型支持缩短维度而又不会威胁到向量的表示能力的原因在于使用了Matryoshka Representation Learning。
MRL名字里的Matryoshka是指俄罗斯套娃,俄罗斯套娃是一系列可以一个套一个的娃娃,所以MRL希望训练好的向量在去掉向量后面的一些维度后仍有表征含义。
Matryoshka Representation Learning (MRL)是2022年发表的论文,由于OpenAI的使用得到了很多关注,论文共同一作甚至写了一篇博客来解释MRL的原理。开源文本向量nomic-embed-text-v1.5 也应用了MRL支持使用时调整向量维度
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。