赞
踩
在自然语言处理(NLP)中,Embedding 是一种将文本数据从高维稀疏向量空间转换到低维密集向量空间的技术。这种转换使得模型能够学习到词汇之间的语义和语法关系,并以连续的数值向量形式表示单词、句子或文档,从而便于机器学习算法处理。
在处理文本数据时,我们通常面对的是离散的符号(如单词)。Embedding 允许我们将这些离散的符号转换成连续的向量空间中的点,使得__相似意义的词在向量空间中距离较近,而不同意义的词距离较远。这种转换对于大多数机器学习算法至关重要,因为它们通常要求输入是数值型的。
词嵌入是将每个单词映射到一个固定长度的实数向量上,这个向量能够捕捉单词的语义信息。例如,"猫"和"狗"这两个词在嵌入空间中的向量会比较接近,因为它们在语义上有相似性。
一些著名的预训练词嵌入模型包括Word2Vec、GloVe和FastText。这些模型通过分析大量文本数据学习得到单词的嵌入向量。
随着Transformer架构的引入,如BERT、RoBERTa、ELECTRA等模型,词嵌入进入了上下文敏感的阶段。这些模型为文本中的每个单词生成嵌入时会考虑其上下文环境,因此,同一个单词在不同语境下的嵌入向量可以不同,这大大提高了模型理解复杂语言结构的能力。
Embedding广泛应用于各种NLP任务,包括但不限于:文本分类、语义相似度计算、机器翻译、对话系统、情感分析。
在深度学习框架中(如Keras、TensorFlow),Embedding层是一个常用的组件:
LangChain 的 Embeddings 类提供了一个标准化的接口,用于与不同的文本嵌入模型提供商(如 OpenAI 和 Cohere)进行交互。
文本嵌入模型通过将文本转换为向量形式,使得可以在向量空间中进行语义搜索和相似性比较。
Embeddings 类包含两种方法:
class Embeddings class FakeEmbeddings class DeterministicFakeEmbedding class OpenAIEmbeddings class AzureOpenAIEmbeddings class HuggingFaceEmbeddings class HuggingFaceInstructEmbeddings class HuggingFaceBgeEmbeddings class HuggingFaceInferenceAPIEmbeddings class AlephAlphaAsymmetricSemanticEmbedding class AlephAlphaSymmetricSemanticEmbedding class OpenAIEmbeddings class AnyscaleEmbeddings class AzureOpenAIEmbeddings class AwaEmbeddings class BaichuanTextEmbeddings class BedrockEmbeddings class BookendEmbeddings class ClarifaiEmbeddings class CohereEmbeddings class DashScopeEmbeddings class MlflowEmbeddings class MlflowCohereEmbeddings class DatabricksEmbeddings class DeepInfraEmbeddings class FakeEmbeddings class DeterministicFakeEmbedding class EdenAiEmbeddings class ElasticsearchEmbeddings class EmbaasEmbeddings class ErnieEmbeddings class FastEmbedEmbeddings class GPT4AllEmbeddings class GooglePalmEmbeddings class GradientEmbeddings class GigaChatEmbeddings class HuggingFaceHubEmbeddings class InfinityEmbeddings class InfinityEmbeddingsLocal class JavelinAIGatewayEmbeddings class JinaEmbeddings class JohnSnowLabsEmbeddings class LLMRailsEmbeddings class LaserEmbeddings class LlamaCppEmbeddings class LlamafileEmbeddings class LocalAIEmbeddings class MiniMaxEmbeddings class MlflowAIGatewayEmbeddings class ModelScopeEmbeddings class MosaicMLInstructorEmbeddings class NLPCloudEmbeddings class NeMoEmbeddings class OCIGenAIEmbeddings class OctoAIEmbeddings class OllamaEmbeddings class OpenVINOEmbeddings class OpenVINOBgeEmbeddings class QianfanEmbeddingsEndpoint class QuantizedBgeEmbeddings class QuantizedBiEncoderEmbeddings class OracleEmbeddings class SagemakerEndpointEmbeddings class SambaStudioEmbeddings class SelfHostedEmbeddings class SelfHostedHuggingFaceEmbeddings class SelfHostedHuggingFaceInstructEmbeddings class SolarEmbeddings class SpacyEmbeddings class SparkLLMTextEmbeddings class TensorflowHubEmbeddings class VertexAIEmbeddings class VolcanoEmbeddings class VoyageEmbeddings class XinferenceEmbeddings class TitanTakeoffEmbed class PremAIEmbeddings class YandexGPTEmbeddings class CacheBackedEmbeddings
通过打印,我们可以看到一些熟悉的面孔:OpenAIEmbeddings、HuggingFaceEmbeddings、BaichuanTextEmbeddings、CohereEmbeddings、ElasticsearchEmbeddings、GooglePalmEmbeddings、LlamaCppEmbeddings、QianfanEmbeddingsEndpoint、TensorflowHubEmbeddings等等。项目中可以根据需要,选择其中一种使用。
这里举两个例子用于说明,一个OpenAIEmbeddings 一个 HuggingFaceEmbeddings。
OpenAIEmbeddings 使用如下:
from langchain_openai import OpenAIEmbeddings embeddings_model = OpenAIEmbeddings(api_key="...") embeddings = embeddings_model.embed_documents( [ "Hi there!", "Oh, hello!", "What's your name?", "My friends call me World", "Hello World!" ] ) len(embeddings), len(embeddings[0]) # 5组向量,每组向量的纬度是1536 """ (5, 1536) """
HuggingFaceEmbeddings 使用如下:
from transformers.utils import is_torch_cuda_available, is_torch_mps_available from langchain_community.embeddings import HuggingFaceEmbeddings # 词嵌入模型 EMBEDDING_DEVICE = "cuda" if is_torch_cuda_available() else "mps" if is_torch_mps_available() else "cpu" embeddings_model = HuggingFaceEmbeddings(model_name='D:\models\m3e-base', model_kwargs={'device': EMBEDDING_DEVICE}) embeddings = embeddings_model.embed_documents( [ "Hi there!", "Oh, hello!", "What's your name?", "My friends call me World", "Hello World!" ] ) len(embeddings), len(embeddings[0]) # 5组向量,每组向量的纬度是768 """ (5, 768) """
CacheBackedEmbeddings 是一种用于缓存文本嵌入的工具,它可以_避免重复计算嵌入,提高效率。
初始化 CacheBackedEmbeddings 时,可以使用 from_bytes_store 方法,该方法需要指定一个嵌入器 underlying_embedder,一个用于缓存文档嵌入的 ByteStore,以及可选的 batch_size 和 namespace 参数。namespace 参数用于避免不同嵌入模型产生的缓存冲突。
LocalFileStore 提供了持久化缓存的能力,而 InMemoryByteStore 则提供了一个简单的内存中缓存解决方案。
示例代码如下:
from langchain.embeddings import CacheBackedEmbeddings from langchain.storage import LocalFileStore # 词嵌入模型 EMBEDDING_DEVICE = "cuda" if is_torch_cuda_available() else "mps" if is_torch_mps_available() else "cpu" underlying_embeddings = HuggingFaceEmbeddings(model_name='D:\models\m3e-base', model_kwargs={'device': EMBEDDING_DEVICE}) store = LocalFileStore("./cache/") cached_embedder = CacheBackedEmbeddings.from_bytes_store( underlying_embeddings, store, namespace='m3e-base' ) # Embedding is computed and cached # 第一次执行耗时较长 embeddings = cached_embedder.embed_documents(["hello", "goodbye"]) # 第二次执行很快,这就是缓存的作用 embeddings = cached_embedder.embed_documents(["hello", "goodbye"]) # 打印缓存文件的key list(store.yield_keys()) """ ['m3e-base6ba52e44-59c9-5cc9-a084-284061b13c80', 'm3e-basee885db5b-c0bd-5fbc-88b1-4d1da6020aa5'] """
缓存文件如下图所示,文件内容是向量数组。
Embedding 缓存还可以配合向量存储(Vector stores)使用,这部分我们下一篇文章会讲解,这里先卖个关子~
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。