赞
踩
论文:https://arxiv.org/pdf/2405.17428
代码:未开源
模型:https://huggingface.co/nvidia/NV-Embed-v1
NVIDIA团队提出NV-Embed,采用多种架构设计和训练流程,显著提高LLM作为多功能嵌入模型的性能,同时保持其简单性和可重现性。
对于模型架构,提出了一个潜在的注意力层来获取汇总嵌入,与使用LLMs中的平均汇总或最后一个标记嵌入相比,它始终改善了检索和下游任务的准确性。
为了增强表示学习,们在对比训练期间去除了LLMs的因果注意力掩码。
对于模型训练,引入了一个两阶段的对比指导调整方法。首先,它在检索数据集上使用带有指导的对比训练,利用批内负样本和策划的困难负样本。在第二阶段,它将各种非检索数据集融入到指导调整中,不仅提高了非检索任务的准确性,还改善了检索性能。
通过结合这些技术,NV-Embed模型仅使用公开可用的数据,在 Massive Text Embedding Benchmark(MTEB)上取得了69.32的创纪录高分,截至2024年5月24日,排名第一,涵盖了56个任务,包括检索、重新排序、分类、聚类和语义文本相似性任务。值得注意的是,NV-Embed模型在MTEB基准测试中的15个检索任务中也取得了59.36的最高分(也称为BEIR)。
本文首发于公众号:AI智语狂想,欢迎关注。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。