2.An Ever-Updating Benchmark for Holistic Domain Knowledge Evaluation 摘要:为了适应大型语言模型(LLM)的快速发展,迫切需要新的自然语言处理(NLP)基准。对此,我们推出了最全面的评估套件Xiezhi(獬豸),旨在评估整体领域知识。Xiezhi由516个不同学科的选择题组成,共包含249,587道题目,并附有“Xiezhi-专业”和 “Xiezhi-跨学科”两个领域特色数据集,均有15k题。通过对解题网上47个最新的LLM进行评估,结果表明最强的LLM在科学、工程学、农学、医学和艺术方面的表现有了超过人类的平均水平,但在经济学、法学、教育学、文学、历史学和管理学方面则有所欠缺。我们期待Xiezhi能帮助分析人类和LLM之间的差距,并能有助于分析LLM的重要优势和不足。
3.Can Large Language Models Understand Real-World Complex Instructions 摘要:大规模语言模型(LLMs)能够理解人类丰富的指令,其应用场景不再局限于传统自然语言处理任务。然而,LLMs在处理真实使用场景中的复杂指令时仍然面临挑战。这些复杂指令可能包含需要执行的多个任务或者需要遵循的多个约束条件,也可能包含长篇幅、噪声、异构信息和多轮对话格式的复杂输入。大模型的很多错误可以归因于无法理解复杂指令:LLMs通常会忽略任务描述中的语义约束、格式约束、数据约束等,从而无法忠实于给定的输入内容进行回答等。目前的基准测试无法全面评估LLMs理解复杂指令的能力,因为它们涵盖的指令通常是封闭且简单的。为了弥补这一不足,我们提出了CELLO,一个用于系统评估LLMs理解复杂指令能力的基准测试集,归纳了复杂指令的八个特征,并从真实场景中搜集数据从而构建了评估数据集。此外,鉴于现有评估指标存在不适用、含有偏见或者粗粒度等问题,我们建立了四个评估LLMs理解复杂指令能力的标准并将其量化为自动化指标。通过广泛的实验对比了具有代表性的中英文大模型对复杂指令理解的能力。
摘要:尽管生成模型在众多研究任务中已经展现了较强的综合理解能力,它在多模态目标跟踪中的应用仍未被探索。因此,在此文中我们尝试使用生成式范式去解决多模态任务的核心问题-多模态信息融合。我们深入对比了两种常见的生成模型,条件生成对抗网络以及扩散模型。与传统融合范式将各个模态特征直接输入到融合网络不同,在生成式融合范式中我们将模态特征与随机噪声相结合,有效地将原始相对简单的样本对转换为困难样本对,提高了网络对噪声(无效信息)的感知能力,因此能够获得更好地跟踪性能。为了验证方法的有效性及鲁棒性,我们在2个不同的跟踪任务、3个不同的跟踪框架、4个不同的跟踪基准测试集上进行了验证实验,体现了算法较好的鲁棒性,同时在GTOT、LasHeR和RGBD1K测试集上达到了当前的最优性能。 3.Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-modal Structured Representations