赞
踩
本文是LLM系列文章,针对《GENRES: Rethinking Evaluation for Generative Relation Extraction in the Era of Large Language Models》的翻译。
关系提取(RE)领域正经历着向生成关系提取(GRE)的显著转变,利用了大型语言模型(LLM)的功能。然而,我们发现传统的关系提取(RE)指标,如精确度和召回率,在评估GRE方法方面存在不足。出现这种不足是因为这些指标依赖于与人类注释的参考关系的精确匹配,而GRE方法通常会产生不同于参考的多样且语义准确的关系。为了填补这一空白,我们引入GENRES,对GRE结果的主题相似性、唯一性、粒度、真实性和完整性进行多维评估。对于GENRES,我们从经验上发现:(1)精确度/召回率无法证明GRE方法的性能;
赞
踩
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。