赞
踩
报告主题:探究线性表示在大语言模型中的起源
报告日期:5月9日(周四)10:30-11:30
报告要点:
大语言模型的成功很大程度上归结于它能有效的把海量信息压缩在模型的向量空间中。这项工作研究了这个基础问题: 大语言模型是如何表示高级语义概念的. 以往的研究发现高级语义概念通常在大语言模型的表示空间中被“线性”编码。是什么原因导致了这一现象呢? 在这项工作中,我们研究了这种线性表示的起源。我们发现这和下一个标记预测的目标和梯度下降的隐含偏差(implict bias)有关. 我们同时也验证了我们的理论在LLaMA-2 语言模型上.
报告嘉宾:
蒋贻博,论文一作,芝加哥大学计算机博士生, 导师为Victor Veitch教授. 他的研究领域包括特征学习, 因果推断, 可解释性. 硕士毕业于哥伦比亚大学,本科毕业于UIUC。
扫码报名
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。