赞
踩
最近,国际学习表征会议(ICLR)公布了2024年会议的最终决定,其中引起广泛关注的是一个名为Mamba的模型。这个模型最初被认为是对抗著名的Transformer架构进行语言建模任务的主要竞争者,但最终被拒绝,尽管它得到了审稿人8—8—6—3的评分。
Mamba的拒绝引发了疑问,特别是考虑到它作为一种选择性状态空间模型,能够随上下文长度线性扩展,在某些方面可能优于Transformer。然而,通过仔细审查审稿人的反馈意见,可以发现主要问题集中在评估方法上。
两个关键问题导致了Mamba的拒绝:
缺少LRA结果:缺乏长距离竞技场(LRA)基准测试结果,这是评估长序列模型的标准。LRA在类似研究中一直是常规基准测试,缺少这一结果是一个显著的遗漏。
质疑困惑度作为评估指标:使用困惑度作为主要指标受到了质疑。批评者认为,较低的困惑度得分并不一定意味着在现实世界的NLP应用中具有更好的建模能力,建议需要更全面的评估方法。
尽管论文有其优势,但这些问题,特别是缺乏全面的基准测试和依赖困惑度,被认为是重大问题。审稿过程以建议拒绝结束,建议通过额外的实验解决这些问题,以利于未来的提交。
Mamba的故事类似于另一个突破性工作的历程:Word2vec。尽管在2013年ICLR首次会议上被拒绝,Word2vec后来成为NLP领域的基石,展示了创新研究在该领域中的不可预测路径。其拒绝的原因主要与提交的演示和对反馈的回应有关,突显了同行评审过程的复杂性。
Mamba和Word2vec的经历突显了学术研究的一个关键方面:会议的拒绝并不决定研究的价值或潜在影响。正如Word2vec后来赢得了NeurIPS 2023年度时间考验奖,突破性的想法可以超越最初的挫折,对其领域做出重大贡献。
此外,最近发现的流行开源多模态大模型CogVLM被ICLR拒绝进一步强调了研究旅程中充满了挑战和学习机会。对于Mamba、CogVLM和类似项目的研究人员来说,拒绝可以成为进一步完善和最终认可的踏脚石。
ICLR 2024对Mamba的决定,让人联想起Word2vec的故事,提醒我们科学研究中的同行评审过程具有动态性和不可预测性。它强调了韧性、持续改进的重要性以及对研究真正价值的信念,这些价值超越了在任何一个会议上的接受。随着AI社区的不断发展,像Mamba和Word2vec这样的模型的贡献无疑将为新的突破和创新铺平道路。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。