赞
踩
原标题: Why Warmup the Learning Rate? Underlying Mechanisms and Improvements
作者: Dayal Singh Kalra, Maissam Barkeshli
机构: 马里兰大学
摘要: 在深度学习中,常常通过线性调度来使学习率 η \eta η 进行预热,通常在 η init = 0 \eta_{\text{init}} = 0 ηinit=0 和预定目标 η trgt \eta_{\text{trgt}} ηtrgt 之间进行。在本文中,我们通过使用 SGD 和 Adam 进行系统实验,展示了预热的巨大好处是通过强制网络进入更好条件的损失函数空间来容忍更大的 η trgt \eta_{\text{trgt}} ηtrgt。能够处理更大的 η trgt \eta_{\text{trgt}} ηtrgt 使得超参数调优更加稳健,同时提高最终的性能。我们揭示了在预热期间不同的操作模式,取决于训练是否从渐进锐化或锐化减少阶段开始,这又取决于初始化和参数化。利用这些洞察,我们展示了如何通过利用损失弹射机制来正确选择 η init \eta_{\text{init}} ηinit,从而节省预热步骤的数量,在某些情况下完全消除了预热的需求。我们还提出了一种适用于 Adam 方差的初始化方法,其提供了类似预热的好处。
论文链接: https://arxiv.org/pdf/2406.09405
原标题: A More Practical Approach to Machine Unlearning
作者: David Zagardo
机构: Green Willow Studios
摘要: 机器学习模型通常会整合大量的数据,引发了重大的隐私问题。机器去学习(machine unlearning)是指从训练模型中去除特定数据点的影响,以解决这些问题。本文探讨了实现机器去学习的实用方法,重点关注了第一轮梯度上升法(first-epoch gradient-ascent approach)。
主要发现包括:1. 单轮与多轮去学习:第一轮梯度去学习比多轮梯度更有效。2. 基于层的去学习:GPT-2中的嵌入层对于有效的去学习至关重要。输出层(11和12层)的梯度没有影响。只使用嵌入层可以实现高效的去学习,减少了空间复杂度一半。3. 影响函数和评分:使用Hessian Vector Product和激活函数和张量的点积等技术来量化去学习。4. 梯度上升的考虑:需要进行校准,以避免在去学习过程中过度暴露模型于特定数据点,可能会过早终止过程。5. 模糊匹配与迭代去学习:模糊匹配技术将模型转移到新的最优点,而迭代去学习提供了更完整的模态。
我们的实证评估证实,对于机器去学习来说,第一轮梯度上升法比整体模型梯度上升法更有效。这些结果突显了机器去学习在增强数据隐私和符合GDPR和CCPA等法规方面的潜力。该研究强调了使用形式化方法全面评估去学习过程的重要性。
论文链接: https://arxiv.org/pdf/2406.09391
原标题: Reflecting on the State of Rehearsal-free Continual Learning with Pretrained Models
作者: Lukas Thede, Karsten Roth, Olivier J. Hénaff, Matthias Bethge, Zeynep Akata
机构: Tubingen AI Center, University of T ubingen
Helmholtz Munich, MCML
Google DeepMind
TU Munich
摘要: 随着基础模型的出现和最近的普及,持续学习(CL)已经从从头开始的持续训练转变为预训练模型的持续适应,尤其在无需回忆的CL基准测试(RFCL)上取得了特定的成功。为了实现这一目标,大多数提出的方法都是根据输入条件的查询机制或者在prompt-或者adapter-based PEFT之上进行正则化,来适应问题的持续性。这些PEFT风格的RFCL(P-RFCL)方法经常报告出色的性能,往往能够明显优于现有的CL技术。然而,另一方面,一些关键研究最近突出了仅通过训练第一个任务或者通过简单的非参数基准来获得竞争性结果。因此,关于P-RFCL方法中方法选择与其报告的高基准分数之间的关系产生了一些问题。在这项工作中,我们解决了这些问题,以更好地理解强大的P-RFCL性能背后的真正驱动因素,它们与最近的第一个任务适应研究的位置以及它们与之前的CL标准(如EWC或SI)的关系。具体而言,我们展示了:(1)依赖于输入条件查询机制的P-RFCL技术之所以有效,并不是因为它们,而是尽管它们会向标准的PEFT快捷解决方案收敛。(2)事实上,我们展示了大多数情况下,简单且轻量级的PEFT基准可以与P-RFCL技术相匹配。(3)利用这个基准,我们确定了从PEFT方法中推导RFCL方法时可调参数的隐含上限,作为P-RFCL有效性背后的一个潜在因素。最后,我们(4)更好地区分持续与第一个任务的适应,并(5)在最近的P-RFCL方法的光下,推动标准的RFCL技术,如EWC或SI。
论文链接: https://arxiv.org/pdf/2406.09384
原标题: Data-dependent and Oracle Bounds on Forgetting in Continual Learning
作者: Lior Friedman, Ron Meir
机构: 以色列理工学院
摘要: 在持续学习中,知识必须在任务之间得以保留和重复使用,以确保对未来任务的良好迁移,并最小化对先前学习任务的遗忘。虽然已经提出了几种实用的算法来解决这个问题,但在一般情况下,很少有理论工作旨在量化和限制遗忘的程度。我们提供了基于数据和基于预测的上界,无论模型和算法选择如何,都适用,同时还提供了Gibbs后验的上界。我们根据我们的上界推导出一种算法,并通过实验证明我们的方法可以改善前向和后向迁移。
论文链接: https://arxiv.org/pdf/2406.09370
原标题: Towards an Improved Understanding and Utilization of Maximum Manifold Capacity Representations
作者: Rylan Schaeffer, Victor Lecomte, Dhruv Bhandarkar Pai, Andres Carranza, Berivan Isik, Alyssa Unell, Mikail Khona, Thomas Yerxa, Yann LeCun, SueYeon Chung, Andrey Gromov, Ravid Shwartz-Ziv, Sanmi Koyejo
机构: 斯坦福大学 麻省理工学院 纽约大学 纽约大学数据科学与Meta AI FAIR 纽约大学神经科学与Flatiron Institute UMD物理与Meta AI FAIR
摘要: 最大流形容量表示(MMCR)是一种最近的多视角自监督学习(MVSSL)方法,它与其他领先的MVSSL方法相匹配或超越。MMCR之所以引人注目,是因为它不完全符合任何常见的MVSSL谱系,而是源于对数据流形线性可分性的统计力学视角。在本文中,我们试图改进对MMCR的理解和利用。为了更好地理解MMCR,我们利用高维概率工具来证明MMCR激励学习嵌入的对齐和均匀性。然后,我们利用信息论工具来展示这样的嵌入最大化了视角之间互信息的一个众所周知的下界,从而将MMCR的几何视角与MVSSL中常常讨论的信息论视角联系起来。为了更好地利用MMCR,我们在数学上预测并实验证实了与非典型超参数相关的预训练损失的非单调变化,类似于双峰下降。我们还发现了计算缩放定律,可以预测预训练损失与梯度步数、批量大小、嵌入维度和视角数量的函数关系。然后,我们展示了MMCR在原始应用于图像数据的基础上,在多模态图像-文本数据上的性能。通过更深入地理解MMCR的理论和实证行为,我们的工作揭示了改进MVSSL方法的见解。
论文链接: https://arxiv.org/pdf/2406.09366
原标题: Understanding Hallucinations in Diffusion Models through Mode Interpolation
作者: Sumukh K Aithal, Pratyush Maini, Zachary C. Lipton, J. Zico Kolter
机构: Carnegie Mellon University DatalogyAI
摘要: 口头上说,基于扩散过程的图像生成模型经常被称为“幻觉”,即在训练数据中永远不可能出现的样本。但是这些幻觉从何而来?在本文中,我们研究了扩散模型中的一种特定故障模式,称为模式插值。具体而言,我们发现扩散模型在训练集中平滑地“插值”相邻数据模式,以生成完全超出原始训练分布支持范围的样本;这种现象导致扩散模型生成从未存在于真实数据中的人工制品(即幻觉)。我们系统地研究了这种现象的原因和表现。通过对一维和二维高斯数据集的实验,我们展示了扩散模型解码器中不连续的损失景观如何导致任何平滑近似都会引起这种幻觉的区域。通过对具有不同形状的人工数据集的实验,我们展示了幻觉如何导致生成从未存在过的形状组合。最后,我们展示了扩散模型实际上知道何时超出支持范围并产生幻觉。这通过生成样本在最后几个反向采样过程中的轨迹具有很高的方差来捕捉。使用一个简单的度量来捕捉这种方差,我们可以在生成时去除超过95%的幻觉,同时保留96%的支持样本。我们通过在MNIST和二维高斯数据集上进行实验,展示了这种幻觉(及其消除)对合成数据上的递归训练的崩溃(和稳定)的影响。我们在此https URL上发布了我们的代码。
论文链接: https://arxiv.org/pdf/2406.09358
Github: https://github.com/locuslab/diffusion-model-hallucination
原标题: Advancing Graph Generation through Beta Diffusion
作者: Yilin He, Xinyang Liu, Bo Chen, Mingyuan Zhou
机构: 德克萨斯大学奥斯汀分校 西安电子科技大学
摘要: 扩散模型已经证明在生成自然图像方面的有效性,并已扩展到生成包括图形在内的多种数据类型。这一新一代基于扩散的图形生成模型在性能上显著优于依赖于变分自编码器或生成对抗网络的方法。然而,需要注意的是,大多数这些模型采用高斯或分类扩散过程,这些过程在处理稀疏和长尾数据分布时可能会遇到困难。在我们的工作中,我们引入了图形贝塔扩散(GBD),这是一种基于扩散的生成模型,特别擅长捕捉多样的图形结构。GBD利用了一种适用于图形邻接矩阵的稀疏和范围有界特性的贝塔扩散过程。此外,我们还开发了一种调制技术,通过稳定关键图形结构的生成,同时在其他地方保持灵活性,增强了生成图形的逼真度。GBD在三个通用图形基准和两个生物化学图形基准上的出色性能突显了其有效捕捉现实世界图形数据复杂性的能力。代码将在此https URL上提供。
论文链接: https://arxiv.org/pdf/2406.09357
Github: https://github.com/YH-UtMSB/Graph_Beta_Diffusion
原标题: Enhancing Domain Adaptation through Prompt Gradient Alignment
作者: Hoang Phan, Lam Tran, Quyen Tran, Trung Le
机构: New York University
摘要: 传统的无监督领域自适应(UDA)方法通常旨在训练一个领域不变的特征提取器,这可能会阻碍模型学习足够有区分性的特征。为了解决这个问题,基于提示学习的一系列方法利用大规模预训练的视觉-语言模型的能力,通过一组领域不可知和领域特定的可学习提示来学习领域不变和特定的特征。这些研究通常在表示、输出或提示空间上强制执行不变约束来学习这些提示。与之不同的是,我们将UDA视为一个多目标优化问题,其中每个目标由一个领域损失表示。在这个新的框架下,我们提出了对齐每个目标梯度以促进它们之间的一致性。此外,为了防止在微调这个深度学习架构时潜在的过拟合,我们对这些梯度的范数进行惩罚。为了实现这些目标,我们设计了一个实用的梯度更新过程,可以在单源和多源UDA下工作。实证上,我们的方法在不同的UDA基准测试中始终大幅超过其他基于提示的基线方法。
论文链接: https://arxiv.org/pdf/2406.09353
原标题: Separations in the Representational Capabilities of Transformers and Recurrent Architectures
作者: Satwik Bhattamishra, Michael Hahn, Phil Blunsom, Varun Kanade
机构: University of Oxford Saarland University Cohere
摘要: Transformer架构已经被广泛应用于基础模型中。由于其高推理成本,人们对探索高效循环架构(RNNs)的潜力重新产生了兴趣。在本文中,我们分析了Transformer和RNNs在几个实际相关任务中的表征能力差异,包括索引查找、最近邻、识别有界Dyck语言和字符串相等性。对于所考虑的任务,我们的结果显示了不同架构所需模型大小的差异。例如,我们表明,一个对数宽度的单层Transformer可以执行索引查找,而RNN需要一个线性大小的隐藏状态。相反,虽然大小恒定的RNN可以识别有界Dyck语言,但我们表明,一个单层Transformer在这个任务上需要一个线性大小。此外,我们表明,对数大小的两层Transformer可以执行决策任务,如字符串相等性或不相交性,而单层Transformer和循环模型都需要线性大小来完成这些任务。我们还表明,对数大小的两层Transformer可以在前向传递中实现最近邻算法;而循环模型则需要线性大小。我们的构造基于 N N N维空间中存在 N N N个近乎正交的向量的存在,我们的下界基于通信复杂性问题的约简。我们通过实验证明了这些架构在实际大小序列上性能差异的差异。
论文链接: https://arxiv.org/pdf/2406.09347
原标题: Scoreformer: A Surrogate Model For Large-Scale Prediction of Docking Scores
作者: Álvaro Ciudad, Adrián Morales-Pastor, Laura Malo, Isaac Filella-Mercè, Victor Guallar, Alexis Molina
机构: Nostrum Biodiscovery S.L. Barcelona Supercomputing Center Institució Catalana de Recerca i Estudis Avançats (ICREA)
摘要: 在这项研究中,我们提出了ScoreFormer,这是一种新颖的图转换模型,旨在准确预测分子对接得分,从而优化药物发现中的高通量虚拟筛选(HTVS)。该架构集成了主要邻域聚合(PNA)和可学习的随机游走位置编码(LRWPE),增强了模型理解复杂分子结构及其与对应对接得分之间关系的能力。这种方法在覆盖化学空间和性能提升方面显著超过了传统的HTVS方法和最近的图神经网络(GNN)模型。我们的结果表明,ScoreFormer在对接得分预测方面具有竞争力,并且相比现有模型推理时间减少了1.65倍。我们在多个数据集和各种条件下评估了ScoreFormer,确认其在快速识别潜在药物候选物方面的稳健性和可靠性。
论文链接: https://arxiv.org/pdf/2406.09346
原标题: Learning the Influence Graph of a High-Dimensional Markov Process with Memory
作者: Smita Bagewadi, Avhishek Chatterjee
摘要: 受社交网络、神经系统和金融风险分析等多个应用的启发,我们考虑学习具有记忆的高维多变量离散时间马尔可夫过程的潜在(有向)影响图或因果图的问题。在任何离散时间点,多变量过程的每个观测变量都是一个随机长度的二进制字符串,其由一个不可观测或隐藏的[0,1]值标量参数化。与变量对应的隐藏标量根据由变量构成的潜在影响图所规定的离散时间线性随机动力学演化。我们将一种现有的用于学习独立同分布图模型的算法扩展到具有记忆的马尔可夫设置,并证明在影响图的度受限时,它可以基于二进制观测学习影响图,使用对数(与变量或节点数量)样本。本工作的关键分析贡献是通过上下界限制观察到的具有记忆的马尔可夫过程收敛到其稳态分布的速率来推导样本复杂性结果。
论文链接: https://arxiv.org/pdf/2406.09338
原标题: Is Value Learning Really the Main Bottleneck in Offline RL?
作者: Seohong Park, Kevin Frans, Sergey Levine, Aviral Kumar
机构: 加州大学伯克利分校 谷歌DeepMind
摘要: 尽管模仿学习需要高质量的数据,但离线强化学习(RL)理论上应该通过使用值函数在数据质量较低的情况下表现相似或更好。然而,当前的结果表明,离线强化学习通常表现不如模仿学习,并且通常不清楚是什么阻碍了离线强化学习的性能。受到这一观察的启发,我们旨在了解当前离线强化学习算法的瓶颈。尽管通常将离线强化学习的性能差归因于不完美的值函数,但我们提出了一个问题:离线强化学习的主要瓶颈确实在于学习值函数,还是其他原因?为了回答这个问题,我们对离线强化学习问题中的值学习、策略提取和策略泛化进行了系统的实证研究,分析了这些组成部分对性能的影响。我们做出了两个令人惊讶的观察。首先,我们发现策略提取算法的选择显著影响离线强化学习的性能和可扩展性,通常比值学习目标更为重要。例如,我们表明常见的基于值加权的行为克隆目标(例如AWR)不能充分利用学到的值函数,而切换到基于行为约束的策略梯度目标(例如DDPG+BC)通常会显著提高性能和可扩展性。其次,我们发现改善离线强化学习性能的一个重要障碍通常是在训练数据支持范围之外的测试状态上的策略泛化不完美,而不是在分布状态上的策略学习。然后,我们展示了在实践中使用次优但高覆盖率的数据或测试时策略训练技术可以解决这个泛化问题。具体而言,我们提出了两种简单的测试时策略改进方法,并展示了这些方法可以提高性能。
论文链接: https://arxiv.org/pdf/2406.09329
原标题: A tutorial on fairness in machine learning in healthcare
作者: Jianhui Gao, Benson Chou, Zachary R. McCaw, Hilary Thurston, Paul Varghese, Chuan Hong, Jessica Gronsbell
机构: 多伦多大学统计科学系,加拿大多伦多
摘要: 目标:确保机器学习(ML)算法在所有患者群体中安全有效,并不会对特定患者造成不利影响,这对于临床决策和防止现有医疗不平等的强化至关重要。本教程的目标是向医学信息学界介绍ML中公平性的常见概念,重点关注临床应用和实践中的实施。
目标受众:由于公平性在各种医疗应用中存在差距,本教程旨在向研究人员和临床医生提供对公平性的理解,无需假设先前的知识,他们使用现代临床数据。
范围:我们描述了用于定义ML中公平性的基本概念和方法,包括为什么医疗模型可能不公平的概述,用于量化公平性的指标的总结和比较,以及一些正在进行的研究的讨论。我们通过一个公开可用的电子健康记录数据集中的死亡率预测案例研究来说明一些引入的公平性方法。最后,我们提供了一个用户友好的R软件包,用于全面评估群体公平性,使研究人员和临床医生能够评估他们自己的ML工作中的公平性。
论文链接: https://arxiv.org/pdf/2406.09307
原标题: MLKV: Multi-Layer Key-Value Heads for Memory Efficient Transformer Decoding
作者: Zayd Muhammad Kawakibi Zuhri, Muhammad Farid Adilazuarda, Ayu Purwarianti, Alham Fikri Aji
机构: Institut Teknologi Bandung (ITB) MBZUAI
摘要: 自回归的Transformer从键值(KV)缓存中获益匪浅,但随着模型大小、批次大小和序列长度的增长,可能会导致主要的内存瓶颈。我们引入了多层键值(MLKV)共享,这是一种新颖的方法,将KV共享扩展到Transformer的各个层,以减少内存使用量,超越了多查询注意力(MQA)和分组查询注意力(GQA)所能实现的范围。通过对各种自然语言处理基准和推理指标的评估,使用经过训练的Pythia-160M变体,证明了MLKV在减少内存使用量方面具有显著的效果,同时性能损失最小,将KV缓存大小减少到MQA的6倍。这些结果突显了MLKV在大规模Transformer模型的高效部署方面的潜力。我们在此https URL提供了代码。
论文链接: https://arxiv.org/pdf/2406.09297
Github: https://github.com/zaydzuhri/pythia-mlkv
原标题: You Don’t Need Data-Augmentation in Self-Supervised Learning
作者: Théo Moutakanni, Maxime Oquab, Marc Szafraniec, Maria Vakalopoulou, Piotr Bojanowski
机构: FAIR at Meta MICS, CentraleSupélec, Université Paris-Saclay
摘要: 自监督学习(SSL)与联合嵌入架构(JEA)的结合已经取得了出色的表现。这种范式的所有实例都是使用强大且成熟的手工数据增强进行训练的,这导致人们普遍认为这些增强是这些模型正确训练和性能所必需的。另一方面,基于生成重建的模型,如BEIT和MAE,或者基于联合嵌入的预测架构,如I-JEPA,在没有使用除遮罩之外的数据增强的情况下也表现出了强大的性能。在这项工作中,我们挑战了JEAs在规模上的不变性和数据增强的重要性。通过对最近的SSL基础模型DINOv2进行案例研究,我们展示了只使用裁剪而不进行调整的情况下,只要训练数据足够大,就可以获得强大的图像表示,达到了文献中最少的增强使用量,并取得了最先进的结果。通过这项研究,我们还讨论了计算约束对实验深度学习研究结果的影响,表明它们可能导致非常不同的结论。
论文链接: https://arxiv.org/pdf/2406.09294
原标题: A Flexible, Equivariant Framework for Subgraph GNNs via Graph Products and Graph Coarsening
作者: Guy Bar-Shalom, Yam Eitan, Fabrizio Frasca, Haggai Maron
摘要: 子图图神经网络(Subgraph GNNs)通过将图表示为子图集合来增强消息传递GNNs的表达能力。它们在多个任务上表现出色,但其复杂性限制了在较大图上的应用。先前的方法建议仅处理子图的子集,这些子集可以通过随机选择或可学习的采样选择。然而,它们选择的子图是次优的,或者只能处理非常小的子集大小,必然导致性能下降。本文介绍了一个新的子图GNNs框架来解决这些问题。我们使用图粗化函数将节点聚类为具有诱导连通性的超节点。粗化图与原始图的乘积揭示了一种隐含结构,其中子图与特定节点集相关联。通过在这样的图乘积上运行广义消息传递,我们的方法有效地实现了一种高效而强大的子图GNN。通过控制粗化函数,我们可以有意义地选择任意数量的子图,同时与标准训练技术完全兼容,与先前的方法相比具有更大的灵活性。值得注意的是,我们发现得到的节点特征张量展现出新的、未被探索的置换对称性。我们利用这种结构,对应于线性等变层,并将其纳入我们的子图GNN架构的层中。在多个图学习基准测试上进行的大量实验证明,我们的方法比先前的方法更加灵活,因为它可以无缝处理任意数量的子图,并始终优于基准方法。
论文链接: https://arxiv.org/pdf/2406.09291
原标题: Zero-Shot Learning Over Large Output Spaces : Utilizing Indirect Knowledge Extraction from Large Language Models
作者: Jinbin Zhang, Nasib Ullah, Rohit Babbar
机构: Aalto University University of Bath
摘要: 极端多标签学习(XMC)是一种任务,它为一个实例从预定义的标签集中分配最相关的标签。极端零样本XMC(EZ-XMC)是XMC的一种特殊设置,其中不提供监督;只提供实例(文档的原始文本)和预定的标签集。该场景旨在解决分类和推荐中的冷启动问题。传统的最先进方法从文档标题或段落中提取伪标签。这些来自文档的标签用于训练零样本双编码器模型。这些生成的标签的主要问题是它们与标记任务的不对齐。在这项工作中,我们提出了一个框架,通过大语言模型(LLM)的反馈来训练一个小型双编码器模型,双编码器模型将文档和标签编码为用于检索的嵌入。我们的方法利用LLM的零样本能力来评估标签与文档之间的相关性,而不是使用从文档本身提取的低质量标签。我们的方法还保证了快速的推理,而不涉及LLM的参与。我们的方法在各种数据集上的性能优于SOTA方法,同时对于大型数据集保持了类似的训练时间。
论文链接: https://arxiv.org/pdf/2406.09288
原标题: Flexible Heteroscedastic Count Regression with Deep Double Poisson Networks
作者: Spencer Young, Porter Jenkins, Lonchao Da, Jeff Dotson, Hua Wei
机构: Delicious AI, Brigham Young University, Arizona State University, Ohio State University
摘要: 神经网络能够产生准确的、输入条件下的不确定性表示,对于实际应用非常重要。最近在异方差连续回归方面取得的进展,对于复杂任务(如图像回归)的校准不确定性量化显示出了巨大的潜力。然而,当这些方法应用于离散回归任务(如人群计数、评级预测或库存估计)时,它们往往会产生具有许多病态的预测分布。我们提出通过训练神经网络输出双泊松分布的参数来解决这些问题,我们称之为深度双泊松网络(DDPN)。与现有方法相比,这些方法被训练以最小化高斯负对数似然(NLL),DDPNs产生了一个适当的离散输出概率质量函数。此外,DDPNs自然地对欠、过和等离散度进行建模,而不像使用更严格的泊松和负二项参数化训练的网络。我们展示了DDPNs:1)远远优于现有的离散模型;2)达到或超过使用高斯NLL训练的网络的准确性和灵活性;3)产生适当的离散计数预测分布;4)具有优越的离群检测能力。DDPNs可以轻松应用于各种计数回归数据集,包括表格、图像、点云和文本数据。
论文链接: https://arxiv.org/pdf/2406.09262
原标题: Assessing Model Generalization in Vicinity
作者: Yuchi Liu, Yifan Sun, Jingdong Wang, Liang Zheng
机构: 澳大利亚国立大学 百度 清华大学
摘要: 本文评估了分类模型在无需依赖于真实标签的情况下对于分布外测试集的泛化能力。常见的方法通常计算与特定模型属性(如置信度或不变性)相关的无监督度量,该度量与分布外准确性相关。然而,这些度量通常针对每个测试样本单独计算,可能会出现由于虚假模型响应(如过高或过低的置信度)而引起的潜在问题。为了解决这个挑战,我们提出将相邻测试样本的响应纳入到每个单独样本的正确性评估中。本质上,如果一个模型对于附近样本始终表现出高正确性得分,那么它增加了正确预测目标样本的可能性,反之亦然。然后,将得到的得分平均计算在所有测试样本上,以提供模型准确性的整体指示。在vicinal risk formulation的基础上开发的这种方法,被称为vicinal risk proxy (VRP),可以在不依赖标签的情况下计算准确性。我们展示了将VRP方法应用于现有的泛化指标(如平均置信度和有效不变性)时,无论是在方法论上还是在实验上,都能持续改进这些基准。这在具有挑战性的分布外测试集上特别能够与模型准确性更强的相关性。
论文链接: https://arxiv.org/pdf/2406.09257
原标题: GuardAgent: Safeguard LLM Agents by a Guard Agent via Knowledge-Enabled Reasoning
作者: Zhen Xiang, Linzhi Zheng, Yanjie Li, Junyuan Hong, Qinbin Li, Han Xie, Jiawei Zhang, Zidi Xiong, Chulin Xie, Carl Yang, Dawn Song, Bo Li
机构: UIUC Tsinghua University Hong Kong Polytechnic University UT Austin UC Berkeley Emory University University of Chicago
摘要: 大语言模型(LLMs)的快速发展催生了在许多应用中部署以LLM为动力的智能体,引发了对其安全性和可信度的新关注。现有的增强LLM安全性的方法无法直接应用于LLM智能体,因为它们具有不同的目标和输出方式。在本文中,我们提出了GuardAgent,作为其他LLM智能体的第一个LLM智能体作为防护栏。具体而言,GuardAgent通过检查目标LLM智能体的输入/输出是否满足用户定义的一组给定的防护请求来监督目标LLM智能体。GuardAgent包括两个步骤:1)通过分析提供的防护请求创建任务计划,2)基于任务计划生成防护代码,并通过调用API或使用外部引擎执行代码。在这两个步骤中,LLM被用作核心推理组件,辅以从内存模块中检索的上下文演示。这种知识驱动的推理使GuardAgent能够理解各种文本防护请求,并准确地“翻译”它们为可靠的防护代码。此外,GuardAgent配备了一个可扩展的工具箱,包含函数和API,并且不需要额外的LLM训练,这凸显了它的泛化能力和低操作开销。此外,我们提出了两个新颖的基准测试:用于评估医疗智能体的与隐私相关的访问控制的EICU-AC基准测试和用于评估网络智能体安全性的Mind2Web-SC基准测试。我们展示了GuardAgent在这两个基准测试中的有效性,分别在两种类型的智能体的无效输入和输出的调节上达到了98.7%和90.0%的准确率。我们还展示了GuardAgent能够根据新兴的LLM智能体和防护请求定义新的函数,这凸显了它强大的泛化能力。
论文链接: https://arxiv.org/pdf/2406.09187
原标题: LaCoOT: Layer Collapse through Optimal Transport
作者: Victor Quétu, Nour Hezbri, Enzo Tartaglione
机构: LTCI, Télécom Paris, Institut Polytechnique de Paris, France
摘要: 尽管深度神经网络以其在解决复杂任务方面的出色性能而闻名,但它们对计算资源的需求仍然是一个重要障碍,导致能源消耗问题,并限制了它们在资源受限设备上的部署,从而阻碍了它们的广泛采用。在本文中,我们提出了一种优化传输方法来减少过参数化的深度神经网络的深度,减轻其计算负担。具体而言,我们提出了一种基于最大切片Wasserstein距离的新的正则化策略,以最小化神经网络中间特征分布之间的距离。我们展示了通过最小化这个距离可以完全删除网络中的中间层,几乎没有性能损失,并且不需要任何微调。我们在传统图像分类设置上评估了我们方法的有效性。我们承诺在文章被接受后发布源代码。
论文链接: https://arxiv.org/pdf/2406.08933
原标题: Adaptive Slot Attention: Object Discovery with Dynamic Slot Number
作者: Ke Fan, Zechen Bai, Tianjun Xiao, Tong He, Max Horn, Yanwei Fu, Francesco Locatello, Zheng Zhang
机构: 复旦大学 国立新加坡大学 亚马逊网络服务 GSK.ai 奥地利科学与技术研究所
摘要: 目标中心学习(OCL)通过插槽提取对象的表示,为抽象低级感知特征提供了出色的灵活性和可解释性。OCL中广泛采用的方法之一是插槽注意力,它利用注意机制迭代地改进插槽表示。然而,大多数基于对象中心的模型,包括插槽注意力,在预定义插槽数量方面存在一个主要缺点。这不仅需要对数据集有先验知识,而且忽视了每个实例中存在的对象数量的固有变化性。为了克服这个基本限制,我们提出了一种新颖的复杂性感知对象自编码器框架。在这个框架中,我们引入了一种自适应插槽注意力(AdaSlot)机制,根据数据的内容动态确定最佳插槽数量。这是通过提出一个离散插槽采样模块来实现的,该模块负责从候选列表中选择适当数量的插槽。此外,我们引入了一个掩码插槽解码器,在解码过程中抑制未选择的插槽。我们的框架在各种数据集上进行了广泛的对象发现任务测试,表现与顶级固定插槽模型相匹配或超过。此外,我们的分析证实了我们的方法具有根据每个实例的复杂性动态调整插槽数量的能力,为插槽注意力研究的进一步探索提供了潜力。项目将在此https URL上提供。
论文链接: https://arxiv.org/pdf/2406.09196
Github: https://kfan21.github.io/AdaSlot/
原标题: Detection-Rate-Emphasized Multi-objective Evolutionary Feature Selection for Network Intrusion Detection
作者: Zi-Hang Cheng, Haopu Shang, Chao Qian
机构: 南京大学
摘要: 网络入侵检测是网络安全领域中最重要的问题之一,已经应用了各种机器学习技术来构建入侵检测系统。然而,由于用于描述网络连接的特征数量通常很大,其中一些特征是冗余或噪声的,因此在这种情况下需要进行特征选择,这既可以提高效率又可以提高准确性。最近,一些研究人员专注于使用多目标进化算法(MOEAs)来选择特征。但通常,他们只考虑特征数量和分类准确性作为目标,导致在关键指标检测率上表现不佳。这将导致许多真实攻击被漏掉,并给网络系统带来巨大损失。在本文中,我们提出了DR-MOFS,将网络入侵检测中的特征选择问题建模为一个三目标优化问题,同时优化特征数量、准确性和检测率,并使用MOEAs来解决它。在两个流行的网络入侵检测数据集NSL-KDD和UNSW-NB15上的实验证明,在大多数情况下,所提出的方法可以胜过先前的方法,即减少特征数量,提高准确性和检测率。
论文链接: https://arxiv.org/pdf/2406.09180
原标题: Bengining overfitting in Fixed Dimension via Physics-Informed Learning with Smooth Iductive Bias
作者: Honam Wong, Wendao Wu, Fanghui Liu, Yiping Lu
机构: 香港科技大学 计算机科学与工程系
北京大学 数学科学学院
华威大学 计算机科学系
西北大学 工业工程与管理科学系
摘要: 最近机器学习理论的进展表明,使用过参数化的机器学习算法对噪声样本进行插值总是导致不一致性。然而,这项工作令人惊讶地发现,当使用物理信息学习来处理由偏微分方程(PDEs)描述的受物理定律控制的监督任务时,插值机器学习可以表现出良性过拟合和一致性。通过分析,为涉及椭圆型PDEs的线性逆问题的核岭(less)回归提供了一个渐近Sobolev范数学习曲线。结果显示,PDE算子可以稳定方差,并在固定维度问题中导致良性过拟合,与标准回归设置相反。还考察了通过最小化不同Sobolev范数引入的各种归纳偏差的影响作为隐式正则化。值得注意的是,对于岭回归和无岭回归,收敛速度与具体的(平滑的)归纳偏差无关。对于正则化最小二乘估计器,当适当选择正则化参数时,所有(足够平滑的)归纳偏差都可以实现最优的收敛速度。平滑性要求恢复了先前在贝叶斯设置中发现的条件,并将结论推广到最小范数插值估计器。
论文链接: https://arxiv.org/pdf/2406.09194
原标题: Unlearning with Control: Assessing Real-world Utility for Large Language Model Unlearning
作者: Qizhou Wang, Bo Han, Puning Yang, Jianing Zhu, Tongliang Liu, Masashi Sugiyama
摘要: 消除不良数据行为,同时保留通常模型功能的引人注目目标,强调了大语言模型(LLMs)领域内机器遗忘的重要性。最近的研究已经开始通过梯度上升(GA)来处理LLM的遗忘 - 增加那些被定为遗忘目标的训练字符串的预测风险,从而擦除它们的参数化响应。尽管这些方法简单高效,但我们认为基于GA的方法面临过度遗忘的倾向,导致各种不良模型行为,如灾难性遗忘,从而降低了它们的实际效用。在本文中,我们提出了一组可以捕捉现实世界效用多个方面的度量标准,并提出了几种可以调节过度遗忘程度的控制方法。因此,我们提出了一个通用框架,以更好地反映各种遗忘方法的实际效力 - 我们首先通过控制遗忘过程/遗忘模型,以确保不会发生过度遗忘,然后评估遗忘效果。我们对已建立的基准进行的实验分析表明,基于GA的方法在实践中远非完美,因为强大的遗忘会以牺牲模型效用为代价。我们得出结论,实现实际有效的LLM遗忘还有很长的路要走,需要在这个领域进行更多的努力。
论文链接: https://arxiv.org/pdf/2406.09179
原标题: Ridge interpolators in correlated factor regression models – exact risk analysis
作者: Mihailo Stojnic
摘要: 我们考虑相关的\emph{因子}回归模型(FRM),并分析经典岭插值器的性能。利用强大的\emph{随机对偶理论}(RDT)数学引擎,我们得到了底层优化问题和所有相关优化量的\emph{精确}闭式表征。特别地,我们提供了\emph{过度预测风险}的表征,清楚地显示了对所有关键模型参数、协方差矩阵、载荷和维度的依赖关系。作为过参数化比率的函数,广义最小二乘(GLS)风险也展现出众所周知的\emph{双峰下降}(非单调)行为。类似于经典线性回归模型(LRM),我们证明了这种FRM现象可以通过最优调节的岭正则化来平滑。理论结果得到了数值模拟的补充,并观察到两者之间的良好一致性。此外,我们注意到``岭平滑’'通常对于超参数化比率大于5的情况效果有限,对于超过10的情况几乎没有效果。这巩固了最近最流行的神经网络范例之一–\emph{零训练(插值)具有良好的泛化能力}–在FRM估计/预测环境中的更广泛适用性。
论文链接: https://arxiv.org/pdf/2406.09183
原标题: AdaPTwin: Low-Cost Adaptive Compression of Product Twins in Transformers
作者: Emil Biju, Anirudh Sriram, Mert Pilanci
机构: 斯坦福大学
摘要: 大型基于Transformer的模型在独立于说话人的语音识别中表现出了卓越的性能,但它们庞大的体积和计算需求使得在资源受限的环境中使用它们变得昂贵或不切实际。在这项工作中,我们提出了一种低秩自适应压缩技术,称为AdaPTwin,它可以同时压缩Transformer注意力层中的产品相关的权重矩阵对。我们的方法可以在保持对新说话人和声学条件的泛化能力的同时,优先考虑压缩模型在特定说话人上的性能。值得注意的是,我们的技术只需要8小时的语音数据进行微调,而这可以在不到20分钟内完成,与其他压缩方法相比,成本效益非常高。我们通过将Whisper和Distil-Whisper模型压缩高达45%,同时增加的词错误率不到2%,证明了我们方法的有效性。
论文链接: https://arxiv.org/pdf/2406.08904
原标题: Federated Contrastive Learning for Personalized Semantic Communication
作者: Yining Wang, Wanli Ni, Wenqiang Yi, Xiaodong Xu, Ping Zhang, Arumugam Nallanathan
摘要: 在这封信中,我们设计了一个联邦对比学习(FedCL)框架,旨在支持个性化的语义通信。我们的FedCL允许在多个客户端之间进行本地语义编码器的协作训练,并由基站拥有全局语义解码器。该框架支持异构语义编码器,因为它不需要客户端模型聚合。此外,为了解决分布式客户端之间异构数据集引起的语义不平衡问题,我们采用对比学习来训练语义质心生成器(SCG)。该生成器获取代表性的全局语义质心,具有内部语义紧凑性和跨语义可分离性。因此,它为学习有区分性的本地语义特征提供了优越的监督。此外,我们进行了理论分析,以量化FedCL的收敛性能。仿真结果验证了所提出的FedCL框架在任务性能和在不同客户端数量和信道条件下的鲁棒性方面相对于其他分布式学习基准的优越性,特别是在低信噪比和高度异构数据场景下。
论文链接: https://arxiv.org/pdf/2406.09182
原标题: Potion: Towards Poison Unlearning
作者: Stefan Schoepf, Jack Foster, Alexandra Brintrup
机构: 剑桥大学、英国 & 图灵研究所、英国
摘要: 恶意攻击者对机器学习系统进行的对抗性攻击,例如在训练数据集中引入毒素触发器,带来了重大风险。解决此类攻击的挑战在于实践中只能识别出毒素数据的子集。这需要开发方法,仅利用可用的毒素数据子集,从已经训练好的模型中移除或遗忘毒素触发器。这个任务的要求与侧重于隐私的遗忘方法有很大不同,后者需要知道要被模型遗忘的所有数据。先前的研究表明,未被发现的毒素样本会导致已建立的遗忘方法失败,只有一种方法,即选择性突触阻尼(SSD),取得了有限的成功。即使在识别出毒素后进行完全重新训练,也无法解决这个挑战,因为未被发现的毒素样本会导致模型中重新引入毒素触发器。我们的工作解决了两个关键挑战,以推动毒素遗忘技术的发展。首先,我们引入了一种新颖的抗离群值方法,基于SSD,显著提高了模型的保护和遗忘性能。其次,我们引入了毒素触发器中和(PTN)搜索,这是一种快速、可并行化的超参数搜索方法,利用了“遗忘与模型保护”之间的特征权衡,以在遗忘集大小未知且保留集受到污染的情况下找到合适的超参数。我们使用CIFAR10上的ResNet-9和CIFAR100上的WideResNet-28x10对我们的贡献进行了基准测试。实验结果显示,与SSD的93.72%和完全重新训练的40.68%相比,我们的方法将毒素清除了83.41%。同时,我们还将由遗忘引起的平均模型准确率下降从5.68%(SSD)降低到了1.41%(我们的方法)。
论文链接: https://arxiv.org/pdf/2406.09173
原标题: Motif-driven Subgraph Structure Learning for Graph Classification
作者: Zhiyao Zhou, Sheng Zhou, Bochao Mao, Jiawei Chen, Qingyun Sun, Yan Feng, Chun Chen, Can Wang
机构: College of Computer Science, Zhejiang University
School of Software Technology, Zhejiang University
School of Computer Science and Engineering, Beihang University
摘要: 为了缓解图结构的次优性,图结构学习(Graph Structure Learning,GSL)已经成为一种有望改善图结构并提高下游任务性能的方法。尽管已经提出了许多GSL方法,但在这个领域的进展主要集中在节点级任务上,而图级任务(例如图分类)仍然很少被探索。值得注意的是,由于缺乏复杂结构学习的细粒度指导,将节点级GSL应用于图分类是非常困难的。受子图在图分类中的重要作用的启发,本文通过解决关键子图选择和结构优化的挑战,探索了子图结构学习在图分类中的潜力。我们提出了一种新颖的基于Motif的子图结构学习方法用于图分类(MOSGSL)。具体而言,MOSGSL包括一个子图结构学习模块,可以自适应地选择重要的子图。进一步引入了一个基于Motif的结构引导模块,用于捕捉关键子图级别的结构模式(Motifs)并促进个性化结构学习。大量实验证明,与基线方法相比,MOSGSL在性能上有显著且一致的改进,同时在各种骨干网络和学习过程中具有灵活性和通用性。
论文链接: https://arxiv.org/pdf/2406.08897
原标题: Scalable and Flexible Causal Discovery with an Efficient Test for Adjacency
作者: Alan Nawzad Amin, Andrew Gordon Wilson
摘要: 为了在具有许多变量的系统中进行准确的预测、理解机制和设计干预措施,我们希望从大规模数据中学习因果图。不幸的是,所有可能的因果图空间是巨大的,因此在数据中可扩展和准确地搜索最佳拟合是一项挑战。原则上,我们可以通过测试变量的条件独立性来大大减少搜索空间,或者完全学习图形。然而,决定两个变量在因果图中是否相邻可能需要指数数量的测试。在这里,我们构建了一种可扩展和灵活的方法来评估两个变量在因果图中是否相邻,即可微邻接测试(DAT)。DAT用可证明等价的放松问题替代了指数数量的测试。然后,它通过训练两个神经网络来解决这个问题。我们基于DAT构建了一种图形学习方法,即DAT-Graph,它还可以从具有干预的数据中学习。DAT-Graph可以以最先进的准确性学习1000个变量的图形。使用DAT-Graph学习的图形,我们还构建了模型,可以更准确地预测对大规模RNA测序数据的干预效果。
论文链接: https://arxiv.org/pdf/2406.09177
原标题: Towards Multilingual Audio-Visual Question Answering
作者: Orchid Chetia Phukan, Priyabrata Mallick, Swarup Ranjan Behera, Aalekhya Satya Narayani, Arun Balaji Buduru, Rajesh Sharma
机构: IIIT-Delhi 印度
Reliance Jio AICoE 印度
University of Tartu 爱沙尼亚
摘要: 在本文中,我们致力于将音频-视觉问答(AVQA)扩展到多语言环境中。现有的AVQA研究主要围绕英语展开,为了在其他语言中解决AVQA问题,需要大量的资源。作为一种可扩展的解决方案,我们利用机器翻译,并从现有的基准AVQA数据集中创建了两个多语言AVQA数据集,涵盖了八种语言。这样可以避免额外的人工注释工作,手动收集问题和答案。为此,我们提出了MERA框架,利用最先进的视频、音频和文本基础模型,在多种语言的AVQA中进行建模。我们引入了一套模型,即MERA-L、MERA-C、MERA-T,具有不同的模型架构,用于评估所提出的数据集。我们相信我们的工作将开辟新的研究方向,并成为未来多语言AVQA研究的参考基准。
论文链接: https://arxiv.org/pdf/2406.09156
原标题: CIMRL: Combining IMitiation and Reinforcement Learning for Safe Autonomous Driving
作者: Jonathan Booher, Khashayar Rohanimanesh, Junhong Xu, Aleksandr Petiushko
机构: Nuro, Inc.
摘要: 现代自动驾驶的方法主要依赖于通过模仿学习使用大量人类驾驶数据训练的学习组件。然而,这些方法需要大量昂贵的数据收集,即使如此,仍然面临着处理长尾场景和随时间累积错误的安全挑战。与此同时,纯强化学习(RL)方法在稀疏、受限和难以定义奖励设置(如驾驶)的情况下可能无法学习到高性能策略。这两个挑战使得在像自动驾驶车辆这样的安全关键应用中部署纯克隆策略具有挑战性。在本文中,我们提出了结合模仿学习和强化学习(CIMRL)方法——这是一个通过利用模仿运动先验和安全约束在模拟环境中训练驾驶策略的框架。CIMRL不需要详细的奖励规范,并改进了纯克隆方法的闭环行为。通过结合RL和模仿学习,我们证明我们的方法在闭环模拟驾驶基准测试中取得了最先进的结果。
论文链接: https://arxiv.org/pdf/2406.08878
原标题: Weakly-supervised anomaly detection for multimodal data distributions
作者: Xu Tan, Junqi Chen, Sylwan Rahardja, Jiawei Yang, Susanto Rahardja
机构: 西北工业大学海洋科学与技术学院
东芬兰大学计算机学院
图尔库大学计算系
新加坡科技学院工程集群
摘要: 弱监督异常检测在少量标记异常样本的辅助下,可以胜过现有的无监督方法,这引起了研究人员的越来越多的关注。然而,现有的弱监督异常检测方法存在局限性,因为这些方法没有考虑到现实世界数据分布的多模态性质。为了缓解这个问题,我们提出了基于弱监督变分混合模型的异常检测器(WVAD)。WVAD在多模态数据集上表现出色。它由两个组件组成:深度变分混合模型和异常分数估计器。深度变分混合模型捕捉来自不同聚类的数据的各种特征,然后将这些特征传递给异常分数估计器来评估异常水平。在三个真实数据集上的实验结果证明了WVAD的优越性。
论文链接: https://arxiv.org/pdf/2406.09147
原标题: Generative vs. Discriminative modeling under the lens of uncertainty quantification
作者: Elouan Argouarc’h, François Desbouvries, Eric Barat, Eiji Kawasaki
机构: SAMOV AR Télécom SudParis Institut Polytechnique de Paris CEA-List Université Paris-Saclay
摘要: 从给定的数据集中学习参数模型确实能够通过参数条件概率分布捕捉随机变量之间的内在依赖关系,并进而预测给定观测变量的标签变量的值。在本文中,我们对生成式和判别式方法进行了比较分析,这两种方法在构建和底层推理问题的结构上有所不同。我们的目标是比较这两种方法在通过后验预测分布进行认知不确定性感知推理时利用各种信息的能力。我们评估了先验分布在生成式情况下显式存在、在判别式情况下隐含存在的作用,并讨论了判别模型在不平衡数据集下的问题。接下来,我们研究了观测变量在生成式情况下所扮演的双重角色,并讨论了这两种方法与半监督学习的兼容性。我们还提供了实用的见解,并研究了建模选择对从后验预测分布中进行采样的影响。在这方面,我们提出了一种通用的采样方案,可以同时支持生成式和判别式方法的监督学习,以及与所考虑的建模方法兼容的半监督学习。在本文中,我们通过仿射回归的例子来说明我们的论点和结论,并通过使用基于神经网络的模型进行分类模拟来验证我们的比较分析。
论文链接: https://arxiv.org/pdf/2406.09172
原标题: Optimal Control of Agent-Based Dynamics under Deep Galerkin Feedback Laws
作者: Frederik Kelbel
机构: Frederik Kelbel 学校或企业名称:
摘要: 自从动态规划的概念被引入以来,解决高维控制问题一直是最困难的挑战之一。随着维度的增长,利用深度神经网络可以避免指数级增长的复杂性问题。本文特别研究了深度Galerkin方法所面临的采样问题。它提出了一种基于漂移松弛的采样方法,以减轻高方差策略逼近的症状。这在均场控制问题上得到了验证,即Sznajd模型和Hegselmann-Krause模型所呈现的意见动态的变化。由此产生的策略在手动优化控制函数上显著降低成本,并在线性二次调节器问题上改进了深度FBSDE方法。
论文链接: https://arxiv.org/pdf/2406.09141
原标题: Cognitively Inspired Energy-Based World Models
作者: Alexi Gladstone, Ganesh Nanduru, Md Mofijul Islam, Aman Chadha, Jundong Li, Tariq Iqbal
机构: 弗吉尼亚大学 斯坦福大学 亚马逊GenAI
摘要: 训练世界模型的主要方法之一是在序列的输出空间中进行自回归预测,即预测序列的下一个元素。在自然语言处理(NLP)中,这采用了大语言模型(LLM)预测下一个标记的形式;在计算机视觉(CV)中,这采用了自回归模型预测下一个帧/标记/像素的形式。然而,这种方法与人类认知在几个方面存在差异。首先,人类对未来的预测会积极影响内部认知过程。其次,人类自然地评估关于未来状态的预测的合理性。基于这种能力,第三,通过评估何时预测足够,人类分配了动态的时间量来进行预测。这种自适应过程类似于心理学中的系统2思维。所有这些能力对于人类在高级推理和规划方面的成功至关重要。因此,为了解决传统自回归模型在缺乏这些类似于人类能力方面的局限性,我们引入了基于能量的世界模型(EBWM)。EBWM涉及训练一个基于能量的模型(EBM)来预测给定上下文和预测的未来状态之间的兼容性。通过这样做,EBWM使模型能够实现人类认知的这三个方面。此外,我们还开发了一种针对基于能量模型的传统自回归Transformer的变体,称为基于能量的Transformer(EBT)。我们的结果表明,在CV领域,与传统自回归Transformer相比,EBWM在数据和GPU小时方面具有更好的扩展性,并且在NLP领域,EBWM在早期扩展方面表现出有希望的趋势。因此,这种方法为训练未来能够进行系统2思维并智能搜索状态空间的模型提供了一个令人兴奋的路径。
论文链接: https://arxiv.org/pdf/2406.08862
原标题: Jacobian-Enhanced Neural Networks
作者: Steven H. Berguin
机构: IEEE
摘要: Jacobian-Enhanced Neural Networks (JENN) 是密集连接的多层感知器,其训练过程被修改为准确预测偏导数。它们的主要优点是在与标准神经网络相比,使用更少的训练点时能够获得更好的准确性。这些特性在计算机辅助设计领域特别受欢迎,因为通常需要用快速运行的近似模型(称为代理模型或元模型)来替代计算成本高昂的基于物理的模型。由于代理模型能够准确地模拟原始模型并在几乎实时中运行,它能够提供速度优势,可以快速执行数量级更多的函数调用。然而,在梯度增强方法的特殊情况下,还有一个附加的价值主张,即偏导数是准确的,这是一个重要的用例:基于代理的优化。本研究推导了完整的理论,并且通过基于代理的优化示例证明了其相对于标准神经网络的优越性。
论文链接: https://arxiv.org/pdf/2406.09132
原标题: SR-CACO-2: A Dataset for Confocal Fluorescence Microscopy Image Super-Resolution
作者: Soufiane Belharbi, Mara KM Whitford, Phuong Hoang, Shakeeb Murtaza, Luke McCaffrey, Eric Granger
机构: ETS Montreal, Goodman Cancer Institute, McGill University
摘要: 共聚焦荧光显微镜是研究生物过程最常用和最易于使用的成像技术之一。扫描共聚焦显微镜可以从三维样本中获取高质量图像,但由于强光照射引起的光漂白和光毒性等已知限制,其在某些应用中的使用受到限制,特别是对于活细胞。通过改变成像参数以减少光照,可以减轻细胞损伤,但往往以图像质量为代价。单图像超分辨率(SISR)的机器/深度学习方法可以应用于将低分辨率(LR)图像放大到高分辨率(HR)图像以恢复图像质量。这些SISR方法在逼真图像上已经取得了成功,部分原因是公开可用数据的丰富性。相比之下,公开可用数据的缺乏在扫描共聚焦显微镜中限制了它们的应用和成功。在本文中,我们介绍了一个名为SR-CACO-2的大型扫描共聚焦显微镜数据集,其中包含了标记为三种不同荧光标记物的低分辨率和高分辨率图像对。它允许评估SISR方法在三个不同的放大级别(X2、X4、X8)上的性能。SR-CACO-2包含人类上皮细胞系Caco-2(ATCC HTB-37),由22个平铺块组成,已经转化为9,937个图像块,用于进行SISR方法的实验。鉴于新的SR-CACO-2数据集,我们还提供了15种代表主要SISR家族的最先进方法的基准结果。结果表明,这些方法在产生高分辨率纹理方面的成功有限,表明SR-CACO-2代表了一个具有挑战性的问题。我们的数据集、代码和预训练权重可供使用:this https URL。
论文链接: https://arxiv.org/pdf/2406.09168
Github: https://github.com/sbelharbi/sr-caco-2
原标题: OLGA: One-cLass Graph Autoencoder
作者: M. P. S. Gôlo, J. G. B. M. Junior, D. F. Silva, R. M. Marcacini
机构: 圣保罗大学 数学与计算机科学学院
摘要: 一类学习(OCL)是一组技术,应用于当现实世界的问题只有一个感兴趣的类别时。OCL的常规过程是学习一个超球体,其中包含该类别的实例,并且理想情况下,将来自其他类别的未知实例排斥在外。此外,由于图表示学习在各个领域取得了成功,因此已经提出了几种用于图的OCL算法。这些方法可能采用两步策略,首先表示图,然后在第二步对其节点进行分类。另一方面,端到端方法在一个学习过程中学习节点表示并对节点进行分类。我们在图的OCL文献中强调了三个主要差距:(i)非定制的OCL表示;(ii)对超球体参数学习的约束缺失;以及(iii)方法缺乏可解释性和可视化性。我们提出了一种称为One-cLass Graph Autoencoder(OLGA)的方法。OLGA是端到端的,通过结合两个损失函数来学习图节点的表示,并将感兴趣的实例封装起来。我们提出了一种新的超球体损失函数来封装感兴趣的实例。OLGA将这个新的超球体损失与图自编码器重构损失相结合,以改善模型学习。OLGA取得了最先进的结果,并且在与五种方法的统计显著差异中胜过了其他六种方法。此外,OLGA学习了低维表示,保持了分类性能,并具有可解释的模型表示学习和结果。
论文链接: https://arxiv.org/pdf/2406.09131
原标题: EncCluster: Scalable Functional Encryption in Federated Learning through Weight Clustering and Probabilistic Filters
作者: Vasileios Tsouvalas, Samaneh Mohammadi, Ali Balador, Tanir Ozcelebi, Francesco Flammini, Nirvana Meratnia
机构: Eindhoven University of Technology, The Netherlands RISE Research Institutes of Sweden, Sweden Mälardalen University, Sweden
摘要: 联邦学习(FL)通过仅将本地模型更新通信到聚合服务器,实现了在分散设备上进行模型训练。尽管这种有限的数据共享使得FL比集中式方法更安全,但在模型更新传输过程中,FL仍然容易受到推理攻击的影响。现有的安全聚合方法依赖于差分隐私或密码方案(如功能加密)来保护个体客户数据。然而,这些策略可能会降低性能,或在资源有限的边缘设备上引入不可接受的计算和通信开销。在这项工作中,我们提出了EncCluster,一种将模型压缩与最近的分散式功能加密和增强隐私数据编码相结合的新方法,以在FL中提供强大的隐私保证,同时不影响模型性能或给客户增加不必要的负担。我们进行了全面的评估,涵盖了各种数据集和架构,以展示EncCluster在加密级别上的可扩展性。我们的研究结果表明,EncCluster显著降低了通信成本 - 甚至低于传统的FedAvg - 并且比所有基线加快了四倍以上的加密速度;同时,它保持了高模型准确性和增强的隐私保证。
论文链接: https://arxiv.org/pdf/2406.09152
原标题: Inverse Probability of Treatment Weighting with Deep Sequence Models Enables Accurate treatment effect Estimation from Electronic Health Records
作者: Junghwan Lee, Simin Ma, Nicoleta Serban, Shihao Yang
机构: 乔治亚理工学院
摘要: 观察数据已经被广泛用于估计治疗效果,这得益于电子健康记录(EHR)的日益可用。然而,EHR通常由纵向记录组成,往往引入了时间相关的混杂因素,从而阻碍了对治疗效果的无偏估计。倒数概率治疗加权(IPTW)是一种广泛使用的倾向得分方法,因为它提供了无偏的治疗效果估计,并且其推导是直接的。在本研究中,我们旨在利用IPTW来估计在存在时间相关混杂因素的情况下的治疗效果,使用索赔记录。以前的研究利用了通过特征处理从索赔记录中派生的倾向得分方法,这通常需要领域知识和额外资源来提取信息以准确估计倾向得分。深度序列模型,特别是循环神经网络和自注意力架构,在建模EHR用于各种下游任务方面表现出良好的性能。我们提出,这些深度序列模型可以通过直接从索赔记录中估计倾向得分来提供准确的IPTW治疗效果估计,而无需进行特征处理。我们通过使用合成和半合成数据集进行全面评估来在实证上证明这一点。
论文链接: https://arxiv.org/pdf/2406.08851
原标题: Injective Flows for parametric hypersurfaces
作者: Marcello Massimo Negri, Jonathan Aellen, Volker Roth
机构: 巴塞尔大学
摘要: 归一化流(NFs)是用于密度估计的强大且高效的模型。当对流形上的密度进行建模时,NFs可以推广为可逆流,但雅可比行列式的计算变得计算上不可行。目前的方法要么考虑对数似然的界限,要么依赖于对雅可比行列式的一些近似。相比之下,我们提出了用于参数化超曲面的可逆流,并且证明了对于这样的流形,我们可以精确且高效地计算雅可比行列式,成本与NFs相同。此外,我们还展示了对于星状流形的子类,我们可以扩展所提出的框架,始终允许使用笛卡尔表示密度。我们在两个场景中展示了在超曲面上建模密度的相关性。首先,我们通过将惩罚的水平集解释为星状流形,引入了一种新颖的客观贝叶斯方法来对惩罚似然模型进行建模。其次,我们考虑贝叶斯混合模型,并通过在概率单纯形上定义混合权重的后验概率,引入了一种通用的变分推断方法。
论文链接: https://arxiv.org/pdf/2406.09116
原标题: Dynamic Correlation Clustering in Sublinear Update Time
作者: Vincent Cohen-Addad, Silvio Lattanzi, Andreas Maggiori, Nikos Parotsidis
机构: 谷歌研究 哥伦比亚大学
摘要: 我们研究了动态节点流中的经典相关聚类问题。在这种设置中,节点会随着时间的推移被添加或随机删除,并且每对节点之间都由正面或负面边连接。目标是持续找到一个分区,使得跨越聚类的正面边的总和最小,并且聚类内的负面边最小。我们提出了一种算法,它在 O ( 1 ) O(1) O(1)的近似度下维护,并且具有 O O O(polylog n n n)的摊销更新时间。在我们的工作之前,Behnezhad, Charikar, Ma和L. Tan在边流中实现了 5 5 5的近似度,并且期望的更新时间为 O ( 1 ) O(1) O(1),在节点流中转化为 O ( D ) O(D) O(D)的更新时间,其中 D D D是可能的最大度数。最后,我们通过对真实世界数据的实验来补充我们的理论分析。
论文链接: https://arxiv.org/pdf/2406.09137
原标题: DiffPoGAN: Diffusion Policies with Generative Adversarial Networks for Offline Reinforcement Learning
作者: Xuemin Hu, Shen Li, Yingfen Xu, Bo Tang, Long Chen
机构: 湖北大学 中国 伍斯特理工学院 美国 中国科学院 中国
摘要: 离线强化学习(RL)可以从预先收集的离线数据集中学习最优策略,而无需与环境进行交互,但是智能体的采样动作往往不能覆盖给定状态下的动作分布,导致外推误差问题。最近的研究通过使用生成对抗网络(GANs)来解决这个问题。然而,这些方法往往在策略探索的约束和行为策略的准确表示方面存在不足。此外,GANs中的生成器在同时最大化策略的期望回报和愚弄判别器方面存在问题。受扩散的启发,一种具有强大特征表达能力的生成模型,我们提出了一种名为Diffusion Policies with Generative Adversarial Networks(DiffPoGAN)的新的离线RL方法。在这种方法中,扩散作为策略生成器生成多样化的动作分布,并基于最大似然估计(MLE)开发了一种基于正则化的方法来生成近似行为策略分布的数据。此外,我们引入了一个基于判别器输出的额外正则化项,以有效约束策略探索以进行策略改进。我们在深度数据驱动强化学习(D4RL)数据集上进行了全面的实验,实验结果表明DiffPoGAN在离线RL中优于最先进的方法。
论文链接: https://arxiv.org/pdf/2406.09089
原标题: Latent Assistance Networks: Rediscovering Hyperbolic Tangents in RL
作者: Jacob E. Kooi, Mark Hoogendoorn, Vincent François-Lavet
机构: Vrije Universiteit Amsterdam
摘要: 激活函数是神经网络的关键组成部分之一。最常用的激活函数可以分为连续可微的类别(例如tanh)和线性单元函数(例如ReLU),两者在下游性能和表示能力方面都有各自的优势和缺点(例如通过死神经元的数量和有效秩来衡量)。在强化学习中,与线性单元函数相比,连续可微的激活函数的性能通常不足。从最后一个隐藏层的激活角度来看,本文提供了关于这种次优性的见解,并探讨了激活函数如何影响死神经元的出现和有效秩的大小。此外,提出了一种新颖的神经网络架构,利用独立激活值的乘积。在Atari领域,我们展示了更快的学习速度,减少了死神经元的数量,并增加了有效秩。
论文链接: https://arxiv.org/pdf/2406.09079
原标题: Operator-informed score matching for Markov diffusion models
作者: Zheyang Shen, Chris J. Oates
机构: 纽卡斯尔大学 英国 图灵研究所
摘要: 扩散模型通常使用分数匹配进行训练,然而分数匹配对定义模型的特定前向过程是不可知的。本文认为,马尔可夫扩散模型相对于其他类型的扩散模型具有优势,因为它们的相关算子可以被利用来改进训练过程。特别地,(i)存在一个显式的正向过程的形式解,作为时间相关的核均值嵌入的序列;(ii)可以简化得到分数匹配和相关估计器的推导。在(i)的基础上,我们提出了黎曼扩散核平滑方法,它在低维情况下改善了神经分数近似的需求;在(ii)的基础上,我们提出了操作符信息分数匹配,这是一种方差减少技术,在低维和高维扩散建模中都很容易实现,并且在经验性概念验证中证明了改进分数匹配的效果。
论文链接: https://arxiv.org/pdf/2406.09084
原标题: Are we making progress in unlearning? Findings from the first NeurIPS unlearning competition
作者: Eleni Triantafillou, Peter Kairouz, Fabian Pedregosa, Jamie Hayes, Meghdad Kurmanji, Kairan Zhao, Vincent Dumoulin, Julio Jacques Junior, Ioannis Mitliagkas, Jun Wan, Lisheng Sun Hosoya, Sergio Escalera, Gintare Karolina Dziugaite, Peter Triantafillou, Isabelle Guyon
机构: Google DeepMind, Google Research, University of Warwick, ChaLearn, University of Barcelona, Computer Vision Center, University of Montreal, Institute of Automation, Chinese Academy of Sciences, Université Paris Saclay
摘要: 我们介绍了第一届NeurIPS关于遗忘的竞赛的发现,该竞赛旨在刺激新算法的发展,并引发关于形式化和稳健评估方法的讨论。这次竞赛非常成功:来自世界各地的近1200个团队参与其中,并贡献了大量具有不同特点的新颖、富有想象力的解决方案。在本文中,我们分析了顶尖解决方案,并深入讨论了遗忘的基准评估问题,这本身就是一个研究问题。我们为竞赛开发的评估方法根据遗忘的形式概念来衡量遗忘质量,同时考虑模型的实用性进行全面评估。我们分析了该评估框架的不同实例在与相关计算成本的关系上的有效性,并讨论了标准化评估的影响。我们发现,在这个框架的几个变化下,领先方法的排名保持稳定,为减少评估成本提供了途径。总体而言,我们的发现表明在遗忘方面取得了进展,在我们的评估框架下,表现最好的竞赛参赛作品超过了现有算法。我们分析了不同算法所做的权衡以及在泛化到新数据集方面的优势或劣势,为推进这一重要领域的基准评估和算法开发铺平了道路。
论文链接: https://arxiv.org/pdf/2406.09073
原标题: CGP++ : A Modern C++ Implementation of Cartesian Genetic Programming
作者: Roman Kalkreuth, Thomas Baeck
机构: CNRS, LIP6, Sorbonne Université LIACS, Leiden University
摘要: 笛卡尔遗传编程(CGP)的参考实现是用C编程语言编写的。C本质上遵循过程式编程范式,这在为复杂结构和方法提供可重用和可扩展的实现模型方面存在挑战。此外,由于C的限制因素,CGP的参考实现没有提供通用框架,因此仅限于一组预定义的评估类型。除了参考实现之外,我们还观察到其他现有实现在提供功能方面存在限制。因此,在这项工作中,我们提出了CGP的现代C++实现的第一个版本,该实现采用面向对象的设计和通用编程范式,以提供一个高效的实现模型,可以促进对CGP的新问题领域的发现和复杂高级方法的实现。通过我们新实现的提议,我们旨在在CGP领域普遍推广可解释性、可访问性和可重现性。
论文链接: https://arxiv.org/pdf/2406.09038
原标题: On the Robustness of Global Feature Effect Explanations
作者: Hubert Baniecki, Giuseppe Casalicchio, Bernd Bischl, Przemyslaw Biecek
机构: 华沙大学 德国慕尼黑大学 慕尼黑机器学习中心 华沙理工大学
摘要: 我们研究在表格数据上训练的预测模型的全局事后解释的鲁棒性。在黑盒监督学习中,预测器特征的影响是模型调试和应用科学中的重要诊断工具。然而,它们对数据和模型扰动的脆弱性仍然是一个开放的研究问题。我们引入了几个理论界限来评估部分依赖图和累积局部效应的鲁棒性。我们使用合成和真实数据集的实验结果量化了对机器学习预测进行全局(误)解释的最佳和最坏情况之间的差距。
论文链接: https://arxiv.org/pdf/2406.09069
原标题: Enhancing Cross-Modal Fine-Tuning with Gradually Intermediate Modality Generation
作者: Lincan Cai, Shuang Li, Wenxuan Ma, Jingxuan Kang, Binhui Xie, Zixun Sun, Chengwei Zhu
机构: 中山大学 清华大学 南京大学
摘要: 大规模预训练模型已经证明在处理文本和图像等数据密集型模态方面非常有价值。然而,针对特定的专业模态(如蛋白质序列和宇宙射线)对这些模型进行微调存在挑战,因为存在显著的模态差异和标记数据的稀缺性。在本文中,我们提出了一种端到端的方法PaRe,用于增强跨模态微调,旨在将大规模预训练模型转移到各种目标模态。PaRe采用门控机制从源数据和目标数据中选择关键补丁。通过一个模态不可知的补丁替换方案,这些补丁被保留并组合以构建从简单到困难的数据丰富的中间模态。通过逐渐生成中间模态,我们不仅可以有效地弥合模态差距,增强跨模态微调的稳定性和可转移性,还可以通过利用丰富的中间模态数据来解决目标模态中有限数据的挑战。与手动设计的通用、任务特定和最先进的跨模态微调方法相比,PaRe在三个具有挑战性的基准测试中展示了优越的性能,涵盖了十多种模态。
论文链接: https://arxiv.org/pdf/2406.09003
原标题: LLM-based Knowledge Pruning for Time Series Data Analytics on Edge-computing Devices
作者: Ruibing Jin, Qing Xu, Min Wu, Yuecong Xu, Dan Li, Xiaoli Li, Zhenghua Chen
机构:
摘要: 由于时间序列数据的规模和多样性的限制,基于时间序列数据训练的神经网络往往会过拟合并显示出不令人满意的性能。相比之下,大型语言模型(LLM)最近在各个领域展示了令人印象深刻的泛化能力。尽管已经提出了基于大型语言模型的方法来处理时间序列任务,但这些方法需要在训练和参考过程中加载整个LLM。这种高计算需求限制了在资源受限的环境中(如边缘计算和物联网设备)的实际应用。为了解决这个问题,我们在本文中提出了知识修剪(KP),这是一种新的时间序列学习范式。对于特定的下游任务,我们认为LLM学到的世界知识是多余的,只有被称为“相关知识”的相关知识是有用的。与其他方法不同,我们的KP旨在修剪多余的知识,只将相关知识提炼到目标模型中。这样可以显著减小模型大小和计算成本。此外,与现有的基于LLM的方法不同,我们的KP在训练和测试过程中不需要加载LLM,进一步减轻了计算负担。通过我们提出的KP,轻量级网络可以有效地学习相关知识,在低计算成本下实现令人满意的性能。为了验证我们的KP的有效性,我们在边缘计算设备上进行了两个基本任务的实验,使用了八个不同网络的多样环境或基准来验证我们的KP的泛化能力。通过实验,我们的KP展示了对相关知识的有效学习,在回归任务(平均提高19.7%)和分类任务(最高提高13.7%)中取得了显著的性能改进,展示了最先进的结果。
论文链接: https://arxiv.org/pdf/2406.08765
原标题: From Theory to Therapy: Reframing SBDD Model Evaluation via Practical Metrics
作者: Bowen Gao, Haichuan Tan, Yanwen Huang, Minsi Ren, Xiao Huang, Wei-Ying Ma, Ya-Qin Zhang, Yanyan Lan
机构: 清华大学 北京大学 中国科学院 天津大学
摘要: 近年来,在基于结构的药物设计(SBDD)方面取得了重大进展,通过生成特定蛋白质口袋结合的分子,显著提高了药物发现的效率和精确性。尽管取得了这些技术进步,但在真实世界的药物开发中实际应用仍然具有挑战性,原因是合成和测试这些分子的复杂性。目前用于评估结合能力的标准——Vina对接得分的可靠性越来越受到质疑,因为它容易过拟合。为了解决这些限制,我们提出了一个全面的评估框架,包括评估生成分子与已知活性化合物的相似性,引入基于虚拟筛选的度量指标以评估实际部署能力,并对结合亲和力进行更严格的重新评估。我们的实验表明,虽然当前的SBDD模型在Vina得分方面表现出色,但在实际可用性指标上表现不佳,突显了理论预测与实际应用之间的重大差距。我们提出的指标和数据集旨在弥合这一差距,提高未来SBDD模型的实际应用性,并使其更加贴近制药研究和开发的需求。
论文链接: https://arxiv.org/pdf/2406.08980
原标题: Mathematical models for off-ball scoring prediction in basketball
作者: Rikako Kono, Keisuke Fujii
机构: 澳大利亚国立大学物理研究学院、名古屋大学信息学研究生院、RIKEN高级智能项目中心、日本科学技术振兴机构PRESTO
摘要: 在职业篮球中,基于战略决策的得分机会的准确预测对于空间和球员评估至关重要。然而,传统模型在考虑到无球移动的复杂性方面经常面临挑战,而这对于准确的预测性能至关重要。在这项研究中,我们提出了两个数学模型来预测篮球中的无球得分机会,考虑到传球得分和运球得分两种方式:球的移动用于无球得分(BMOS)模型和球的拦截和移动用于无球得分(BIMOS)模型。BMOS模型借鉴了原本设计用于足球的无球得分机会(OBSO)模型的原则,将其应用到篮球中,而BIMOS模型还考虑了球在移动过程中被拦截的可能性。我们使用2015-2016赛季630场NBA比赛的球员追踪数据对这些模型进行了评估,结果表明BIMOS模型在得分预测准确性方面优于BMOS模型。因此,我们的模型为篮球的战术分析和球员评估提供了有价值的见解。
论文链接: https://arxiv.org/pdf/2406.08749
原标题: State-Space Modeling in Long Sequence Processing: A Survey on Recurrence in the Transformer Era
作者: Matteo Tiezzi, Michele Casoni, Alessandro Betti, Marco Gori, Stefano Melacci
机构: University of Siena, DIISM
IIT, Ist. Italiano di Tecnologia
IMT, Scuola Alti Studi
摘要: 有效地从序列数据中学习是人工智能的一个长期目标,特别是在处理长序列的情况下。从机器学习的开始,许多研究人员致力于寻找能够处理模式序列、保留过去输入信息并利用即将到来的数据的算法和架构,而不会丢失宝贵的长期依赖性和相关性。虽然这样的终极目标受到了连续实时处理感知信息的人类特点的启发,但是一些解决方案通过人为限制处理的上下文或处理预先给定的有限长度的序列来简化学习范式。这些解决方案进一步强调了Transformer的普及,它们最初掩盖了循环神经网络的作用。然而,由于(深度)状态空间模型和新型大上下文Transformer的不断普及,循环网络正面临着强烈的复兴,这两者都基于循环计算以超越当前普遍技术的几个限制。事实上,大型语言模型的快速发展增强了对处理时间数据的高效解决方案的兴趣。本调查提供了对基于循环模型进行序列数据处理的最新方法的深入总结。对最新的架构和算法解决方案的完整分类进行了报告和讨论,指导研究人员在这个有吸引力的研究领域中进行研究。新兴的情况表明,有可能考虑一些新的路径,即从标准的时间反向传播学习算法出发,朝着更现实的情景发展,其中模式能够有效地在线处理,利用局部正向计算,为这个主题的进一步研究开辟了新的可能性。
论文链接: https://arxiv.org/pdf/2406.09062
原标题: SIU: A Million-Scale Structural Small Molecule-Protein Interaction Dataset for Unbiased Bioactivity Prediction
作者: Yanwen Huang, Bowen Gao, Yinjun Jia, Hongbo Ma, Wei-Ying Ma, Ya-Qin Zhang, Yanyan Lan
机构: 北京大学 清华大学
摘要: 小分子在现代医学中起着关键作用,仔细研究它们与蛋白质靶点的相互作用对于发现和开发新型的、拯救生命的治疗药物至关重要。术语“生物活性”包括这些相互作用所产生的各种生物效应,包括结合和功能性反应。生物活性的大小决定了小分子的治疗或毒理药理学结果,因此准确的生物活性预测对于开发安全有效的药物至关重要。然而,现有的小分子-蛋白质相互作用的结构数据集往往在规模上有限,并且缺乏系统化的生物活性标签,从而阻碍了我们对这些相互作用的理解和精确的生物活性预测。在这项研究中,我们介绍了一个包含超过一百万个结合结构的小分子-蛋白质相互作用的综合数据集,每个结构都带有真实的生物活性标签。该数据集旨在促进无偏见的生物活性预测。我们在该数据集上评估了几种经典模型,结果表明无偏见的生物活性预测任务具有挑战性但又必不可少。
论文链接: https://arxiv.org/pdf/2406.08961
原标题: Preserving Identity with Variational Score for General-purpose 3D Editing
作者: Duong H. Le, Tuan Pham, Aniruddha Kembhavi, Stephan Mandt, Wei-Chiu Ma, Jiasen Lu
机构: 加州大学尔湾分校 康奈尔大学
摘要: 我们提出了Piva(Preserving Identity with Variational Score Distillation),这是一种基于扩散模型的图像和3D模型编辑的新型优化方法。具体而言,我们的方法受到最近提出的用于2D图像编辑的Delta Denoising Score(DDS)方法的启发。我们指出了DDS在2D和3D编辑中的局限性,导致细节丢失和过饱和。为了解决这个问题,我们提出了一个额外的分数蒸馏项,以强制保持身份特征。这导致了一个更稳定的编辑过程,逐渐优化NeRF模型以匹配目标提示,同时保留关键的输入特征。我们在零样本图像和神经场编辑中展示了我们方法的有效性。我们的方法成功地改变了视觉属性,添加了微妙和重要的结构元素,翻译了形状,并在标准的2D和3D编辑基准上取得了竞争性的结果。此外,我们的方法不像掩蔽或预训练那样有任何限制,使其与各种预训练的扩散模型兼容。这样就可以进行多功能编辑,而无需进行神经场到网格的转换,提供更用户友好的体验。
论文链接: https://arxiv.org/pdf/2406.08953
原标题: Generalizable Implicit Neural Representation As a Universal Spatiotemporal Traffic Data Learner
作者: Tong Nie, Guoyang Qin, Wei Ma, Jian Sun
机构: 同济大学 香港理工大学
摘要: 这是我们论文的会议版本:《时空隐式神经表示作为广义交通数据学习器》。时空交通数据(STTD)测量了多尺度交通系统的复杂动态行为。现有方法旨在使用低维模型重建STTD。然而,它们受限于数据特定的维度或源相关的模式,限制了它们统一表示的能力。在这里,我们提出了一种新的范式,通过将STTD参数化为隐式神经表示来解决STTD学习问题。为了识别低维区域中的潜在动力学,我们采用基于坐标的神经网络,可以将高频结构直接映射到交通变量。为了解开纠缠的时空相互作用,我们将可变性分解为不同的过程。我们还通过使用谱嵌入来实现在传感器图等不规则空间中的建模。通过连续表示,我们的方法能够对各种STTD进行建模,从而成为底层交通动态的广义学习器。实验证明,它能够从数据中学习隐式低秩先验和平滑正则化,使其适用于学习不同的主导数据模式。我们通过在实际场景中进行大量实验验证了其有效性,展示了从走廊到网络规模的应用。实证结果不仅表明我们的模型在传统低秩模型上具有显著优势,而且突出了该方法的多功能性。我们预计这种开创性的建模视角可以为各种实际任务中STTD的通用表示奠定基础。完整版本可在此链接找到:this https URL。
论文链接: https://arxiv.org/pdf/2406.08743
原标题: Neural NeRF Compression
作者: Tuan Pham, Stephan Mandt
机构: Tuan Pham - 未提及学校或企业名称
Stephan Mandt - 未提及学校或企业名称
摘要: 神经辐射场(NeRFs)通过连续体积表示形式,成为捕捉详细的3D场景的强大工具。最近的NeRFs利用特征网格来提高渲染质量和速度;然而,这些表示引入了显著的存储开销。本文提出了一种新颖的方法,用于高效压缩基于网格的NeRF模型,解决存储开销问题。我们的方法基于非线性变换编码范式,采用神经压缩来压缩模型的特征网格。由于缺乏涉及许多独立同分布场景的训练数据,我们设计了一种无编码器、端到端优化的方法,用于处理单个场景,使用轻量级解码器。为了利用潜在特征网格的空间不均匀性,我们引入了一种重要性加权的率失真目标和使用掩蔽机制的稀疏熵模型。我们的实验结果验证了我们提出的方法在基于网格的NeRF压缩效能和重建质量方面超过了现有的工作。
论文链接: https://arxiv.org/pdf/2406.08943
原标题: An AI Architecture with the Capability to Explain Recognition Results
作者: Paul Whitten, Francis Wolff, Chris Papachristou
机构: Case School of Engineering, Case Western Reserve University
摘要: 解释性是为了建立对机器学习结果的信心而需要的。一些可解释的方法采用事后方法来解释机器学习模型的权重,其他方法突出显示对决策有贡献的输入区域。这些方法不能以简单的术语充分解释决策。已经证明,可解释的基于属性的系统能够以简单的术语提供解释,然而,它们的表现不如领先的不可解释的机器学习方法。本研究关注解释性的度量指标的重要性,并提出了两种能够提高性能的方法。第一种方法引入了可解释和不可解释流程的组合,提出了一种用于表征决策可解释性的度量指标。第二种方法比较了用于估计系统中神经网络效果的经典度量指标,并提出了一种新的度量指标作为最佳表现者。新方法的结果以及手写数据集的示例被呈现出来。
论文链接: https://arxiv.org/pdf/2406.08740
原标题: Mirror and Preconditioned Gradient Descent in Wasserstein Space
作者: Clément Bonet, Théo Uscidda, Adam David, Pierre-Cyril Aubin-Frankowski, Anna Korba
机构: CREST, ENSAE IP Paris TU Wien Technische Universität Berlin
摘要: 由于在机器学习中最小化Wasserstein空间上的泛函问题涵盖了许多应用,因此不同的优化算法在 R d \mathbb{R}^d Rd上已经有了它们在Wasserstein空间上的对应物。我们在这里重点介绍两种显式算法:镜像下降和预条件梯度下降。这些算法被引入以更好地捕捉要最小化的函数的几何性质,并且在适当的(即相对的)光滑性和凸性条件下可以证明收敛。将这些概念适应到Wasserstein空间,我们证明了一些基于Wasserstein梯度的离散时间方案在目标泛函和正则化器的新配对下的收敛性保证。困难在于仔细选择哪些曲线上的泛函应该是光滑和凸的。我们通过在病态优化任务中调整由正则化器引起的几何性质的优势,并展示了在计算生物学中选择不同的差异和几何性质在对齐单细胞任务中的改进。
论文链接: https://arxiv.org/pdf/2406.08938
原标题: Introducing Diminutive Causal Structure into Graph Representation Learning
作者: Hang Gao, Peng Qiao, Yifan Jin, Fengge Wu, Jiangmeng Li, Changwen Zheng
机构: 中国科学院软件研究所综合信息系统实验室 中国科学院大学
摘要: 当使用图神经网络(GNN)进行端到端图表示学习时,图数据中复杂的因果关系和规则对于模型准确捕捉真实数据关系构成了巨大的挑战。一种提出的缓解策略是将与图数据对应的规则或关系直接整合到模型中。然而,在图表示学习领域中,图数据的内在复杂性阻碍了推导出涵盖整个数据集的普遍规则或关系的全面因果结构。相反,只有在受限的图数据子集中描绘特定因果关系的专门的小型因果结构才能被观察到。在经验洞察的推动下,观察到GNN模型在训练过程中趋向于收敛到这些专门的因果结构。因此,我们认为引入这些特定的因果结构对于GNN模型的训练是有利的。基于这个命题,我们提出了一种新的方法,使得GNN模型能够从这些专门的小型因果结构中获取洞察力,从而提高整体性能。我们的方法特别从这些小型因果结构的模型表示中提取因果知识,并引入交换干预以优化学习过程。理论分析证实了我们提出方法的有效性。此外,实证实验在不同的数据集上一致地展示了显著的性能改进。
论文链接: https://arxiv.org/pdf/2406.08709
原标题: Learning Images Across Scales Using Adversarial Training
作者: Krzysztof Wolski, Adarsh Djeacoumar, Alireza Javanmardi, Hans-Peter Seidel, Christian Theobalt, Guillaume Cordonnier, Karol Myszkowski, George Drettakis, Xingang Pan, Thomas Leimkühler
机构: Max-Planck-Institut für Informatik, Germany Inria, Université Côte d’Azur, France Nanyang Technological University, Singapore
摘要: 现实世界在许多观察尺度上展示出丰富的结构和细节。然而,使用普通图像很难捕捉和表示广泛的尺度范围。我们设计了一种新的范式,用于学习从非结构化的普通图像集合中捕捉数量级多样的尺度表示。我们将这个集合视为一个尺度空间切片的分布,通过对抗训练来学习,并在切片之间强制保持一致性。我们的方法依赖于一个多尺度生成器,其中注入了精心设计的过程频率内容,可以交互地探索不断出现的连续尺度空间。在不同尺度上的训练面临着稳定性方面的挑战,我们通过一个监督方案来解决这个问题,该方案涉及到对尺度的仔细采样。我们展示了我们的生成器可以用作多尺度生成模型,并用于从非结构化补丁中重建尺度空间。在高质量和尺度一致性方面,我们明显优于现有技术水平,展示了高达256倍的放大因子。
论文链接: https://arxiv.org/pdf/2406.08924
原标题: From Biased to Unbiased Dynamics: An Infinitesimal Generator Approach
作者: Timothée Devergne, Vladimir Kostic, Michele Parrinello, Massimiliano Pontil
机构: 意大利技术研究所、诺维萨德大学、伦敦大学学院
摘要: 我们研究了学习时间反演不变随机过程的演化算子的特征函数,其中一个典型的例子是分子动力学中使用的 Langevin 方程。由这个方程描述的许多物理或化学过程涉及到在模拟过程中几乎无法跨越的高势垒分隔的亚稳态之间的转变。为了克服这个瓶颈,我们通过有偏的模拟收集数据,以更快地探索状态空间。我们提出了一个基于过程的无穷小生成器和相关的共轭算子的有偏模拟学习框架。我们将我们的方法与基于转移算子的常见方法进行对比,表明它可以从有偏数据中可靠地学习无偏系统的谱特性。在实验中,我们突出了我们的方法相对于转移算子方法和基于生成器学习的最新进展的优势,证明了它在估计特征函数和特征值方面的有效性。重要的是,我们表明,即使数据集中只包含少量相关转变(由于次优偏置),我们的方法仍然可以恢复有关转变机制的相关信息。
论文链接: https://arxiv.org/pdf/2406.09028
原标题: Predicting Fault-Ride-Through Probability of Inverter-Dominated Power Grids using Machine Learning
作者: Christian Nauck, Anna Büttner, Sebastian Liemann, Frank Hellmann, Michael Lindner
机构: Potsdam Institute for Climate Impact Research, Technical University of Dortmund
摘要: 由于可再生能源份额的增加,对电力网络动态行为的分析变得越来越重要。有效的风险评估需要分析大量的故障场景。动态模拟中固有的计算成本对可以分析的配置数量施加了限制。机器学习(ML)已被证明可以高效地预测复杂的电力网络属性。因此,我们分析了ML在预测未来大量逆变器的电力网络的动态稳定性方面的潜力。为此,我们生成了一个由合成电力网络模型组成的新数据集,并进行了动态模拟。作为ML训练的目标,我们计算了故障穿越概率,我们将其定义为在清除总线上的故障后仍然保持在穿越曲线内的概率。重要的是,我们证明了ML模型准确预测了合成电力网络的故障穿越概率。最后,我们还展示了ML模型对IEEE-96测试系统的泛化能力,这强调了部署ML方法研究电力网络的概率稳定性的潜力。
论文链接: https://arxiv.org/pdf/2406.08917
原标题: Schur’s Positive-Definite Network: Deep Learning in the SPD cone with structure
作者: Can Pouliquen, Mathurin Massias, Titouan Vayer
机构: ENS Lyon, Inria, UCBL, CNRS, LIP
摘要: 估计对称正定(SPD)锥中的矩阵在许多应用中都很有意义,从计算机视觉到图形学习。虽然存在各种基于凸优化的估计器,但由于其基于模型的方法,它们在表达能力上仍然有限。深度学习的成功使得许多人开始使用神经网络以数据驱动的方式学习估计SPD矩阵。对于学习结构化输出,一种有前途的策略涉及通过展开迭代算法来设计架构,这可能受益于归纳偏差属性。然而,为SPD学习设计正确的展开架构是困难的:它们要么不能保证其输出具有所有期望的属性,要么依赖于繁重的计算,要么过于受限于特定的矩阵,这限制了它们的表达能力。在本文中,我们提出了一种新颖且通用的学习模块,名为SpodNet,它具有保证的SPD输出,并且能够学习比现有方法更大类别的函数。值得注意的是,它解决了同时学习SPD和稀疏矩阵的挑战性任务。我们的实验证明了SpodNet层的多功能性。
论文链接: https://arxiv.org/pdf/2406.09023
原标题: Transcription-Free Fine-Tuning of Speech Separation Models for Noisy and Reverberant Multi-Speaker Automatic Speech Recognition
作者: William Ravenscroft, George Close, Stefan Goetze, Thomas Hain, Mohammad Soleymanpour, Anurag Chowdhury, Mark C. Fuhs
机构: The University of Sheffield Solventum
摘要: 自动语音识别(ASR)中解决重叠说话者的一种方法是分离语音,然后对分离的信号进行ASR。通常,分离器会产生伪影,这经常会降低ASR的性能。解决这个问题通常需要参考转录来联合训练分离和ASR网络。然而,在真实世界的领域音频上进行训练时,参考转录信息并不总是可用的,这往往是不可行的。本文提出了一种无需转录的联合训练方法,只使用音频信号。所提出的方法使用预训练ASR编码器的嵌入差异作为损失,并对排列不变训练(PIT)进行了一种改进,称为引导PIT(GPIT)。该方法在词错误率(WER)测量上实现了6.4%的改进,并且在感知度量(如短时客观可懂度(STOI))方面也显示出了改进。
论文链接: https://arxiv.org/pdf/2406.08914
原标题: The Penalized Inverse Probability Measure for Conformal Classification
作者: Paul Melki (IMS), Lionel Bombrun (IMS), Boubacar Diallo, Jérôme Dias, Jean-Pierre da Costa (IMS)
机构: IMS, CNRS, University of Bordeaux EXXACT Robotics Bordeaux Sciences Agro
摘要: 部署安全可靠的机器学习系统,特别是复杂的黑盒神经网络,在实际应用中需要对其性能进行可靠和认证的保证。符合性预测框架通过将任意点转化为具有有效、有限集合保证的预测器,提供了这样的形式保证,以在选择的置信水平上对真实情况的覆盖率进行保证。这种方法的核心是非一致性评分函数的概念,它为每个示例分配了与先前观察到的观测值相比的“奇异性”度量。尽管覆盖率保证不受非一致性度量、点预测器和数据集的影响,但先前的研究表明,符合性模型的性能(通过其效率(预测集的平均大小)和信息性(单例预测集的比例)来衡量)受到非一致性评分函数的选择的影响。本研究介绍了惩罚逆概率(PIP)非一致性评分及其正则化版本RePIP,它们允许同时优化效率和信息性。通过玩具示例和在农业机器人中进行作物和杂草图像分类任务的实证结果,本研究展示了基于PIP的符合性分类器与其他非一致性度量相比展现出所期望的行为,并在信息性和效率之间取得了良好的平衡。
论文链接: https://arxiv.org/pdf/2406.08884
原标题: Classic GNNs are Strong Baselines: Reassessing GNNs for Node Classification
作者: Yuankai Luo, Lei Shi, Xiao-Ming Wu
机构: 北航 香港理工大学
摘要: 图形转换器(GTs)最近已成为传统消息传递图神经网络(GNNs)的流行替代品,因为它们在理论上具有更强的表达能力,并在标准节点分类基准测试中表现出色,通常明显优于GNNs。在本文中,我们进行了彻底的实证分析,重新评估了三种经典GNN模型(GCN,GAT和GraphSAGE)与GTs的性能。我们的研究结果表明,之前报道的GTs的优越性可能由于GNNs中次优的超参数配置而夸大。值得注意的是,在轻微的超参数调整下,这些经典GNN模型在18个不同的数据集中的17个中实现了最先进的性能,甚至超过了最近的GTs。此外,我们进行了详细的消融研究,以研究各种GNN配置(如归一化,dropout,残差连接,网络深度和跳跃知识模式)对节点分类性能的影响。我们的研究旨在促进图机器学习领域更高的实证严谨标准,鼓励更准确的模型能力比较和评估。
论文链接: https://arxiv.org/pdf/2406.08993
原标题: OmniH2O: Universal and Dexterous Human-to-Humanoid Whole-Body Teleoperation and Learning
作者: Tairan He, Zhengyi Luo, Xialin He, Wenli Xiao, Chong Zhang, Weinan Zhang, Kris Kitani, Changliu Liu, Guanya Shi
机构: 卡内基梅隆大学 上海交通大学
摘要: 我们介绍 OmniH2O(全能人对人形机器人),这是一个基于学习的系统,用于全身人形机器人的远程操作和自主性。使用运动姿势作为通用控制接口,OmniH2O使人类以多种方式控制具有灵巧手部的全尺寸人形机器人,包括通过虚拟现实头盔进行实时远程操作,口头指令和RGB摄像头。OmniH2O还通过学习远程操作示范或与GPT-4等前沿模型集成,实现了完全自主性。OmniH2O通过远程操作或自主性在各种真实世界的全身任务中展示了多功能性和灵巧性,例如进行多种运动,移动和操作物体以及与人类互动。我们开发了基于强化学习的从仿真到实际的流水线,其中包括对人类运动数据集进行大规模重定位和增强,通过模仿特权教师策略来学习具有稀疏传感器输入的实际部署策略,并设计奖励来增强鲁棒性和稳定性。我们发布了第一个人形机器人全身控制数据集 OmniH2O-6,其中包含六个日常任务,并展示了从远程操作数据集中学习人形机器人全身技能。
论文链接: https://arxiv.org/pdf/2406.08858
原标题: Assessment of Uncertainty Quantification in Universal Differential Equations
作者: Nina Schmid, David Fernandes del Pozo, Willem Waegeman, Jan Hasenauer
机构: 波恩大学 根特大学 慕尼黑大学
摘要: 科学机器学习是一种新的方法类别,它将物理知识和机械模型与数据驱动技术相结合,用于揭示复杂过程的控制方程。在可用的方法中,通用微分方程(UDEs)用于将机械形式的先验知识与神经网络等通用函数逼近器相结合。UDEs的有效性在于利用经验数据对机械形式和通用函数逼近器的参数进行联合估计。然而,所得模型的鲁棒性和适用性取决于与这些参数相关的不确定性的严格量化,以及整体模型或其组成部分的预测能力。通过这项工作,我们对UDEs的不确定性量化(UQ)进行了形式化,并研究了重要的频率主义和贝叶斯方法。通过分析三个不同复杂度的合成示例,我们评估了集合、变分推断和马尔可夫链蒙特卡洛采样作为UDEs的认识不确定性方法的有效性和效率。
论文链接: https://arxiv.org/pdf/2406.08853
原标题: BTS: Building Timeseries Dataset: Empowering Large-Scale Building Analytics
作者: Arian Prabowo, Xiachong Lin, Imran Razzak, Hao Xue, Emily W. Yap, Matthew Amos, Flora D. Salim
机构: 新南威尔士大学
摘要: 建筑物在人类福祉中起着至关重要的作用,影响着居住者的舒适度、健康和安全。此外,建筑物对全球能源消耗和碳排放贡献巨大,占总能源使用量的三分之一。优化建筑性能是应对气候变化和促进人类繁荣的重要机遇。然而,建筑分析研究受到了缺乏可访问、可用和全面的多个建筑运营实际数据集的限制。在本文中,我们介绍了建筑时间序列(BTS)数据集。我们的数据集涵盖了三座建筑物的三年时间段,包括数千个时间序列数据点和数百个独特的本体论。此外,元数据使用了标准化的Brick模式。为了展示这个数据集的实用性,我们对两个任务进行了基准测试:时间序列本体分类和零样本预测。这些任务代表了解决建筑分析中互操作性挑战的重要初始步骤。可以在此处获取数据集和用于基准测试的代码:this https URL。
论文链接: https://arxiv.org/pdf/2406.08990
Github: https://github.com/cruiseresearchgroup/DIEF_BTS
原标题: Roping in Uncertainty: Robustness and Regularization in Markov Games
作者: Jeremy McMahan, Giovanni Artiglio, Qiaomin Xie
摘要: 我们研究具有 s s s-矩形不确定性的鲁棒马尔可夫博弈(RMG)。我们展示了计算 s s s-矩形RMG的鲁棒纳什均衡(RNE)与计算适当构造的正则化MG的纳什均衡(NE)之间的一般等价性。等价结果为解决 s s s-矩形RMG提供了一个规划算法,同时为使用正则化方法计算的策略提供了可证明的鲁棒性保证。然而,我们证明即使对于仅具有奖励不确定性的两人零和矩阵游戏,计算RNE也是PPAD难题。因此,我们提出了一种特殊的不确定性结构,称为高效的玩家分解性,并展示了在这个类别中,两人零和RMG的RNE可以在多项式时间内可证明地解决。这个类别包括常用的不确定性集合,如 L 1 L_1 L1和 L ∞ L_\infty L∞球形不确定性集合。
论文链接: https://arxiv.org/pdf/2406.08847
原标题: Conceptual Learning via Embedding Approximations for Reinforcing Interpretability and Transparency
作者: Maor Dikter, Tsachi Blau, Chaim Baskin
机构: Technion – Israeli Institute of Technology
摘要: 概念瓶颈模型(CBMs)已成为在解释性至关重要的领域中的关键工具。这些模型依赖于预定义的文本描述,称为概念,来指导它们的决策过程并提供更准确的推理。因此,模型中使用的概念的选择至关重要。本研究提出了通过嵌入逼近进行增强解释性和透明度的概念学习(CLEAR)框架,用于构建用于图像分类的CBM。通过使用分数匹配和Langevin采样,我们通过学习与图像和概念的联合分布相关联的分数来近似嵌入到视觉语言模型(VLM)的潜在空间中的概念。然后,采用概念选择过程来优化学习嵌入和预定义嵌入之间的相似性。得到的瓶颈提供了对CBM决策过程的洞察,从而实现更全面的解释。我们的方法通过广泛的实验进行了评估,并在各种基准测试中取得了最先进的性能。我们实验的代码可在此https URL上获得。
论文链接: https://arxiv.org/pdf/2406.08840
Github: https://github.com/clearProject/CLEAR/tree/main
原标题: Research on Deep Learning Model of Feature Extraction Based on Convolutional Neural Network
作者: Houze Liu, Iris Li, Yaxin Liang, Dan Sun, Yining Yang, Haowei Yang
机构: 纽约大学 华盛顿大学 南加州大学 卡内基梅隆大学 休斯顿大学
摘要: 相对较浅和简单结构的神经网络可能在准确识别肺炎方面能力有限。此外,深度神经网络对计算资源的需求也很大,这可能导致卷积神经网络无法在终端上实现。因此,本文将对卷积神经网络进行最优分类。首先,根据肺炎图像的特点,选择了AlexNet和InceptionV3来获得更好的图像识别结果。结合医学图像的特征,学习具有更深和更复杂结构的前向神经网络。最后,使用知识提取技术将获得的数据提取到AlexNet模型中,以提高计算效率和降低计算成本。结果显示,经过训练的AlexNet模型的预测准确率、特异度和敏感度分别提高了4.25个百分点、7.85个百分点和2.32个百分点。与InceptionV3模式相比,图形处理使用率减少了51%。
论文链接: https://arxiv.org/pdf/2406.08837
原标题: An Unsupervised Approach to Achieve Supervised-Level Explainability in Healthcare Records
作者: Joakim Edin, Maria Maistro, Lars Maaløe, Lasse Borgholt, Jakob D. Havtorn, Tuukka Ruotsalo
机构: 哥本哈根大学 LUT大学 Corti
摘要: 电子医疗记录对患者安全至关重要,因为它们记录了自由文本和医学代码中的病情、计划和程序。语言模型显著增强了对这些记录的处理,简化了工作流程,减少了手动数据录入,从而节省了医疗服务提供者大量的资源。然而,这些模型的黑盒特性常常使医疗专业人员不愿相信它们。最先进的可解释性方法增加了模型的透明度,但依赖于昂贵的人工注释证据范围。在这项研究中,我们提出了一种方法,可以在不需要这些注释的情况下生成合理和忠实的解释。我们在自动化医学编码任务上展示了对抗鲁棒性训练提高解释合理性的效果,并引入了AttInGrad,一种优于以前方法的新的解释方法。通过在完全无监督的设置中结合这两个贡献,我们产生了与监督方法相当或更好的解释质量。我们发布了我们的代码和模型权重。
论文链接: https://arxiv.org/pdf/2406.08958
原标题: Can Synthetic Audio From Generative Foundation Models Assist Audio Recognition and Speech Modeling?
作者: Tiantian Feng, Dimitrios Dimitriadis, Shrikanth Narayanan
机构: University of Southern California, USA Amazon, USA
摘要: 最近基础模型的进展使得能够生成与音乐、事件和人类行为相关的高保真音频生成模型成为可能。尽管现代音频生成模型取得了成功,但传统的评估音频生成质量的方法主要依赖于像Frechet音频距离这样的距离度量。相比之下,我们的目标是通过检查将其用作训练数据的效果来评估音频生成的质量。具体而言,我们进行了研究,探索了使用合成音频进行音频识别的方法。此外,我们还调查了合成音频是否可以作为语音相关建模中的数据增强资源。我们的综合实验证明了使用合成音频进行音频识别和语音相关建模的潜力。我们的代码可以在此https URL找到。
论文链接: https://arxiv.org/pdf/2406.08800
Github: https://github.com/usc-sail/SynthAudio
原标题: Optimizing Large Model Training through Overlapped Activation Recomputation
作者: Ping Chen, Wenjie Zhang, Shuibing He, Yingjie Gu, Zhuwei Peng, Kexin Huang, Xuan Zhan, Weijian Chen, Yi Zheng, Zhefeng Wang, Yanlong Yin, Gang Chen
机构: 浙江大学 华为云
摘要: 大型模型训练一直在使用重计算来减轻内存压力,并使用流水线来利用数据、张量和设备的并行性。现有的重计算方法在训练实际模型(例如具有220亿参数的GPT模型)时可能会产生高达40%的额外开销。这是因为它们在关键训练路径上按需执行。在本文中,我们设计了一个新的重计算框架Lynx,通过将重计算与训练流水线中的通信重叠来减少开销。它包括一个最优调度算法(OPT)和一个基于启发式的调度算法(HEU)。OPT可以实现全局最优,但搜索时间较长。HEU基于我们的观察,大型DNN模型中存在相同的结构,因此我们可以将相同的调度策略应用于所有相同的结构。HEU可以实现局部最优,但与OPT相比,搜索时间减少了99%。我们使用具有1.3B-20B参数的GPT模型进行了全面评估,结果显示OPT和HEU的性能优于最先进的重计算方法(例如Megatron-LM和Checkmake)1.02-1.53倍。HEU的性能与OPT相似,平均搜索时间为0.16秒。
论文链接: https://arxiv.org/pdf/2406.08756
原标题: Rethinking Score Distillation as a Bridge Between Image Distributions
作者: David McAllister, Songwei Ge, Jia-Bin Huang, David W. Jacobs, Alexei A. Efros, Aleksander Holynski, Angjoo Kanazawa
机构: 加州大学伯克利分校 马里兰大学
摘要: 得分蒸馏采样(SDS)已被证明是一种重要工具,可以在数据贫乏的领域中使用大规模扩散先验。不幸的是,SDS具有一些特征性的伪影,限制了它在通用应用中的实用性。在本文中,我们通过将其视为从源分布到目标分布的最优成本传输路径来解决SDS及其变体的行为,从而取得了进展。在这种新的解释下,这些方法试图将损坏的图像(源)传输到自然图像分布(目标)。我们认为,当前方法的特征性伪影是由于(1)对最优路径的线性近似和(2)对源分布的估计不准确所导致的。我们展示了通过校准源分布的文本条件可以产生高质量的生成和翻译结果,而几乎不增加额外开销。我们的方法可以轻松应用于许多领域,与专门方法的性能相匹配或超越。我们展示了它在文本到2D、基于文本的NeRF优化、将绘画翻译为真实图像、光学幻觉生成和3D草图到真实图像的实用性。我们将我们的方法与现有的得分蒸馏采样方法进行了比较,并展示它可以产生具有真实颜色的高频细节。
论文链接: https://arxiv.org/pdf/2406.09417
原标题: An Image is Worth More Than 16x16 Patches: Exploring Transformers on Individual Pixels
作者: Duy-Kien Nguyen, Mahmoud Assran, Unnat Jain, Martin R. Oswald, Cees G. M. Snoek, Xinlei Chen
机构: FAIR Meta AI University of Amsterdam
摘要: 这项工作并没有引入新的方法。相反,我们提出了一个有趣的发现,质疑了归纳偏差——在现代计算机视觉架构中的局部性的必要性。具体而言,我们发现普通的Transformer可以通过直接将每个像素视为一个标记来进行操作,并取得高性能的结果。这与Vision Transformer中流行的设计有很大的不同,后者保持了从ConvNets到局部邻域的归纳偏差(例如,将每个16x16的补丁视为一个标记)。我们主要展示了像素作为标记在计算机视觉中三个经过深入研究的任务中的有效性:用于对象分类的监督学习,通过掩码自编码进行的自监督学习,以及使用扩散模型进行的图像生成。尽管直接操作单个像素在计算上不太实用,但我们认为在设计下一代计算机视觉的神经架构时,社区必须意识到这一令人惊讶的知识。
论文链接: https://arxiv.org/pdf/2406.09415
原标题: Interpreting the Weight Space of Customized Diffusion Models
作者: Amil Dravid, Yossi Gandelsman, Kuan-Chieh Wang, Rameen Abdal, Gordon Wetzstein, Alexei A. Efros, Kfir Aberman
机构: UC Berkeley Snap Inc. Stanford University
摘要: 我们研究了由大量定制扩散模型所覆盖的权重空间。我们通过创建一个包含超过60,000个模型的数据集来填充这个空间,其中每个模型都是一个经过微调的基础模型,用于插入不同的人的视觉特征。我们将这些权重的潜在流形建模为一个子空间,我们称之为weights2weights。我们展示了这个空间的三个直接应用——采样、编辑和反演。首先,由于空间中的每个点对应一个身份,从中采样一组权重会得到一个编码了新颖身份的模型。接下来,我们在这个空间中找到与身份的语义编辑对应的线性方向(例如,添加胡须)。这些编辑在生成的样本中保持外观一致。最后,我们展示了将单个图像反演到这个空间中可以重建出一个逼真的身份,即使输入图像不在分布范围内(例如,一幅绘画)。我们的结果表明,经过微调的扩散模型的权重空间表现为一个可解释的身份潜空间。
论文链接: https://arxiv.org/pdf/2406.09413
原标题: Data Attribution for Text-to-Image Models by Unlearning Synthesized Images
作者: Sheng-Yu Wang, Aaron Hertzmann, Alexei A. Efros, Jun-Yan Zhu, Richard Zhang
机构: 卡内基梅隆大学 Adobe Research 加州大学伯克利分校
摘要: 数据归因对于文本到图像模型的目标是识别对生成新图像最具影响力的训练图像。我们可以通过以下方式定义“影响力”:对于给定的输出,如果模型在没有这些输出最具影响力的图像的情况下重新训练,那么模型应该无法生成该输出图像。不幸的是,直接搜索这些具有影响力的图像在计算上是不可行的,因为这将需要反复从头开始重新训练。我们提出了一种新的方法,可以高效地识别高度具有影响力的图像。具体而言,我们模拟了合成图像的遗忘过程,提出了一种增加输出图像训练损失的方法,而不会对其他不相关概念产生灾难性的遗忘。然后,我们通过代理方式找到被遗忘的训练图像,识别在遗忘过程后损失发生显著变化的图像,并将其标记为具有影响力的图像。我们通过计算密集但“黄金标准”的从头开始重新训练来评估我们的方法,并展示了我们的方法相对于先前方法的优势。
论文链接: https://arxiv.org/pdf/2406.09408
原标题: Yo’LLaVA: Your Personalized Language and Vision Assistant
作者: Thao Nguyen, Haotian Liu, Yuheng Li, Mu Cai, Utkarsh Ojha, Yong Jae Lee
机构: University of Wisconsin-Madison
摘要: 大型多模态模型(LMMs)在各种任务(例如图像字幕、视觉问答)中展示出了卓越的能力。虽然广泛,但它们的知识仍然是通用的(例如,识别一只狗),无法处理个性化的主题(例如,识别用户的宠物狗)。相比之下,人类的推理通常在我们周围的特定主题的背景下进行。例如,一个人可能会问:“我应该为我的狗的生日买什么?”而不是一个关于“为一只狗的生日买什么”的通用询问。同样,在看朋友的照片时,兴趣在于看到他们的活动(例如,“我的朋友正在抱着一只猫”),而不仅仅是观察通用的人类行为(例如,“一个男人正在抱着一只猫”)。在本文中,我们引入了个性化LMMs的新任务,使它们能够就特定主题进行对话。我们提出了Yo’LLaVA,它可以在给定一些示例图像的情况下,将个性化主题嵌入一组潜在的标记中。我们的定性和定量分析表明,与强提示基线(例如LLaVA)相比,Yo’LLaVA可以更有效地使用更少的标记学习概念,并更有效地编码视觉属性。
论文链接: https://arxiv.org/pdf/2406.09400
原标题: LLAVIDAL: Benchmarking Large Language Vision Models for Daily Activities of Living
作者: Rajatsubhra Chakraborty, Arkaprava Sinha, Dominick Reilly, Manish Kumar Govind, Pu Wang, Francois Bremond, Srijan Das
机构: UNC Charlotte Inria Université Côte d’Azur
摘要: 大语言视觉模型(LLVMs)已经证明在处理互联网视频方面非常有效,但是由于有限的相关数据集和针对相关线索的模型,它们在日常生活活动(ADL)中存在视觉上困惑的动态方面存在困难。为此,我们提出了一个框架,用于策划ADL多视图数据集以对LLVM进行微调,从而创建ADL-X,包括10万个RGB视频指令对、语言描述、3D骨架和动作条件下的物体轨迹。我们引入了LLAVIDAL,这是一个能够将3D姿势和相关物体轨迹纳入到ADL中以理解复杂的时空关系的LLVM。此外,我们还提出了一个新的基准测试ADLMCQ,用于量化LLVM在ADL场景中的效果。当在ADL-X上进行训练时,LLAVIDAL在所有ADL评估指标上始终达到最先进的性能。定性分析揭示了LLAVIDAL在理解ADL方面的时间推理能力。数据集的链接在此https URL中提供。
论文链接: https://arxiv.org/pdf/2406.09390
Github: https://adl-x.github.io/
原标题: Learning conditional distributions on continuous spaces
作者: Cyril Bénézet, Ziteng Cheng, Sebastian Jaimungal
摘要: 我们研究了在多维单位盒子上基于样本的条件分布学习,允许特征空间和目标空间的维度不同。我们的方法涉及在特征空间中的不同查询点附近对数据进行聚类,以在目标空间中创建经验度量。我们采用了两种不同的聚类方案:一种基于固定半径球,另一种基于最近邻。我们为两种方法的收敛速度建立了上界,并从这些上界中推导出半径和最近邻数的最佳配置。我们建议将最近邻方法纳入神经网络训练中,因为我们的经验分析表明它在实践中具有更好的性能。为了提高效率,我们的训练过程利用了随机二进制空间划分的近似最近邻搜索。此外,我们还采用了Sinkhorn算法和稀疏强制传输计划。我们的实证研究结果表明,通过适当设计的结构,神经网络能够在局部适应适当水平的Lipschitz连续性。为了可重复性,我们的代码可在此\url{https://this https URL}获取。
论文链接: https://arxiv.org/pdf/2406.09375
Github: https://github.com/zcheng-a/LCD_kNN
原标题: Efficient Discrepancy Testing for Learning with Distribution Shift
作者: Gautam Chandrasekaran, Adam R. Klivans, Vasilis Kontonis, Konstantinos Stavropoulos, Arsen Vasilyan
机构: UT Austin MIT
摘要: 领域适应中,训练和测试分布之间的距离的一个基本概念是差异距离。虽然一般很难计算,但我们在这里提供了第一组可证明高效的算法,用于测试局部差异距离,其中差异是相对于固定输出分类器计算的。这些结果意味着在最近引入的具有分布偏移的可测试学习模型(TDS学习)中,可以获得一系列新的高效学习算法,该模型由Klivans等人(2023年)提出。
我们的方法推广并改进了TDS学习的所有先前工作:(1)我们获得了能够同时成功应对大类测试分布的通用学习器,(2)实现了接近最优的错误率,并且(3)对于常数深度电路获得了指数级的改进。我们的方法进一步扩展到半参数设置,并且对于低维凸集获得了首个积极结果。此外,我们将学习和测试阶段分离,并获得在测试时运行的完全多项式时间算法。
论文链接: https://arxiv.org/pdf/2406.09373
原标题: LRM-Zero: Training Large Reconstruction Models with Synthesized Data
作者: Desai Xie, Sai Bi, Zhixin Shu, Kai Zhang, Zexiang Xu, Yi Zhou, Sören Pirk, Arie Kaufman, Xin Sun, Hao Tan
机构: Adobe Research Stony Brook University Kiel University
摘要: 我们介绍了 LRM-Zero,一个完全基于合成的3D数据训练的大型重建模型(LRM),实现了高质量的稀疏视图3D重建。LRM-Zero的核心是我们的程序化3D数据集Zeroverse,它是通过简单的基本形状进行自动合成的,具有随机纹理和增强(例如,高度场、布尔差异和线框)。与以前的3D数据集(例如Objaverse)通常是由人类捕捉或制作的,以近似真实的3D数据不同,Zeroverse完全忽略了真实的全局语义,但在复杂的几何和纹理细节上与真实对象在局部上相似甚至更复杂。我们证明了我们的LRM-Zero,通过我们完全合成的Zeroverse进行训练,可以在重建真实世界对象时达到高的视觉质量,与在Objaverse上训练的模型相竞争。我们还分析了Zeroverse的几个关键设计选择,这些选择有助于LRM-Zero的能力和训练稳定性。我们的工作表明,3D重建,作为3D视觉的核心任务之一,有可能在不考虑真实世界对象的语义的情况下进行。Zeroverse的程序化合成代码和交互式可视化可在此https URL上获得。
论文链接: https://arxiv.org/pdf/2406.09371
Github: https://desaixie.github.io/lrm-zero/
原标题: On the Expressibility of the Reconstructional Color Refinement
作者: V. Arvind, Johannes Köbler, Oleg Verbitsky
摘要: 著名的乌拉姆重构猜想相关的最基本事实之一是,图的连通性可以通过其顶点删除子图的牌组来确定,这些子图被认为是同构的。我们通过证明,在牌组中的子图在颜色细化同构测试下等价时,仍然可以确定连通性。因此,这意味着连通性可以被重构图神经网络识别,这是一种最近引入的受重构猜想启发的GNN架构(Cotta,Morris,Ribeiro 2021)。
论文链接: https://arxiv.org/pdf/2406.09351
原标题: Instance-level quantitative saliency in multiple sclerosis lesion segmentation
作者: Federico Spagnolo, Nataliia Molchanova, Roger Schaer, Meritxell Bach Cuadra, Mario Ocampo Pineda, Lester Melie-Garcia, Cristina Granziera, Vincent Andrearczyk, Adrien Depeursinge
摘要: 近年来,可解释的人工智能(XAI)方法试图在分类任务中揭示和描述模型的决策机制。然而,至今为止,对于语义分割和特别是单个实例的XAI研究还很少。了解自动分割单个实例的过程对于揭示检测和分割感兴趣对象所使用的信息至关重要。在本研究中,我们提出了基于SmoothGrad和Grad-CAM++方法的两种实例级解释映射,用于语义分割。然后,我们研究了它们在多发性硬化症(MS)磁共振成像(MRI)生物标志物白质病变(WML)的检测和分割中的相关性。我们收集了瑞士巴塞尔大学医院的687名被诊断为MS的患者的4043个FLAIR和MPRAGE MRI扫描。数据被随机分为训练、验证和测试集,以训练一个用于MS病变分割的3D U-Net模型。我们观察到3050个真阳性(TP),1818个假阳性(FP)和789个假阴性(FN)的情况。我们通过开发基于SmoothGrad和Grad-CAM++的两种XAI方法,生成了用于语义分割的实例级解释映射。我们研究了以下内容:1)显著性图中梯度在输入MRI序列方面的分布;2)在合成病变情况下模型的响应;3)模型分割病变所需的周围组织量。FLAIR中的显著性图(基于SmoothGrad)在病变内部显示正值,在其邻域显示负值。为这四组体积生成的显著性图的峰值呈现出明显不同的分布,表明所提出的显著性具有定量性质。需要病变边界周围7mm的上下文信息来进行分割。
论文链接: https://arxiv.org/pdf/2406.09335
原标题: Neural networks in non-metric spaces
作者: Luca Galimberti
摘要: 利用我们在arXiv:2109.13512v4中提出的无限维神经网络架构,该架构可以处理来自Fréchet空间的输入,并利用其中显示的通用逼近性质,我们现在通过证明几个通用逼近定理,大大扩展了该架构的范围。更具体地说,允许输入空间 X \mathfrak X X是满足一种温和条件(“准波兰”)的一般拓扑空间,输出空间可以是另一个准波兰空间 Y \mathfrak Y Y或拓扑向量空间 E E E。与arXiv:2109.13512v4类似,我们还展示了我们的神经网络架构可以投影到具有任意精度的"有限维"子空间中,从而获得易于实现且允许快速计算和拟合的逼近网络。因此,所得到的神经网络架构适用于基于函数数据的预测任务。据我们所知,这是第一个处理如此广泛的输入/输出空间并同时保证所得到的架构的数值可行性的结果。最后,我们证明了一个障碍结果,表明准波兰空间的范畴在某种意义上是正确的范畴,如果一个人的目标是在无限维空间 X \mathfrak X X上构建逼近架构,这些架构具有足够的表达能力来逼近 X \mathfrak X X上的连续函数,仅由有限数量的参数指定,并且对于这些参数是"稳定"的。
论文链接: https://arxiv.org/pdf/2406.09310
其他链接: https://arxiv.org/abs/2109.13512v4
原标题: Generative Inverse Design of Crystal Structures via Diffusion Models with Transformers
作者: Izumi Takahara, Kiyou Shibata, Teruyasu Mizoguchi
机构: 东京大学工学院
摘要: 深度学习的最新进展使得通过在大规模文本、图像和音频数据集上训练生成模型来生成逼真数据成为可能。虽然这些模型在生成新颖和可信数据方面表现出色,但它们是否能够通过数据生成有效地加速科学发现并在各个科学领域取得重大进展仍然是一个悬而未决的问题。特别是,发现具有有希望性质的新型无机材料在科学和工业应用上都面临着重大挑战。然而,与文本或图像数据不同,材料,或更具体地说是晶体结构,由多种类型的变量组成,包括晶格矢量、原子位置和原子种类。这种数据的复杂性导致了各种表示和生成这种数据的方法。因此,用于晶体结构的生成模型的设计选择仍然是一个悬而未决的问题。在本研究中,我们探索了一种基于Transformer架构的扩散模型,用于生成具有所需属性的晶体结构的生成逆向设计。我们证明了我们的模型在生成晶体结构方面的多样性方面优于先前的方法。此外,我们的实证结果表明,最佳的条件方法因数据集而异。
论文链接: https://arxiv.org/pdf/2406.09263
原标题: Deep Sketched Output Kernel Regression for Structured Prediction
作者: Tamim El Ahmad, Junjie Yang, Pierre Laforgue, Florence d’Alché-Buc
机构: LTCI, Télécom Paris IP Paris University of Milan
摘要: 通过在输出空间中利用核技巧,核引导的损失提供了一种有原则的方法,用于定义各种输出模态的结构化输出预测任务。特别是,在代理非参数回归的背景下,它们通常在输入空间中也利用核技巧。然而,当输入是图像或文本时,比非参数方法更适合使用更具表达力的模型,如深度神经网络。在这项工作中,我们解决了如何训练神经网络来解决结构化输出预测任务的问题,同时仍然从核引导的损失的多功能性和相关性中受益。我们设计了一种新颖的深度神经架构系列,其最后一层在从核引导的损失导出的无限维输出特征空间中预测一个数据相关的有限维子空间。该子空间被选择为经验核协方差算子的随机近似版本的特征函数的张量积。有趣的是,这种方法解锁了使用梯度下降算法(以及任何神经架构)进行结构化预测的能力。对合成任务和真实世界的监督图预测问题的实验证明了我们方法的相关性。
论文链接: https://arxiv.org/pdf/2406.09253
原标题: OpenVLA: An Open-Source Vision-Language-Action Model
作者: Moo Jin Kim, Karl Pertsch, Siddharth Karamcheti, Ted Xiao, Ashwin Balakrishna, Suraj Nair, Rafael Rafailov, Ethan Foster, Grace Lam, Pannag Sanketi, Quan Vuong, Thomas Kollar, Benjamin Burchfiel, Russ Tedrake, Dorsa Sadigh, Sergey Levine, Percy Liang, Chelsea Finn
机构: 清华大学
摘要: 大规模预训练的语言模型(Large Language Model,LLM)结合互联网规模的视觉-语言数据和多样化的机器人演示,有潜力改变我们教授机器人新技能的方式:不再从零开始训练新行为,而是可以对这种视觉-语言-动作(VLA)模型进行微调,以获得稳健、具有普适性的视觉运动控制策略。然而,广泛采用VLA用于机器人技术方面存在挑战,原因有两点:1)现有的VLA主要是封闭的,对公众不可访问;2)先前的研究未探索有效地对VLA进行新任务的微调方法,这是采用VLA的关键组成部分。为了解决这些挑战,我们介绍了OpenVLA,一个7B参数的开源VLA,它在一个多样化的970k真实世界机器人演示集合上进行了训练。OpenVLA基于Llama 2语言模型和一个视觉编码器,它融合了来自DINOv2和SigLIP的预训练特征。由于增加了数据多样性和新的模型组件,OpenVLA在通用操作方面表现出强大的结果,在29个任务和多个机器人实体上,绝对任务成功率比RT-2-X(55B)等封闭模型提高了16.5%,而参数数量减少了7倍。我们进一步展示了我们可以有效地对OpenVLA进行新环境的微调,在涉及多个对象和强大语言基础能力的多任务环境中,表现出特别强的泛化能力,相对于从头开始的模仿学习方法(如Diffusion Policy),成功率提高了20.4%。我们还探索了计算效率;作为一个独立的贡献,我们展示了OpenVLA可以通过现代低秩适应方法在消费级GPU上进行微调,并通过量化方式高效地提供服务,而不会影响下游的成功率。最后,我们发布了模型检查点、微调笔记本和我们的PyTorch代码库,其中内置了对Open X-Embodiment数据集进行大规模VLA训练的支持。
论文链接: https://arxiv.org/pdf/2406.09246
原标题: What is the long-run distribution of stochastic gradient descent? A large deviations analysis
作者: Waïss Azizian, Franck Iutzeler, Jérôme Malick, Panayotis Mertikopoulos
摘要: 在本文中,我们研究了随机梯度下降(SGD)在一般非凸问题中的长期分布。具体而言,我们试图理解SGD更有可能访问问题状态空间的哪些区域,以及访问频率如何。通过基于大偏差和随机扰动动力系统理论的方法,我们展示了SGD的长期分布类似于温度等于方法步长、能级由问题目标和噪声统计决定的平衡热力学的玻尔兹曼-吉布斯分布。特别地,我们展示了在长期运行中,(a)问题的临界区域被访问的频率指数级地高于任何非临界区域;(b)SGD的迭代指数级地集中在问题的最小能量状态周围(该状态不总是与目标的全局最小值相一致);(c)所有其他临界点的连通分量被访问的频率指数级地与它们的能量水平成比例;最后,(d)任何局部极大值或鞍点的分量都被局部最小值的分量“主导”,而后者被指数级地更频繁地访问。
论文链接: https://arxiv.org/pdf/2406.09241
原标题: Precise analysis of ridge interpolators under heavy correlations – a Random Duality Theory view
作者: Mihailo Stojnic
摘要: 我们考虑完全行/列相关的线性回归模型,并研究几种经典的估计器(包括最小范数插值器(GLS)、普通最小二乘法(LS)和岭回归器)。我们展示了\emph{随机对偶理论}(RDT)可以用来获得所有与优化感兴趣的量相关的估计器的精确闭式表征,包括\emph{预测风险}(测试或泛化误差)。在定性层面上,我们的结果恢复了风险的众所周知的非单调(所谓的双峰)行为,随着特征数目/样本大小比例的增加。在定量层面上,我们的闭式结果显示了风险如何明确地依赖于所有关键的模型参数,包括问题维度和协方差矩阵。此外,我们结果的一个特殊情况,当样本内(或时间序列)相关性不存在时,与[6,16,17,24]中通过谱方法获得的相应结果完全匹配。
论文链接: https://arxiv.org/pdf/2406.09199
如果想您想查看常用AI工具的中文文档,可以使用 www.aidoczh.com,里面有Langchain、Milvus等工具的官方文档的中文翻译。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。