当前位置:   article > 正文

2024年6月19日Arxiv机器学习相关论文_最终图论的t-link的权值就可以求出,利用贝叶斯分类器对像素进行有效分割。 基于图

最终图论的t-link的权值就可以求出,利用贝叶斯分类器对像素进行有效分割。 基于图

cs.LG: 可扩展规则列表学习与抽样

原标题: Scalable Rule Lists Learning with Sampling

作者: Leonardo Pellegrina, Fabio Vandin

机构: 帕多瓦大学

摘要: 学习可解释模型已成为机器学习研究的主要焦点,考虑到机器学习在社会重要决策中的日益突出。在可解释模型中,规则列表是最著名且易于解释的模型之一。然而,找到最佳规则列表在计算上具有挑战性,当前方法对大型数据集来说并不实用。
我们提出了一种新颖且可扩展的方法,从大型数据集中学习几乎最佳的规则列表。我们的算法使用抽样来高效地获得最佳规则列表的近似,并且严格保证了近似质量。特别是,我们的算法保证在存在高准确度的规则列表时,能够找到准确度非常接近最佳规则列表的规则列表。我们的算法建立在规则列表的 VC 维度上,我们证明了新颖的上下界。我们在大型数据集上的实验评估表明,我们的算法在速度上比最先进的精确方法提高了两个数量级。此外,我们的算法与最近的启发式方法一样快,有时甚至更快,并且报告了更高质量的规则列表。此外,我们算法报告的规则与最佳规则列表中的规则更相似,而启发式方法中的规则则不太相似。

论文链接: https://arxiv.org/pdf/2406.12803

cs.LG: BIOSCAN-5M:昆虫生物多样性的多模态数据集

原标题: BIOSCAN-5M: A Multimodal Dataset for Insect Biodiversity

作者: Zahra Gharaee, Scott C. Lowe, ZeMing Gong, Pablo Millan Arias, Nicholas Pellegrino, Austin T. Wang, Joakim Bruslund Haurum, Iuliia Zarubiieva, Lila Kari, Dirk Steinke, Graham W. Taylor, Paul Fieguth, Angel X. Chang

机构: 瓜尔夫大学 滑铁卢大学 西蒙菲瑞大学 向量研究所 阿尔伯塔机器智能研究所 (Amii) 奥尔堡大学 和 先锋人工智能中心

摘要: 作为全球范围内持续努力理解和监测昆虫生物多样性的一部分,本文向机器学习社区介绍了 BIOSCAN-5M 昆虫数据集,并建立了几个基准任务。 BIOSCAN-5M 是一个包含超过 500 万昆虫标本的综合数据集,通过包括分类标签、原始核苷酸条形码序列、分配的条形码索引号和地理信息,显著扩展了现有的基于图像的生物数据集。我们提出了三个基准实验,以展示多模态数据类型对分类和聚类准确性的影响。首先,我们在 BIOSCAN-5M 数据集的 DNA 条形码序列上预训练了一个掩码语言模型,并展示了使用这个大型参考库对物种和属级分类性能的影响。其次,我们提出了一个零样本迁移学习任务,应用于图像和 DNA 条形码,以聚类从自监督学习中获得的特征嵌入,以调查是否可以从这些表示嵌入中得出有意义的聚类。第三,我们通过对 DNA 条形码、图像数据和分类信息进行对比学习来评估多模态性。这产生了一个通用的共享嵌入空间,可以使用多种信息和模态进行分类。 BIOSCAN-5M 昆虫数据集的代码存储库可在此网址获得:[链接](https://此处为 https 的网址)

论文链接: https://arxiv.org/pdf/2406.12723

Github: https://github.com/zahrag/BIOSCAN-5M

cs.LG: POMDP中纯探索的限制:当观测熵足够时

原标题: The Limits of Pure Exploration in POMDPs: When the Observation Entropy is Enough

作者: Riccardo Zamboni, Duilio Cirino, Marcello Restelli, Mirco Mutti

机构: 米兰理工大学 泰克尼昂

摘要: 在马尔可夫决策过程中,纯探索问题被视为最大化智能体策略引起的状态分布的熵,这一目标已经得到了广泛研究。然而,在部分可观测性下,即使后者在应用中普遍存在(例如金融和机器人技术领域,智能体只接收到真实状态的嘈杂观测),对状态熵最大化的关注却很少。我们如何在这些领域解决状态熵最大化的问题?在本文中,我们研究了通过最大化观测熵来代替真实潜在状态的简单方法。首先,我们提供了对真实状态熵的近似的下界和上界,这仅取决于观测函数的某些属性。然后,我们展示了如何利用观测函数的知识来计算观测熵的原则性正则化,以提高性能。通过这项工作,我们不仅提供了一种灵活的方法,将状态熵最大化的进展带入到POMDP设置中,还对其内在限制进行了理论刻画。

论文链接: https://arxiv.org/pdf/2406.12795

cs.LG: 评估基于扩散的生成模型的设计空间

原标题: Evaluating the design space of diffusion-based generative models

作者: Yuqing Wang, Ye He, Molei Tao

机构: 佐治亚理工学院

摘要: 大多数现有的对扩散模型准确性的理论研究,尽管很重要,但都假设得分函数已被近似到一定的准确度,然后利用这个先验界限来控制生成的误差。相比之下,本文提供了对整个生成过程的第一次定量理解,即训练和抽样。更准确地说,它对梯度下降下的去噪得分匹配进行了非渐近收敛分析。此外,还提供了对方差爆炸模型的精细抽样误差分析。这两个结果的结合产生了一个完整的误差分析,从而阐明了(再次,但这次是在理论上)如何设计有效的生成训练和抽样过程。例如,我们的理论暗示了对噪声分布和损失加权的偏好,这与[Karras et al. 2022]中使用的偏好定性上一致。它还对为什么[Karras et al. 2022]中使用的时间和方差调度可能比[Song et al. 2020]中的先驱版本更好调整提供了一些观点。

论文链接: https://arxiv.org/pdf/2406.12839

cs.LG: 能量函数的上下文学习

原标题: In-Context Learning of Energy Functions

作者: Rylan Schaeffer, Mikail Khona, Sanmi Koyejo

机构: 伊利诺伊大学

摘要: 上下文学习是某些机器学习模型的强大能力,可以说是当今前沿人工智能模型成功的基础。然而,上下文学习在关注的上下文分布 p θ I C L ( x ∣ D ) p_{\theta}^{ICL}( x|\mathcal{D}) pθICL(xD) 可以直接由模型表达和/或参数化的情况下才能发挥作用;例如,语言建模依赖于将下一个标记分布表达为由网络输出 logits 参数化的分类分布。在这项工作中,我们提出了一种更一般形式的上下文学习,称为\textit{能量函数上下文学习},它不受这种限制。其核心思想是学习与上下文分布 p θ I C L ( x ∣ D ) p_{\theta}^{ICL}(x|\mathcal{D}) pθICL(xD) 对应的无约束和任意的上下文能量函数 E θ I C L ( x ∣ D ) E_{\theta}^{ICL}(x|\mathcal{D}) EθICL(xD)。为此,我们使用了能量模型的经典思想。我们提供初步证据表明,我们的方法在合成数据上经验上是有效的。有趣的是,我们的工作(据我们所知)首次提供了上下文学习的例子,其中输入空间和输出空间彼此不同,这表明上下文学习是一种比以往意识到的更一般的能力。

论文链接: https://arxiv.org/pdf/2406.12785

cs.LG: LayerMerge: 通过层修剪和合并实现神经网络深度压缩

原标题: LayerMerge: Neural Network Depth Compression through Layer Pruning and Merging

作者: Jinuk Kim, Marwa El Halabi, Mingi Ji, Hyun Oh Song

机构: 韩国科学技术院

摘要: 最近的研究表明,在卷积神经网络中减少层数可以提高效率,同时保持网络性能。现有的深度压缩方法会去除冗余的非线性激活函数,并将连续的卷积层合并成单个层。然而,这些方法存在一个严重缺陷:合并层的卷积核尺寸变大,显著削弱了减少网络深度带来的延迟减少效果。我们发现,可以通过联合修剪卷积层和激活函数来解决这个问题。为此,我们提出了LayerMerge,一种新颖的深度压缩方法,选择要移除的激活层和卷积层,以实现所需的推理加速,同时最小化性能损失。由于相应的选择问题涉及指数级的搜索空间,我们制定了一种新颖的替代优化问题,并通过动态规划有效地解决了这个问题。实证结果表明,我们的方法在各种网络架构上,无论是图像分类还是生成任务,始终优于现有的深度压缩和层修剪方法。我们在此 https URL 上发布了代码。

论文链接: https://arxiv.org/pdf/2406.12837

Github: https://github.com/snu-mllab/LayerMerge

cs.LG: 朝向在模拟内存计算上进行精确基于梯度的训练

原标题: Towards Exact Gradient-based Training on Analog In-memory Computing

作者: Zhaoxian Wu, Tayfun Gokmen, Malte J. Rasch, Tianyi Chen

机构: 雷恩塞勒理工学院 国际商业机器公司 沃森研究中心

摘要: 鉴于使用大型视觉或语言模型的高经济和环境成本,模拟内存加速器为能效高的人工智能提供了一个有前景的解决方案。虽然最近已经研究了模拟加速器上的推理,但从训练的角度来看还未被充分探讨。最近的研究表明,数字人工智能训练的“工作马”——随机梯度下降(SGD)算法在应用于非理想设备上的模型训练时会不精确地收敛。本文提出了关于模拟设备上基于梯度的训练的理论基础。我们首先对SGD的不收敛问题进行了表征,这是由模拟设备上的非对称更新引起的。然后,我们提供了一个渐近误差的下界,以表明基于SGD的模拟训练存在一个基本性能限制,而不是我们分析的结果。为了解决这个问题,我们研究了一种启发式模拟算法,称为Tiki-Taka,最近展现出与SGD相比更优越的经验性能,并严格证明了它能够精确地收敛到临界点,从而消除了渐近误差。模拟验证了分析的正确性。

论文链接: https://arxiv.org/pdf/2406.12774

cs.LG: Wagner框架的系统化:图论猜想与强化学习

原标题: A Systematization of the Wagner Framework: Graph Theory Conjectures and Reinforcement Learning

作者: Flora Angileri, Giulia Lombardi, Andrea Fois, Renato Faraone, Carlo Metta, Michele Salvi, Luigi Amedeo Bianchi, Marco Fantozzi, Silvia Giulia Galfrè, Daniele Pavesi, Maurizio Parton, Francesco Morandin

摘要: 2021年,Adam Zsolt Wagner提出了一种使用强化学习(RL)来推翻图论猜想的方法。Wagner的想法可以概括如下:考虑一个猜想,比如对于每个图G,存在某个数量f(G) < 0;然后可以进行一个单人图构建游戏,每一轮玩家决定是否添加一条边。游戏在考虑了所有边后结束,得到一个特定的图G_T,f(G_T)是游戏的最终得分;然后使用RL来最大化这个得分。这个精彩的想法既简单又创新,并且适用于系统化的泛化。可以采用几种不同的单人图构建游戏,以及各种RL算法。此外,RL最大化累积奖励,允许逐步奖励而不是单个最终得分,只要最终累积奖励代表感兴趣的数量f(G_T)。在本文中,我们讨论了这些以及Wagner框架中可能具有重要意义的各种选择。作为对这种系统化的贡献,我们提出了四种不同的单人图构建游戏。每个游戏都采用了逐步奖励系统和单个最终得分。我们还提出了一种有原则的方法来选择最适合任何给定猜想的神经网络架构,并引入了一个新的带有拉普拉斯谱标签的图数据集。此外,我们提供了一个关于匹配数和谱半径之和的猜想的反例,这个反例比Wagner原始论文中提供的例子更简单。
这些游戏已经作为Gymnasium框架中的环境实现,并且连同数据集一起作为开源补充材料提供。

论文链接: https://arxiv.org/pdf/2406.12667

cs.LG: 神经近似镜像映射用于受限扩散模型

原标题: Neural Approximate Mirror Maps for Constrained Diffusion Models

作者: Berthy T. Feng, Ricardo Baptista, Katherine L. Bouman

机构: 加州理工学院

摘要: 扩散模型在创建视觉上令人信服的图像方面表现出色,但它们经常难以满足训练数据中固有的微妙约束。这些约束可能是基于物理的(例如,满足偏微分方程),几何的(例如,遵守对称性),或语义的(例如,包括特定数量的对象)。当训练数据都满足某个特定约束时,在扩散模型上强制执行这个约束不仅提高了其分布匹配的准确性,还使其更可靠地生成有效的合成数据和解决受约束的逆问题。然而,现有的受约束扩散模型方法在不同类型的约束下缺乏灵活性。最近的工作提出了在由镜像映射定义的无约束空间中学习镜像扩散模型(MDMs),并用逆镜像映射来施加约束,但是对于复杂约束来说,解析镜像映射很难推导出来。我们提出了用于一般约束的神经近似镜像映射(NAMMs)。我们的方法只需要从约束集合中得到可微的距离函数。我们学习一个近似的镜像映射,将数据推入无约束空间,并学习相应的近似逆映射,将数据映射回约束集合。然后,可以在学习的镜像空间中训练生成模型,如MDM,并通过逆映射将其样本恢复到约束集合。我们验证了我们的方法在各种约束下的有效性,结果表明,与无约束扩散模型相比,基于NAMM的MDM显著改善了约束满足度。我们还演示了如何在学习的镜像空间中轻松应用现有的基于扩散的逆问题求解器来解决受约束的逆问题。

论文链接: https://arxiv.org/pdf/2406.12816

cs.LG: 得分:一种一维重参数化技术,打破贝叶斯优化在维度诅咒上的限制

原标题: SCORE: A 1D Reparameterization Technique to Break Bayesian Optimization’s Curse of Dimensionality

作者: Joseph Chakar

机构: Ecole Polytechnique Institut Polytechnique de Paris Institut Photovoltaïque d’Île-de-France Laboratoire de Physique des Interfaces et des Couches Minces

摘要: 贝叶斯优化(BO)已经成为一种在复杂搜索空间中导航的强大工具,展示了在科学和工程领域的实际应用。然而,由于它通常依赖于一个替代模型来近似目标函数,BO 面临着随着参数和实验数量增加而不断升级的计算成本。已经提出了几种方法,如并行化、替代模型近似和内存修剪,以减少计算时间,但它们都未能解决 BO 维度诅咒背后的核心问题。本文提出了一种一维重新参数化技巧,以打破这一诅咒,并在高维度景观中维持 BO 的线性时间复杂度。这种快速可扩展的方法名为 SCORE,可以成功地找到草堆中的全局最小优化函数,并适应实际数据,而无需通常由最先进技术所需的高性能计算资源。

论文链接: https://arxiv.org/pdf/2406.12661

cs.LG: GFM4MPM: 朝向地质空间基础模型的矿产远景图制定

原标题: GFM4MPM: Towards Geospatial Foundation Models for Mineral Prospectivity Mapping

作者: Angel Daruna, Vasily Zadorozhnyy, Georgina Lukoczki, Han-Pang Chiu

机构: SRI国际 季斯国际 肯塔基大学

摘要: 机器学习(ML)用于矿产远景预测(MPM)仍然是一个具有挑战性的问题,因为它需要分析大规模多模式地理空间数据与少量历史矿产观测(正标签)之间的关联。最近的MPM研究已经探索了深度学习(DL)作为具有更多表示能力的建模工具。然而,这些过度参数化的方法可能更容易出现过拟合,因为它们依赖于稀缺的标记数据。虽然存在大量未标记的地理空间数据,但以往的MPM研究并未考虑以自监督的方式使用这些信息。我们的MPM方法使用了一个遮罩图像建模框架,以自监督的方式仅使用未标记的地理空间数据对骨干神经网络进行预训练。在预训练之后,骨干网络为下游的MPM任务提供特征提取。我们评估了我们的方法以及现有方法,以评估北美和澳大利亚的密西西比河谷型(MVT)和碎屑主导型(CD)铅锌矿床的矿产远景。我们的结果表明,自监督促进了学习特征的稳健性,改善了远景预测。此外,我们利用可解释的人工智能技术来证明可以从地质学的角度解释个别预测。

论文链接: https://arxiv.org/pdf/2406.12756

cs.LG: 以光速学习扩散

原标题: Learning Diffusion at Lightspeed

作者: Antonio Terpin, Nicolas Lanzetti, Florian Dörfler

机构: 瑞士苏黎世联邦理工学院 ETH Zürich

摘要: 扩散调节着大量自然过程和许多成功的生成模型的动态。现有的模型从观测数据中学习扩散项,依赖于复杂的双层优化问题,并且只能适当地对系统的漂移进行建模。我们提出了一个新的简单模型 JKOnet*,它完全绕过了现有架构的复杂性,同时具有显著增强的表征能力:JKOnet* 恢复了潜在的、相互作用的和内部能量的扩散过程。JKOnet* 最小化了一个简单的二次损失,运行速度快,并且在实践中明显优于其他基线。此外,JKOnet* 为线性参数化的泛函提供了闭合形式的最优解。我们的方法基于将扩散过程解释为概率空间中能量最小化轨迹的 JKO 方案,通过所谓的 JKO 方案的一阶最优性条件进行研究,考虑到概率空间中优化的最新进展。

论文链接: https://arxiv.org/pdf/2406.12616

cs.LG: 对抗性多重对决老虎机

原标题: Adversarial Multi-dueling Bandits

作者: Pratik Gajane

摘要: 我们介绍了对抗性多对决赌博机中的后悔最小化问题。虽然对抗性偏好在对决赌博机中已经被研究过,但在多对决赌博机中尚未被探索。在这种情况下,学习者需要在每一轮选择 m ≥ 2 m \geq 2 m2 个臂,并观察到基于任意偏好矩阵选择的最受偏好臂的身份作为反馈。我们引入了一种新颖的算法 MiDEX(Multi Dueling EXP3),用于从假设由成对子集选择模型生成的偏好反馈中学习。我们证明了MiDEX相对于来自 K K K 个臂的 Borda 胜利者的预期累积 T T T 轮后悔被上界为 O ( ( K log ⁡ K ) 1 / 3 T 2 / 3 ) O((K \log K)^{1/3} T^{2/3}) O((KlogK)1/3T2/3)。此外,我们证明了在这种情况下预期后悔的下界为 Ω ( K 1 / 3 T 2 / 3 ) \Omega(K^{1/3} T^{2/3}) Ω(K1/3T2/3),这证明了我们提出的算法是接近最优的。

论文链接: https://arxiv.org/pdf/2406.12475

cs.LG: 当无偏的ReLU网络类似于线性网络时?

原标题: When Are Bias-Free ReLU Networks Like Linear Networks?

作者: Yedi Zhang, Andrew Saxe, Peter E. Latham

机构: 伦敦大学学院 Gatsby Unit SWC

摘要: 我们研究了无偏置 ReLU 网络的表达能力和学习动态。首先我们展示了两层无偏置 ReLU 网络的表达能力有限:唯一能表达的奇函数是线性函数。然后我们展示,在数据的对称条件下,这些网络与线性网络具有相同的学习动态。这使我们能够对某些两层无偏置 ReLU 网络给出闭式时间解,这在懒惰学习范式之外的非线性网络中尚未完成。虽然深层无偏置 ReLU 网络比其两层对应网络更具表达能力,但它们仍与深层线性网络有许多相似之处。这些相似之处使我们能够借鉴线性网络的见解,从而对无偏置 ReLU 网络有了新的理解。总的来说,我们的结果表明,一些针对无偏置 ReLU 网络建立的性质是由于与线性网络的等价性,同时也暗示了包含偏置或考虑不对称数据是参与非线性行为的途径。

论文链接: https://arxiv.org/pdf/2406.12615

cs.LG: 图神经网络数据增强技术的研究与实现

原标题: Research and Implementation of Data Enhancement Techniques for Graph Neural Networks

作者: Jingzhao Gu (1), Haoyang Huang (2) ((1) Beijing Institute of Technology, (2) Chongqing University)

机构: 北京理工大学 重庆大学

摘要: 数据、算法和算力是深度学习在应用领域发挥有效作用的三个基本条件。数据是开发深度学习算法的重点。在实际工程应用中,一些数据受到条件影响,无法获取更多数据或者获取数据的成本过高,导致数据集较小(一般为几百到几千个)且数据规模远远小于大数据集的规模(数万个)。上述两种方法是基于原始数据集生成的,在原始数据量不足的情况下可能无法反映所有真实环境,例如真实环境的光线、轮廓等信息,如果数据量不足,很难使用简单的转换或神经网络生成模型来生成所需的数据。本文研究首先分析了图神经网络数据增强技术的关键点,同时深入介绍了图神经网络的组成基础,基于此优化和分析了图神经网络的数据增强技术。

论文链接: https://arxiv.org/pdf/2406.12640

cs.LG: 基于数据为中心的方法来评估图神经网络的进展

原标题: A data-centric approach for assessing progress of Graph Neural Networks

作者: Tianqi Zhao, Ngan Thi Dong, Alan Hanjalic, Megha Khosla

机构: 代尔夫特理工大学 德国汉诺威L3S研究中心

摘要: 图神经网络(GNNs)在节点分类任务中取得了最先进的结果。然而,大多数改进都是针对多类分类,对每个节点可能具有多个标签的情况关注较少。研究多标签节点分类的第一个挑战是公开可用数据集的稀缺性。为了解决这个问题,我们收集并发布了三个真实的生物数据集,并开发了一个可调属性的多标签图生成器。我们还认为传统的同质性和异质性概念不适用于多标签场景。因此,我们为多标签分类定义了同质性和跨类邻域相似性,并研究了收集的9个多标签数据集。最后,我们对9个数据集进行了大规模比较研究,使用了8种方法来评估当前多标签节点分类的进展。我们在\url{this https URL}发布了我们的代码。

论文链接: https://arxiv.org/pdf/2406.12439

Github: https://github.com/Tianqi-py/MLGNC

cs.LG: 深度学习模型在网络攻击检测领域的攻击和防御

原标题: Attack and Defense of Deep Learning Models in the Field of Web Attack Detection

作者: Lijia Shi, Shihao Dong

机构: 中国电信研究院 华东师范大学

摘要: WAD(Web 攻击检测)的挑战正在增长,因为黑客不断完善其方法以规避传统检测。深度学习模型在处理复杂的未知攻击方面表现出色,因为它们具有很强的泛化能力和适应性。然而,它们容易受到后门攻击的影响,即在请求中插入上下文无关的片段,从而影响模型的稳定性。虽然后门攻击在图像识别中得到了深入研究,但在WAD中却很少被探讨。本文介绍了WAD中的后门攻击,并提出了五种方法和相应的防御措施。对textCNN、biLSTM和tinybert模型的测试显示,攻击成功率超过87%,可以通过微调来降低。未来的研究应该集中在WAD中的后门防御上。本文的所有代码和数据都可以在https://anonymous.4open.science/r/attackDefenceinDL-7E05 上获取。

论文链接: https://arxiv.org/pdf/2406.12605

cs.LG: 研究归纳式符合预测器的数据使用情况

原标题: Investigating Data Usage for Inductive Conformal Predictors

作者: Yizirui Fang, Anthony Bellotti

机构: 宁波诺丁汉大学 计算机科学学院

摘要: 归纳一致性预测器(ICP)是一种能够生成预测集而非点预测的算法,这些预测集在用户定义的置信水平下是有效的,只需假设可交换性。这些算法对可靠的机器学习非常有用,并且越来越受欢迎。ICP的开发过程涉及将开发数据分为三部分:训练、校准和测试。在访问有限或昂贵的开发数据时,如何有效地划分数据是一个开放性问题。本研究进行了多个实验来探讨这个问题,并考虑允许训练集和校准集之间的示例重叠的情况。得出的结论对计划使用ICP的学术界和实践者具有价值。

论文链接: https://arxiv.org/pdf/2406.12262

cs.LG: 通过延迟在线到PAC转换来混合过程的泛化界限

原标题: Generalization bounds for mixing processes via delayed online-to-PAC conversions

作者: Baptiste Abeles, Eugenio Clerico, Gergely Neu

机构: 巴塞罗那龙佩姆普拉大学 Universitat Pompeu Fabra

摘要: 我们研究了统计学习算法在非独立同分布设置下的泛化误差,其中训练数据是从一个稳态混合过程中抽样得到的。我们基于将其归约为具有延迟反馈的在线学习,为这种情况开发了一个分析框架。特别地,我们表明,存在一个具有有界遗憾的在线学习算法(针对一个特别构造的具有延迟反馈的在线学习游戏中的固定统计学习算法),即使数据序列是从混合时间序列中抽样得到的,也意味着所述统计学习方法的泛化误差较低。这些速率展示了在线学习游戏中延迟量和连续数据点之间依赖程度之间的权衡,当延迟适当地调整为过程的混合时间的函数时,在一些广泛研究的设置中可以恢复近乎最优的速率。

论文链接: https://arxiv.org/pdf/2406.12600

cs.LG: 深度时间分解:大规模时空生成模型

原标题: Deep Temporal Deaggregation: Large-Scale Spatio-Temporal Generative Models

作者: David Bergström, Mattias Tiger, Fredrik Heintz

机构: 林雪平大学 Linköping University

摘要: 今天的许多数据都是来自各种来源的时间序列数据,比如传感器、交易系统或生产系统。这类数据面临的主要挑战包括隐私和商业敏感性。生成式时间序列模型有潜力克服这些问题,允许代表性的合成数据(比如城市中人们的移动)被公开共享,并为整个社会带来利益。然而,当代方法受到严重的内存限制,仅能处理极短的序列和小规模数据。除了主要的内存限制外,模型生成的样本在序列越长时越不准确、代表性越差。这一问题进一步恶化,因为缺乏全面且易于访问的基准。此外,在实际应用中的一个常见需求是对数据分布变化进行假设分析和动态调整,以用于决策和管理不断变化的世界:如果这条道路暂时封闭了,或者另一条道路被添加了,会怎样?本文的重点是移动性数据,比如城市中人们的移动,需要解决所有这些问题。为此,我们提出了基于Transformer的扩散模型TDDPM,用于时间序列,其性能优于现有技术并且具有更好的扩展性。我们在新的全面基准测试中对其进行了评估,包括多个序列长度、标准数据集和评估指标。我们还演示了如何让模型以空间占用频率信息的先验条件,使模型能够生成先前未见环境的移动性数据,以及在基础道路网络及其使用发生变化的假设场景中。我们通过对城市部分区域的移动性数据进行训练来进行评估。然后,仅使用聚合空间信息作为先验条件,我们展示了对城市未观测部分的超出分布的泛化能力。

论文链接: https://arxiv.org/pdf/2406.12423

cs.LG: 发现最小强化学习环境

原标题: Discovering Minimal Reinforcement Learning Environments

作者: Jarek Liesen, Chris Lu, Andrei Lupu, Jakob N. Foerster, Henning Sprekeler, Robert T. Lange

机构: 柏林计算神经科学中心

摘要: 强化学习(RL)智能体通常在相同的环境中进行训练和评估。相比之下,人类在接受评估之前通常会在专门的环境中接受训练,比如在考试之前学习一本书。尽管这种专门训练环境具有极大的加速训练的潜力,但其潜力仍然被大大低估。
合成环境框架朝着这个方向迈出了第一步,通过元学习基于神经网络的马尔可夫决策过程(MDP)。最初的方法局限于玩具问题,并产生了无法转移到未见过的RL算法的环境。我们通过三种方式扩展了这种方法:首先,我们修改了元学习算法,以发现对超参数配置和学习算法不变的环境。其次,通过利用硬件并行性,并在智能体的评估周期上引入课程,我们可以在几个具有挑战性的连续控制问题上取得竞争性的结果。第三,令人惊讶的是,我们发现上下文匹配能够训练RL智能体,使其在评估环境中表现良好,即使它是一个复杂的MDP。因此,我们设置了实验来训练合成上下文匹配,这些上下文匹配与合成MDP表现相当,为评估环境提供了额外的见解,并可以加速下游应用。

论文链接: https://arxiv.org/pdf/2406.12589

cs.LG: 使用联邦学习训练扩散模型

原标题: Training Diffusion Models with Federated Learning

作者: Matthijs de Goede, Bart Cox, Jérémie Decouchant

机构: 代尔夫特理工大学 荷兰

摘要: 基于扩散的图像生成模型的训练主要由少数大型科技公司控制,这引发了人们对隐私、版权和数据权限的担忧,因为它们在训练数据方面缺乏透明度。为了解决这个问题,我们提出了一种联合扩散模型方案,可以实现独立和协作训练扩散模型,同时不暴露本地数据。我们的方法将联邦平均(FedAvg)算法调整为训练去噪扩散模型(DDPM)。通过对底层UNet骨干的新颖利用,我们实现了在训练过程中交换的参数数量最多减少74%,相比于朴素的FedAvg方法,同时通过FID分数评估,保持了与集中式设置相当的图像质量。

论文链接: https://arxiv.org/pdf/2406.12575

cs.LG: 在线学习中的结构化预测

原标题: Structured Prediction in Online Learning

作者: Pierre Boudart (DI-ENS, PSL), Alessandro Rudi (PSL, DI-ENS, Inria), Pierre Gaillard (UGA, LJK)

机构: INRIA École Normale Supérieure CNRS PSL Research University Univ. Grenoble Alpes Grenoble INP LJK

摘要: 我们研究了在线学习环境中结构化预测的理论和算法框架。结构化预测问题,即估计输出空间缺乏矢量结构的函数,已经在监督统计学习的文献中得到了充分研究。我们展示了我们的算法是监督学习设置中最优算法的泛化,并且在数据不是独立同分布时也能达到相同的过度风险上界。此外,我们考虑了第二个专门设计用于非平稳数据分布(包括对抗性数据)的算法。我们限制了其随机遗憾与数据分布的变化函数。

论文链接: https://arxiv.org/pdf/2406.12366

cs.LG: MOYU:关于大语言模型中大规模过度激活产生的提升的理论研究

原标题: MOYU: A Theoretical Study on Massive Over-activation Yielded Uplifts in LLMs

作者: Chi Ma, Mincong Huang, Chao Wang, Yujie Wang, Lei Yu, Chuan Liu, Wei Lin

机构: Meituan

摘要: 大规模语言模型的大规模过激活产生的提升(MOYU)是大语言模型的固有属性,基于MOYU属性的动态激活(DA)是一种巧妙而未充分探索的策略,旨在加速这些模型的推理。利用MOYU的现有方法往往面临重大的“不可能三位一体”:努力同时维持模型性能、增强推理速度,并在各种架构中扩展适用性。由于围绕MOYU存在理论上的模糊性,本文阐明了MOYU属性的根本原因,并概述了当前DA方法遇到的两个主要限制背后的机制:1)与历史相关的激活不确定性,以及2)语义无关的激活惯性。我们的分析不仅强调了当前大规模LLaMA模型内动态激活策略的局限性,还提出了改进未来稀疏方案设计的机会。

论文链接: https://arxiv.org/pdf/2406.12569

cs.LG: 分层联想记忆、并行化MLP-Mixer和对称性破坏

原标题: Hierarchical Associative Memory, Parallelized MLP-Mixer, and Symmetry Breaking

作者: Ryo Karakida, Toshihiro Ota, Masato Taki

机构: 理化学研究所 立教大学 CyberAgent

摘要: Transformer已经成为自然语言处理中领先的神经网络模型,并在各个领域中变得越来越基础。在视觉领域,MLP-Mixer模型表现出竞争性能,这表明注意力机制可能并非必不可少。受此启发,最近的研究探索了用其他机制替换注意力模块,包括MetaFormers描述的机制。然而,这些模型的理论框架仍未完善。本文提出了一个新颖的观点,通过将Krotov的分层联想记忆与MetaFormers整合,实现了对整个Transformer块的全面表示,包括token-/channel-mixing模块、层归一化和跳跃连接,作为一个单一的Hopfield网络。这种方法产生了一个由三层Hopfield网络衍生出的并行化MLP-Mixer,自然地包含了对称的token-/channel-mixing模块和层归一化。实证研究表明,模型中的对称交互矩阵阻碍了图像识别任务的性能。引入破坏对称效应将对称并行化MLP-Mixer的性能转变为普通MLP-Mixer的性能。这表明在标准训练过程中,普通MLP-Mixer的权重矩阵自发地获得了破坏对称的配置,增强了它们的有效性。这些发现为Transformer和MLP-Mixer的内在特性及其理论基础提供了见解,为未来模型设计和优化提供了一个健壮的框架。

论文链接: https://arxiv.org/pdf/2406.12220

cs.LG: UrbanLLM: 利用大语言模型进行自主城市活动规划和管理

原标题: UrbanLLM: Autonomous Urban Activity Planning and Management with Large Language Models

作者: Yue Jiang, Qin Chao, Yile Chen, Xiucheng Li, Shuai Liu, Gao Cong

机构: 新加坡南洋理工大学 哈尔滨工业大学(深圳) 阿里巴巴集团DAMO学院

摘要: 基于位置的服务在改善我们日常生活质量方面发挥着至关重要的作用。尽管在基于位置的服务的时空背景下存在大量专门的人工智能模型,但这些模型在自主解决复杂的城市规划和管理问题方面仍然存在困难。为了弥合这一差距,我们引入了UrbanLLM,这是一个经过精细调整的大型语言模型(LLM),旨在解决城市场景中的各种问题。UrbanLLM通过将与城市相关的查询分解为可管理的子任务,为每个子任务识别合适的时空人工智能模型,并生成给定查询的全面响应,从而充当问题解决者。我们的实验结果表明,UrbanLLM在处理复杂的城市活动规划和管理问题方面明显优于其他成熟的LLM,如Llama和GPT系列。UrbanLLM在提高解决城市场景问题的效率方面表现出了相当大的潜力,减少了对人类专家的工作量和依赖。

论文链接: https://arxiv.org/pdf/2406.12360

cs.LG: Gran Turismo 中的自主赛车超级视觉强化学习智能体

原标题: A Super-human Vision-based Reinforcement Learning Agent for Autonomous Racing in Gran Turismo

作者: Miguel Vasco, Takuma Seno, Kenta Kawamoto, Kaushik Subramanian, Peter R. Wurman, Peter Stone

机构: 瑞典皇家理工学院 索尼人工智能 索尼公司 德克萨斯大学奥斯汀分校

摘要: 自动驾驶汽车比最优秀的人类驾驶员更快一直以来都是人工智能和机器人领域的一个长期的宏伟挑战。最近,一个端到端的深度强化学习智能体在高保真度的赛车模拟器Gran Turismo中迎接了这一挑战。然而,这个智能体依赖于需要在汽车外部进行仪器化的全局特征。本文介绍了据我们所知,第一个超越人类水平的汽车赛车智能体,其传感器输入纯粹来自汽车本身,即来自自我中心摄像头视角的像素和可以从汽车上感知到的数量,比如汽车的速度。通过仅在训练时利用全局特征,学习的智能体能够在只使用本地输入特征的情况下,在时间试验(一次只有一辆车在赛道上)比赛中胜过最优秀的人类驾驶员。所得到的智能体在Gran Turismo 7中在多个赛道和汽车上进行了评估。详细的消融实验表明了智能体对视觉输入的强烈依赖,使其成为第一个基于视觉的超越人类水平的汽车赛车智能体。

论文链接: https://arxiv.org/pdf/2406.12563

cs.LG: SFedCA:基于信用分配的脉冲联邦学习主动客户选择策略

原标题: SFedCA: Credit Assignment-Based Active Client Selection Strategy for Spiking Federated Learning

作者: Qiugang Zhan, Jinbo Cao, Xiurui Xie, Malu Zhang, Huajin Tang, Guisong Liu

机构: 电子科技大学 中国西南财经大学 浙江大学

摘要: 脉冲式联邦学习是一种新兴的分布式学习范式,允许资源受限的设备在低功耗下进行协作训练,而无需交换本地数据。它充分利用了联邦学习(FL)中的隐私计算属性和脉冲神经网络(SNN)中的能量效率。因此,它有望彻底改变多媒体数据的高效处理。然而,现有的脉冲式联邦学习方法采用随机选择客户聚合的方法,假设客户参与是无偏的。这种忽视统计异质性会显著影响全局模型的收敛性和准确性。在我们的工作中,我们提出了一种基于信用分配的主动客户选择策略SFedCA,以明智地聚合有助于全局样本分布平衡的客户。具体来说,客户的信用是通过本地模型训练前后的发射强度状态分配的,这反映了本地数据分布与全局模型的差异。我们在各种非相同和独立分布(non-IID)场景下进行了全面的实验。实验结果表明,SFedCA优于现有的最先进的脉冲式联邦学习方法,并且需要较少的通信轮次。

论文链接: https://arxiv.org/pdf/2406.12200

cs.LG: 基于PARAFAC2的耦合矩阵和张量分解与约束

原标题: PARAFAC2-based Coupled Matrix and Tensor Factorizations with Constraints

作者: Carla Schenker, Xiulin Wang, David Horner, Morten A. Rasmussen, Evrim Acar

摘要: 基于耦合矩阵和张量分解(CMTF)的数据融合模型已成为从多个来源联合分析数据的有效工具。虽然绝大多数CMTF模型基于严格的多线性CANDECOMP/PARAFAC(CP)张量模型,但最近更灵活的PARAFAC2模型也已整合到CMTF模型中。PARAFAC2张量模型可以处理不规则/不整齐的张量,并且已经被证明特别适用于对具有不对齐或不规则时间轮廓的动态数据进行建模。然而,现有基于PARAFAC2的CMTF模型在因子的可能正则化和/或数据集之间的耦合类型方面存在限制。为了解决这些限制,本文介绍了一种灵活的算法框架,该框架使用交替优化(AO)和交替方向乘法器方法(ADMM)来拟合基于PARAFAC2的CMTF模型。所提出的框架允许对所有模式和线性耦合到其他矩阵、CP或PARAFAC2模型施加各种约束。对各种模拟和真实数据集的实验表明,所提出的框架的实用性和多功能性,以及与最先进方法相比的准确性和效率方面的优势。

论文链接: https://arxiv.org/pdf/2406.12338

cs.LG: 我做错了什么?量化LLM对提示工程的敏感性和一致性

原标题: What Did I Do Wrong? Quantifying LLMs’ Sensitivity and Consistency to Prompt Engineering

作者: Federico Errica, Giuseppe Siracusano, Davide Sanvito, Roberto Bifulco

机构: 欧洲NEC实验室

摘要: 大语言模型(LLMs)改变了我们设计和与软件系统交互的方式。它们处理和提取文本信息的能力极大地提高了许多例行任务的生产率。然而,希望在其软件堆栈中包含这些模型的开发人员面临着一个可怕的挑战:调试它们在提示的微小变化下不一致的行为。因此,我们引入了两个用于分类任务的指标,即敏感度和一致性,这些指标对任务性能是互补的。首先,敏感度衡量了在提示的改写中预测的变化,不需要访问地面真实标签。相反,一致性衡量了在同一类别的元素的改写中预测的变化。我们在文本分类任务上对这些指标进行了实证比较,将它们作为了解大语言模型失败模式的指导。我们希望敏感度和一致性将成为自动提示工程框架中强大的盟友,以获得在鲁棒性和性能之间平衡的LLMs。

论文链接: https://arxiv.org/pdf/2406.12334

cs.LG: 自适应协作相关学习的半监督多标签特征选择

原标题: Adaptive Collaborative Correlation Learning-based Semi-Supervised Multi-Label Feature Selection

作者: Yanyong Huang, Li Yang, Dongjie Wang, Ke Li, Xiuwen Yi, Fengmao Lv, Tianrui Li

摘要: 最近,半监督多标签特征选择方法已经被开发出来,用于解决高维多标签数据中存在某些样本缺失标签的维度诅咒问题。尽管已经做出了许多努力,但大多数现有方法使用预定义的图方法来捕获样本相似性或标签相关性。这种方式下,原始特征空间中的噪声和异常值可能会破坏生成的样本相似性图的可靠性。它也无法准确描述由于存在未知标签而产生的标签相关性。此外,这些方法只考虑所选特征的区分能力,而忽略了它们的冗余性。在本文中,我们提出了一种基于自适应协同相关学习的半监督多标签特征选择(Access-MFS)方法来解决这些问题。具体来说,引入了一个带有扩展不相关约束的广义回归模型,以选择具有区分性但无关的特征,并同时保持标记数据中预测标签与地面真实标签之间的一致性。然后,将实例相关性和标签相关性整合到所提出的回归模型中,以自适应地学习样本相似性图和标签相似性图,从而相互增强特征选择性能。大量实验结果表明,所提出的Access-MFS方法优于其他最先进的方法。

论文链接: https://arxiv.org/pdf/2406.12193

cs.LG: 多尺度混合:用于大语言模型的内存高效的 Token 自适应二值化

原标题: Mixture of Scales: Memory-Efficient Token-Adaptive Binarization for Large Language Models

作者: Dongwon Jo, Taesu Kim, Yulhwa Kim, Jae-Joon Kim

机构: 首尔国立大学 挤压比特公司 成均馆大学

摘要: 二值化,即将权重参数转换为二进制值,已经成为减小大型语言模型(LLMs)大小的有效策略。然而,典型的二值化技术显著降低了LLMs的语言效果。为解决这一问题,我们引入了一种名为Mixture of Scales(BinaryMoS)的新型二值化技术。与传统方法不同,BinaryMoS采用多个用于二进制权重的缩放专家,动态地合并这些专家以适应性地生成缩放因子。这种令牌自适应方法通过使二值化的LLMs能够对二进制权重的值进行上下文调整,从而提升了表示能力。此外,由于这个自适应过程只涉及缩放因子而不是整个权重矩阵,因此BinaryMoS保持了与传统静态二值化方法类似的压缩效率。我们的实验结果表明,BinaryMoS在各种自然语言处理任务中超越了传统的二值化技术,甚至优于2位量化方法,同时保持了与静态二值化技术类似的模型大小。

论文链接: https://arxiv.org/pdf/2406.12311

cs.LG: TREE: 树正则化以实现高效执行

原标题: TREE: Tree Regularization for Efficient Execution

作者: Lena Schmid, Daniel Biebert, Christian Hakert, Kuan-Hsun Chen, Michel Lang, Markus Pauly, Jian-Jia Chen

机构: TUM (Technische Universität München) 清华大学

摘要: 机器学习方法在资源受限的设备上的崛起,不仅需要选择适合目标平台的合适模型架构,还需要针对推理的执行时间消耗对所选模型进行优化,以最大限度地利用可用资源。研究表明,随机森林和决策树是这种情况下的合适模型,因为它们不仅可以针对总模型大小进行调整,而且还可以根据底层内存架构高度优化其执行。除了通过强制决策树中的路径更短从而减少推理的执行时间的直接策略外,硬件感知实现还可以以正交方式优化执行时间。一种特定的硬件感知优化是以一种方式布局决策树的内存,使得更可能的路径不太可能被系统缓存驱逐。当树节点内的分割不均匀且有很高的概率访问其中一个子节点时,这种方法特别有效。在本文中,我们提出了一种方法,通过奖励训练决策树过程中的不均匀概率分布来减少路径长度,以牺牲最小的准确性降级为代价。具体来说,我们对 CART 算法的不纯度计算进行了规范化,以偏爱不仅低不纯度,而且对于分割标准的高度不对称分布,从而为内存架构感知实现提供了高度优化潜力。
我们发现,特别是对于二元分类数据集和具有许多样本的数据集,这种形式的规范化可以导致执行时间减少约四倍,而准确性降级最小。

论文链接: https://arxiv.org/pdf/2406.12531

cs.LG: VIRL: 基于体积信息的表示学习,用于少样本制造可行性估计

原标题: VIRL: Volume-Informed Representation Learning towards Few-shot Manufacturability Estimation

作者: Yu-hsuan Chen, Jonathan Cagan, Levent Burak kara

机构: 卡内基梅隆大学

摘要: 制造设计面临着重大挑战,部分原因是由于计算机辅助制造(CAM)模拟的计算瓶颈。尽管作为一种替代方案,深度学习提供了快速推断,但其性能受到对丰富训练数据的需求的限制。表示学习,特别是通过预训练,为少样本学习提供了希望,有助于在数据有限的制造可行性任务中。本文介绍了VIRL,一种基于体积信息的表示学习方法,用于预训练3D几何编码器。预训练模型在来自CAM模拟的四个制造可行性指标上进行评估:去除加工(SM)时间,增材制造(AM)时间,残余的von Mises应力,以及激光功率熔化过程中的刀片碰撞。在所有案例研究中,VIRL预训练的模型显示出在有限数据下改进了泛化能力,并在数据集较大时表现出了更优越的性能。关于部署策略,存在特定案例现象,即微调VIRL预训练模型对于数据有限的AM任务产生了不利影响,但有益于SM时间预测。此外,探索了低秩适应(LoRA)的有效性,它在有限数据下表现稳定,同时在数据规模增大时实现了比探索更高的上限,而又没有微调的计算成本。此外,制造指标的静态归一化在各项任务中始终表现良好,而在可靠的任务相关输入可用时,动态归一化可以提高性能。

论文链接: https://arxiv.org/pdf/2406.12286

cs.LG: 改进多变量时间序列分类解释方法的评估和可操作性

原标题: Improving the Evaluation and Actionability of Explanation Methods for Multivariate Time Series Classification

作者: Davide Italo Serramazza, Thach Le Nguyen, Georgiana Ifrim

机构: 都柏林大学学院 计算机科学学院

摘要: 多变量时间序列分类(MTSC)的解释是一个重要但鲜为人知的课题。目前存在着极少量的定量评估方法,甚至更少的可操作解释示例,其中解释方法被证明能客观地改进时间序列数据上的特定计算任务。在本文中,我们专注于分析InterpretTime,这是一种最近用于MTSC的归因方法的评估方法。我们复现了原始论文的结果,展示了该方法的一些显著弱点,并提出了改进其准确性和效率的想法。与相关工作不同,我们不仅仅局限于评估,还展示了所产生解释排名的可操作性,通过使用最佳的归因方法来进行MTSC中的通道选择任务。我们发现,基于扰动的方法,如SHAP和特征消融,在一组数据集、分类器和任务中表现良好,并且优于基于梯度的方法。我们将最佳排名的解释方法应用于MTSC的通道选择,并展示了显著的数据大小减少和改进的分类器准确性。

论文链接: https://arxiv.org/pdf/2406.12507

cs.LG: SAGDFN:用于多变量时间序列预测的可扩展自适应图扩散预测网络

原标题: SAGDFN: A Scalable Adaptive Graph Diffusion Forecasting Network for Multivariate Time Series Forecasting

作者: Yue Jiang, Xiucheng Li, Yile Chen, Shuai Liu, Weilong Kong, Antonis F. Lentzakis, Gao Cong

机构: 新加坡南洋理工大学 哈尔滨工业大学(深圳) NCS私人有限公司 阿里巴巴集团达摩院

摘要: 时间序列预测对我们的日常活动至关重要,准确建模复杂相关性和多个时间序列之间的共享模式对于提高预测性能至关重要。空间-时间图神经网络(STGNNs)广泛应用于多变量时间序列预测任务,并在多个真实世界数据集上取得了令人期待的性能,因为它们能够模拟潜在的复杂空间和时间依赖关系。然而,现有研究主要集中在仅包含少量传感器的数据集上,因为空间-时间GNNs的计算成本和内存成本较高。当应用于更大的数据集时,这些方法无法捕获潜在的复杂空间依赖关系,并且表现出有限的可扩展性和性能。因此,我们提出了一种可扩展的自适应图扩散预测网络(SAGDFN),用于捕获大规模多变量时间序列的复杂空间-时间相关性,从而在多变量时间序列预测任务中取得了卓越的性能。所提出的SAGDFN可扩展到数千个节点的数据集,无需先验知识即可捕获空间相关性。大量实验证明,SAGDFN在一个包含207个节点的真实数据集上取得了与最先进基准方法相当的性能,并在三个包含2000个节点的真实数据集上,表现优于所有最先进的基准方法。

论文链接: https://arxiv.org/pdf/2406.12282

cs.LG: 在超低功耗设备上加速深度可分离卷积

原标题: Accelerating Depthwise Separable Convolutions on Ultra-Low-Power Devices

作者: Francesco Daghero, Alessio Burrello, Massimo Poncino, Enrico Macii, Daniele Jahier Pagliari

机构: 意大利都灵理工大学

摘要: 深度可分离卷积是高效深度神经网络中的基本组件,它通过减少参数和操作数量相比传统卷积,同时保持可比较的准确性。然而,它们的低数据重用机会使得部署它们非常困难。在这项工作中,我们对融合深度可分离卷积块中构成的深度和逐点核的替代方案进行了广泛探讨。我们的方法旨在通过组合不同的数据布局来最小化耗时的内存传输。当针对商用超低功耗设备——GreenWaves GAP8 SoC时,我们将端到端网络执行的延迟降低了高达11.40%。此外,我们的核心减少了L2和L1内存之间的激活数据移动高达52.97%。

论文链接: https://arxiv.org/pdf/2406.12478

cs.LG: 拟贝叶斯遇见藤蔓

原标题: Quasi-Bayes meets Vines

作者: David Huk, Yuanhe Zhang, Mark Steel, Ritabrata Dutta

机构: 华威大学

摘要: 最近提出的拟贝叶斯(QB)方法开启了贝叶斯计算的新时代,通过直接通过递归构建贝叶斯预测分布,消除了在采样贝叶斯后验分布中涉及的昂贵计算的需要。这已被证明对于单变量预测是高效的,但对于多个维度的扩展依赖于对狄利克雷过程混合模型的核的预定义假设所导致的条件分解,这是隐式的非参数模型。在这里,我们提出了一种通过使用Sklar定理将拟贝叶斯预测扩展到高维的不同方法,通过将预测分布分解为一维预测边际和高维copula。因此,我们使用高度表达的藤copula对一维边际进行高效的递归QB构造,并使用高度表达的藤copula对依赖关系进行建模。此外,我们使用鲁棒的差异(例如能量分数)调整超参数,并展示我们提出的拟贝叶斯藤(QB-Vine)在某些情况下是完全非参数的密度估计器,具有\emph{解析形式},并且收敛速度与数据维度无关。我们的实验表明,QB-Vine适用于高维分布($\sim 64 ),需要非常少的样本进行训练( 64),需要非常少的样本进行训练( 64),需要非常少的样本进行训练(\sim$200),并且在具有解析形式的密度估计和监督任务方面,性能显著优于最先进的方法。

论文链接: https://arxiv.org/pdf/2406.12764

cs.LG: 镜像流对可分离数据的隐性偏差

原标题: Implicit Bias of Mirror Flow on Separable Data

作者: Scott Pesme, Radu-Alexandru Dragomir, Nicolas Flammarion

机构: EPFL Télécom Paris

摘要: 我们研究了镜像下降的连续时间对应物,即镜像流,在线性可分的分类问题上。这些问题在“无穷远处”被最小化,并且有许多可能的解;我们研究了算法根据镜像势能偏好哪种解决方案。对于指数尾部损失并在势能上的温和假设下,我们表明迭代朝向 ϕ ∞ \phi_\infty ϕ-最大间隔分类器方向收敛。函数 ϕ ∞ \phi_\infty ϕ 是镜像势能的“地平线函数”,并表征其在“无穷远处”的形状。当势能是可分的时,一个简单的公式允许计算这个函数。我们分析了几个势能的例子,并提供了突出我们结果的数值实验。

论文链接: https://arxiv.org/pdf/2406.12763

cs.LG: 从无条件扩散模型中提取训练数据

原标题: Extracting Training Data from Unconditional Diffusion Models

作者: Yunhao Chen, Xingjun Ma, Difan Zou, Yu-Gang Jiang

机构: 复旦大学 香港大学

摘要: 扩散概率模型(DPM)作为生成人工智能(AI)的主流模型,其对原始训练数据的记忆研究引起了越来越多的关注。在这一方向上的现有研究旨在建立对DPM是否以及在多大程度上通过记忆学习的理解。这样的理解对于识别扩散模型中数据泄露和版权侵权的潜在风险至关重要,更重要的是,对于生成的人工智能内容(AIGC)的更可控生成和可信应用。虽然先前的研究已经观察到了DPM何时容易记忆的重要发现,但这些发现大多是经验性的,并且所开发的数据提取方法只适用于条件扩散模型。在这项工作中,我们旨在通过以下方式建立对DPM中记忆的理论理解:1)提出一个用于理论分析的记忆度量标准,2)分析具有信息性和随机标签的条件记忆,3)提出两种更好的评估记忆的度量标准。基于理论分析,我们进一步提出了一种名为“Surrogate condItional Data Extraction (SIDE)”的新型数据提取方法,该方法利用在生成数据上训练的分类器作为替代条件,直接从无条件扩散模型中提取训练数据。我们的实证结果表明,SIDE可以从先前方法失败的扩散模型中提取训练数据,并且在CelebA数据集的不同规模上平均效果提高了50%以上。

论文链接: https://arxiv.org/pdf/2406.12752

cs.LG: 更新选择性参数:基于模型解释的联邦机器遗忘

原标题: Update Selective Parameters: Federated Machine Unlearning Based on Model Explanation

作者: Heng Xu, Tianqing Zhu, Lefeng Zhang, Wanlei Zhou, Philip S. Yu

机构: 清华大学 西澳大利亚大学

摘要: 联邦学习是一种有前途的分布式机器学习隐私保护范式。在这种情况下,有时需要一种称为机器遗忘的专门过程,当由于隐私、安全、可用性和/或立法因素需要从学习模型中移除一些特定训练样本的影响时,就需要这种过程。然而,当当前的集中式遗忘方法应用于现有的联邦学习时,会出现问题,其中服务器旨在从全局模型中删除有关某一类的所有信息。集中式遗忘通常侧重于简单模型,或者是建立在能够在中心节点访问所有训练数据的能力的基础上。然而,在联邦学习范式下,训练数据无法在服务器上访问,这与集中式遗忘过程的要求相冲突。此外,在访问客户端数据时存在高计算和通信成本,特别是在涉及众多客户端或复杂全局模型的情景中。为了解决这些问题,我们提出了一种基于模型解释概念的更有效和高效的联邦遗忘方案。模型解释涉及理解深度网络和单个通道的重要性,以便利用这种理解来确定哪些模型通道对需要被遗忘的类别至关重要。我们选择已经训练模型中对需要被遗忘的数据最有影响力的通道,并仅微调这些有影响力的通道,以消除这些数据所做的贡献。通过这种方式,我们可以同时避免巨大的消耗成本,并确保被遗忘的模型保持良好的性能。在各种数据集上对不同训练模型进行的实验证明了所提方法的有效性。

论文链接: https://arxiv.org/pdf/2406.12516

cs.LG: 用机器学习回归算法预测高能质子通量

原标题: Predicting the energetic proton flux with a machine learning regression algorithm

作者: Mirko Stumpo, Monica Laurenza, Simone Benella, Maria Federica Marcucci

机构: INAF-Istituto di Astrofisica e Planetologia Spaziali, 意大利罗马

摘要: 在过去的二十年里,对太空天气危害的实时监测和警报系统的需求显著增长。太空任务运营和规划中最重要的挑战之一是太阳质子事件(SPEs)的预测。在这种情况下,人工智能和机器学习技术开辟了一个新的领域,为统计预测算法提供了新的范式。这些模型中绝大多数旨在预测SPE的发生,即它们基于分类方法。在这项工作中,我们提出了一种简单而高效的机器学习回归算法,它能够通过利用仅来自电子通量的特征来预测高能质子通量未来1小时的情况。这种方法有助于改善深空和近地环境中辐射风险监测系统。该模型对于任务运营和规划非常重要,特别是在实时不可用太阳耀斑特征和源位置的情况下,比如在火星距离上。

论文链接: https://arxiv.org/pdf/2406.12730

cs.LG: SUPER: 自拍照去畸变和头部姿态编辑,并保持身份特征

原标题: SUPER: Selfie Undistortion and Head Pose Editing with Identity Preservation

作者: Polina Karpikova, Andrei Spiridonov, Anna Vorontsova, Anastasia Yaschenko, Ekaterina Radionova, Igor Medvedev, Alexander Limonov

机构: 三星研究

摘要: 自拍照片拍摄距离较近时,由于严重的失真使面部特征畸形,头部姿势不当,可能看起来不自然甚至不够吸引人。在本文中,我们提出了一种名为SUPER的新方法,用于消除失真并调整近距离人脸裁剪的头部姿势。我们通过优化相机参数和面部潜在编码来执行面部图像的3D GAN反演,从而生成一张图像。此外,我们从获得的潜在编码中估计深度,创建深度诱导的3D网格,并使用更新后的相机参数进行渲染,以获得一个扭曲的肖像。最后,我们应用基于可见性的混合,以便可见区域被重新投影,遮挡的部分则通过生成模型进行恢复。在人脸去失真基准测试和我们自行收集的头部旋转数据集(HeRo)上的实验表明,SUPER在质量和数量上均优于先前的方法,为逼真的自拍照编辑开辟了新的可能性。

论文链接: https://arxiv.org/pdf/2406.12700

cs.LG: 基于音频编解码器的语音分离技术

原标题: Towards Audio Codec-based Speech Separation

作者: Jia Qi Yip, Shengkui Zhao, Dianwen Ng, Eng Siong Chng, Bin Ma

机构: 新加坡南洋理工大学 阿里巴巴集团

摘要: 最近,神经音频编解码器(NAC)模型的改进引起了人们对采用预训练编解码器用于各种语音处理应用的兴趣,以利用高压缩所带来的效率提升,但这些模型尚未应用于语音分离(SS)任务。SS可以从高压缩中受益,因为传统SS模型所需的计算使它们在许多边缘计算用例中变得不切实际。然而,SS是一个波形掩蔽任务,压缩往往会引入严重影响性能的失真。在这里,我们提出了一种基于音频编解码器的SS的新任务,其中SS在NAC的嵌入空间内执行,并提出了一种新模型Codecformer来解决这个任务。在推断时,Codecformer在产生与Sepformer云部署相当的分离性能的同时,实现了52倍的MAC减少。这种方法开辟了在实际场景中执行高效SS的新方向。

论文链接: https://arxiv.org/pdf/2406.12434

cs.LG: 结构性脑MR图像的空间序列注意力网络用于精神分裂症分类

原标题: Spatial Sequence Attention Network for Schizophrenia Classification from Structural Brain MR Images

作者: Nagur Shareef Shaik, Teja Krishna Cherukuri, Vince Calhoun, Dong Hye Ye

机构: 乔治亚州立大学 乔治亚州立大学 佐治亚理工学院 Emory Translational Research in Neuroimaging and Data Science (TReNDS)

摘要: 精神分裂症是一种严重的慢性精神障碍,它显著影响个体的认知能力、行为和社交互动。其特征是大脑中微小的形态学变化,特别是在灰质中。这些变化通常无法通过手动观察察觉到,需要自动化方法进行诊断。本研究引入了一种深度学习方法,用于对患有精神分裂症的个体进行分类。我们通过实施一种名为空间序列注意力(SSA)的多样化注意力机制来实现这一点,该机制旨在从结构性磁共振成像(sMRI)中提取和强调显著的特征表示。最初,我们利用预训练的DenseNet来实现迁移学习范式,从包含与精神分裂症相关的形态学改变的最终卷积块中提取初始特征图。这些特征进一步通过提出的SSA进行处理,以捕获和强调大脑内体积之间复杂的空间相互作用和关系。我们在临床数据集上进行的实验研究表明,所提出的注意力机制优于现有的用于精神分裂症分类的Squeeze & Excitation Network。

论文链接: https://arxiv.org/pdf/2406.12683

cs.LG: 自顶向下的贝叶斯后验抽样用于和-积网络

原标题: Top-Down Bayesian Posterior Sampling for Sum-Product Networks

作者: Soma Yokoi, Issei Sato

机构: 东京大学

摘要: Sum-product networks (SPNs) 是一种概率模型,其特点是能够精确快速地进行基本概率运算。其优越的计算可处理性已经在许多领域得到了应用,比如在有时间限制或准确性要求的机器学习和实时系统中。然而,SPNs 的结构约束支持快速推断,但也导致了学习时间复杂性的增加,可能成为构建高度表达性的 SPNs 的障碍。本研究旨在开发一种贝叶斯学习方法,可以有效地应用于大规模的 SPNs。我们通过边缘化多个随机变量,推导出了一种新的 Gibbs 采样的全条件概率,以迅速获得后验分布。复杂性分析表明,我们的采样算法即使对于可能的最大 SPN 也能高效工作。此外,我们提出了一种超参数调整方法,可以在大规模 SPNs 中平衡先验分布的多样性和优化效率。我们的方法改善了学习时间复杂性,并在 20 多个数据集的数值实验中展现了计算速度提高了十倍到一百倍以上,并且具有优越的预测性能。

论文链接: https://arxiv.org/pdf/2406.12353

cs.LG: 共轭梯度和Lanczos在高斯过程回归中的收缩率近似后验。

原标题: Contraction rates for conjugate gradient and Lanczos approximate posteriors in Gaussian process regression

作者: Bernhard Stankewitz, Botond Szabo

机构: 博科尼大学 Bocconi University

摘要: 由于它们的灵活性和理论上的可处理性,高斯过程(GP)回归模型已成为现代统计学和机器学习中的核心主题。虽然这些模型中的真后验是明确给出的,但数值评估取决于增广核矩阵$ K + \sigma^2 I 的求逆,这需要高达 的求逆,这需要高达 的求逆,这需要高达 O(n^3) $的操作。对于通常在现代应用中给定的大样本量n,这在计算上是不可行的,需要使用后验的近似版本。尽管这种方法在实践中被广泛使用,但它们通常在理论上的基础非常有限。
在这种情况下,我们分析了最近从概率数值领域提出的一类近似算法。它们可以解释为核矩阵的Lanczos近似特征向量或后验均值的共轭梯度近似,这在真正大规模应用中特别有优势,因为它们基本上只基于矩阵向量乘法,适合于现代软件框架的GPU加速。我们将数值分析文献中的结果与核矩阵谱的最新集中结果相结合,得到了最小最大收缩率。我们的理论发现通过数值实验加以说明。

论文链接: https://arxiv.org/pdf/2406.12678

cs.LG: 整数规划可行解的有效生成通过引导扩散

原标题: Effective Generation of Feasible Solutions for Integer Programming via Guided Diffusion

作者: Hao Zeng, Jiaqi Wang, Avirup Das, Junying He, Kunpeng Han, Haoyuan Hu, Mingfei Sun

机构: 曼彻斯特大学 菜鸟网络

摘要: 整数规划(IP)的可行解对于加速求解过程至关重要。在许多应用中,类似的IP实例通常表现出相似的结构和共享的解分布,这可能可以通过深度学习方法进行建模。不幸的是,现有的基于深度学习的算法,如神经潜水和预测搜索框架,仅限于生成部分可行解,并且它们必须依赖于像SCIP和Gurobi这样的求解器来完成给定IP问题的解。在本文中,我们提出了一个新颖的框架,可以端到端地生成完整的可行解。我们的框架利用对比学习来表征IP实例和解之间的关系,并学习IP实例和它们的解的潜在嵌入。此外,该框架采用扩散模型来学习在IP表示条件下解嵌入的分布,采用专门的引导抽样策略,考虑约束和目标。我们在四个典型的IP问题数据集上对我们的框架进行了实证评估,并展示了它在不依赖求解器的情况下,以高概率(> 89.7%)有效生成完整的可行解,并且解的质量与Gurobi的最佳启发式解相当。此外,通过将我们方法的抽样部分解与SCIP的CompleteSol启发式集成,得到的可行解在所有数据集上都优于现有方法,与最优值的差距提高了3.7至33.7%,并且在所有数据集上保持了超过99.7%的可行比率。

论文链接: https://arxiv.org/pdf/2406.12349

cs.LG: 一种变分贝叶斯方法用于高维线性回归中低维参数的无偏推断

原标题: A variational Bayes approach to debiased inference for low-dimensional parameters in high-dimensional linear regression

作者: Ismaël Castillo, Alice L’Huillier, Kolyan Ray, Luke Travis

机构: 巴黎索邦大学 伦敦帝国学院

摘要: 我们提出了一种可扩展的变分贝叶斯方法,用于稀疏线性回归中高维参数的单个或低维子集的统计推断。我们的方法依赖于为干扰坐标分配均场近似,并仔细地对目标在给定干扰情况下的条件分布进行建模。这仅需要一个预处理步骤,并保留了均场变分贝叶斯的计算优势,同时确保了对目标参数的准确和可靠推断,包括不确定性量化。我们研究了我们的算法的数值性能,表明它与现有方法具有竞争力。我们进一步建立了估计和不确定性量化的伴随理论保证,形式为伯恩斯坦-冯米塞斯定理。

论文链接: https://arxiv.org/pdf/2406.12659

cs.LG: 使用单个共享图像的联邦学习

原标题: Federated Learning with a Single Shared Image

作者: Sunny Soni, Aaqib Saeed, Yuki M. Asano

机构: 阿姆斯特丹大学 艾因霍温理工大学

摘要: 联邦学习(FL)使多台机器能够在不共享私人训练数据的情况下协作训练机器学习模型。然而,特别是对于异构模型,一个关键瓶颈仍然是从每个客户模型向服务器传输所获得的知识。一种流行的方法FedDF使用蒸馏来解决这个任务,使用一个共同的、共享的数据集来交换预测。然而,在许多情况下,由于隐私问题,这样的数据集可能难以获取,客户可能不允许存储一个大型共享数据集。因此,在本文中,我们介绍了一种改进这种知识蒸馏方法的新方法,它只依赖于客户和服务器之间的单个共享图像。具体来说,我们提出了一种新颖的自适应数据集修剪算法,它从仅一个图像生成的最具信息量的裁剪中进行选择。通过这种方法,我们表明,在有限的共享数据集预算下,使用单个图像相比于多个单独的图像,蒸馏下的联邦学习效果更好。最后,我们扩展了我们的方法,通过在服务器端合并非均匀蒸馏计划和客户模型镜像,以允许对异构客户架构进行训练。

论文链接: https://arxiv.org/pdf/2406.12658

cs.LG: 6G联邦学习启用的动态频谱共享的安全与隐私

原标题: Security and Privacy of 6G Federated Learning-enabled Dynamic Spectrum Sharing

作者: Viet Vo, Thusitha Dayaratne, Blake Haydon, Xingliang Yuan, Shangqi Lai, Sharif Abuadbba, Hajime Suzuki, Carsten Rudolph

机构: 斯威本科技大学 澳大利亚 莫纳什大学 澳大利亚 数据61,澳大利亚联邦科学与工业研究组织 澳大利亚 墨尔本大学 澳大利亚

摘要: 频谱共享在6G无线通信中变得越来越重要,促进对未使用频谱空洞的动态访问。最近,人们越来越倾向于采用机器学习(ML)技术来感知频谱空洞。在这种情况下,基于联邦学习(FL)的频谱感知技术引起了广泛关注,可以构建聚合的ML模型,而不会泄露无线用户设备的私有频谱感知信息。然而,合作训练的完整性和来自本地用户的频谱信息的隐私性仍然未被充分探讨。本文首先考察了FL-enabled频谱共享在未来6G场景中的最新发展。然后,它识别了6G中的实际攻击向量,以阐明这些情境中潜在的基于AI的安全和隐私威胁。最后,该研究概述了未来的方向,包括实际的防御挑战和指南。

论文链接: https://arxiv.org/pdf/2406.12330

cs.LG: 数据依赖的岭正则化在逆问题中的稳定性

原标题: Stability of Data-Dependent Ridge-Regularization for Inverse Problems

作者: Sebastian Neumayer, Fabian Altekrüger

摘要: 逆问题的稳健解决方案的理论保证对应用有重要意义。为了实现保证和高重建质量,我们提出使用基于像素的岭正则化器,其具有数据相关和空间变化的正则化强度。对于这种架构,我们证明了相关变分问题存在解的存在性以及其解算子的稳定性。此外,我们证明了重建形成了一种最大后验方法。生物医学成像和材料科学的模拟表明,即使只有一个小的特定实例训练集可用,该方法也能产生高质量的重建结果。

论文链接: https://arxiv.org/pdf/2406.12289

cs.LG: 预训练视觉-语言模型的高效和长尾泛化

原标题: Efficient and Long-Tailed Generalization for Pre-trained Vision-Language Model

作者: Jiang-Xin Shi, Chi Zhang, Tong Wei, Yu-Feng Li

机构: 南京大学 东南大学

摘要: 预训练的视觉-语言模型(如CLIP)已经通过图像-文本匹配展现出强大的零样本推理能力,并在各种下游任务中证明了其强大的少样本学习能力。然而,在现实场景中,将CLIP适应到下游任务可能会遇到以下挑战:1)数据可能呈现长尾数据分布,并且可能没有足够的样本覆盖所有类别;2)可能会出现包含零样本的新类别的新任务。为了克服这些问题,我们提出了一个新的框架,实现了高效的长尾泛化,可以称为Candle。在训练过程中,我们提出了补偿logit-adjusted loss来鼓励原型的大边界,并减轻基类内部和基类与新类之间的不平衡。为了实现高效的适应性,我们将CLIP模型视为黑盒,并利用提取的特征来获取用于预测的视觉和文本原型。为了充分利用多模态信息,我们还提出了跨模态注意力,丰富了两种模态的特征。为了有效的泛化,我们引入了新类的虚拟原型,弥补了它们缺乏训练图像的不足。Candle在11个不同数据集上的广泛实验中取得了最先进的性能,同时大大减少了训练时间,展示了我们方法的优越性。源代码可在此https URL找到。

论文链接: https://arxiv.org/pdf/2406.12638

Github: https://github.com/shijxcs/Candle

cs.LG: TADM:用于脑部MRI神经退行性进展的时间感知扩散模型

原标题: TADM: Temporally-Aware Diffusion Model for Neurodegenerative Progression on Brain MRI

作者: Mattia Litrico, Francesco Guarnera, Valerio Giuffirda, Daniele Ravì, Sebastiano Battiato

机构: 意大利卡塔尼亚大学 英国诺丁汉大学 赫特福德郡大学

摘要: 生成逼真的图像以准确预测脑部 MRI 结构变化对临床医生来说是至关重要的工具。这类应用有助于评估患者的预后,并分析疾病在个体水平上的进展方式。然而,针对这一任务的现有方法存在一些局限性。一些方法试图通过将模型与患者的年龄进行条件化来直接建模 MRI 扫描的分布,但它们未能明确捕捉脑部结构变化与时间间隔之间的关系,尤其是在年龄不平衡的数据集上。其他方法简单地依赖于扫描之间的插值,这限制了它们在临床应用中的使用,因为它们无法预测未来的 MRI。为了解决这些挑战,我们提出了一种时间感知扩散模型(TADM),它引入了一种新颖的方法来准确推断脑部 MRI 的进展。TADM 通过学习扫描之间的强度差异来学习结构变化的分布,并将这些变化的预测与初始基线扫描相结合,以生成未来的 MRI。此外,在训练过程中,我们建议利用预训练的脑龄估计器(BAE)来优化模型的训练过程,增强其生成与基线扫描之间预期年龄差的准确 MRI 能力。我们在 OASIS-3 数据集上进行了评估,使用相似性度量和通过比较预测和真实随访扫描在 3 个相关脑区的区域大小来计算的区域大小。TADM 相对于现有方法取得了显著的改进,区域大小误差平均减少了 24%,相似性度量提高了 4%。这些评估证明了我们的模型在模拟时间性脑神经退行性进展方面相对于现有方法的改进。我们的方法将有助于应用,例如预测患者预后或改善患者治疗。

论文链接: https://arxiv.org/pdf/2406.12411

cs.LG: 平移等变 Transformer 神经过程

原标题: Translation Equivariant Transformer Neural Processes

作者: Matthew Ashman, Cristiana Diaconu, Junhyuck Kim, Lakee Sivaraya, Stratis Markou, James Requeima, Wessel P. Bruinsma, Richard E. Turner

摘要: 神经过程(NPs)在建模后验预测图(从数据到后验预测分布的映射)方面的有效性自其诞生以来显著提高。这种改进可以归因于两个主要因素:(1)排列不变集函数架构的进展,这对所有NPs都是固有的;以及(2)利用真后验预测图中存在的对称性,这取决于问题。Transformer是排列不变集函数中的一个显著发展,它们在NPs中的效用已通过我们称为TNPs的模型系列得到证明。尽管TNPs引起了极大兴趣,但很少有人关注如何纳入对称性。值得注意的是,对于平稳数据的后验预测图(在时空建模中的常见假设)表现出平移等变性。在本文中,我们介绍了一种新的平移等变TNPs系列,它们纳入了平移等变性。通过对合成和真实世界的时空数据进行广泛的实验,我们证明了TE-TNPs相对于其非平移等变性对照和其他NP基线的有效性。

论文链接: https://arxiv.org/pdf/2406.12409

cs.LG: 基于强化学习的混合遥测光包网络路由

原标题: Reinforcement-Learning based routing for packet-optical networks with hybrid telemetry

作者: A. L. García Navarro, Nataliia Koneva, Alfonso Sánchez-Macián, José Alberto Hernández, Óscar González de Dios, J. M. Rivas-Moscoso

机构: 马德里卡洛斯三世大学 西班牙 Telefonica I+D 西班牙

摘要: 本文提供了一种方法论和开源实现的强化学习算法,用于在分组光网络场景中寻找最佳路由。该算法利用物理层提供的测量数据(前向纠错码误比特率和传播延迟)和链路层提供的测量数据(链路负载)来配置一组基于延迟的奖励和惩罚。然后,该算法执行基于这组奖励的 Q-learning,以找到最佳的路由策略。进一步表明,该算法通过在链路负载变化或前向纠错码误比特率测量到链路退化时重新计算最佳策略,动态适应不断变化的网络条件。

论文链接: https://arxiv.org/pdf/2406.12602

cs.LG: 用条件归一化流有效地映射相图

原标题: Efficient mapping of phase diagrams with conditional normalizing flows

作者: Maximilian Schebek, Michele Invernizzi, Frank Noé, Jutta Rogal

机构: 自由大学柏林 物理学院 数学与计算机学院 美国莱斯大学化学系 微软研究AI4Science 德国柏林 纽约大学化学系

摘要: 相位图的准确预测对于材料的基本理解以及材料科学中的技术应用都至关重要。然而,基于自由能对相对稳定性进行计算预测是一项艰巨的任务,因为传统的自由能估计器需要大量的模拟数据来获得在热力学状态网格上的不相关平衡样本。在这项工作中,我们开发了深度生成式机器学习模型,用于整个相位图,采用了条件于热力学状态(例如温度和压力)的正规化流。通过训练单个正规化流,将仅在一个参考热力学状态下采样的平衡分布转换为广泛范围的目标温度和压力,我们可以高效地生成整个相位图上的平衡样本。使用置换等变体架构使我们能够同等对待固体和液体相。我们通过预测Lennard-Jones系统的固液共存线来演示我们的方法,与最先进的自由能方法达成了极好的一致,同时显著减少了所需的能量评估数量。

论文链接: https://arxiv.org/pdf/2406.12378

cs.LG: 实现视频编码中特定内容过滤的竞争学习任务

原标题: Competitive Learning for Achieving Content-specific Filters in Video Coding for Machines

作者: Honglei Zhang, Jukka I. Ahonen, Nam Le, Ruiying Yang, Francesco Cricri

机构: 诺基亚技术(芬兰)

摘要: 本文研究了共同优化特定内容的后处理滤波器的有效性,以将面向人类的视频/图像编解码器调整为适用于机器视觉任务的编解码器。通过观察到视频/图像编解码器产生的伪影是与内容相关的,我们提出了一种基于竞争学习原则的新型训练策略。该策略以一种模糊的方式动态地将训练样本分配给滤波器,进一步优化给定样本上的获胜滤波器。受模拟退火优化技术的启发,我们采用带有温度变量的 softmax 函数作为权重分配函数,以减轻随机初始化的影响。我们的评估是在一个利用多个后处理滤波器的系统上进行的,该系统位于通用视频编码(VVC)编解码器框架内,结果表明,使用我们提出的策略训练的特定内容的滤波器在图像以块处理时表现出了优越性。在使用 VVC 参考软件 VTM 12.0 作为锚点的实验中,对 OpenImages 数据集的实验显示,与独立训练的滤波器相比,对象检测和实例分割任务的 BD-rate 降低分别从 -41.3% 和 -44.6% 提高到了 -42.3% 和 -44.7%。滤波器使用的统计数据与我们的假设一致,并强调了共同优化内容和重建质量的滤波器的重要性。我们的发现为进一步提高视频/图像编解码器的性能铺平了道路。

论文链接: https://arxiv.org/pdf/2406.12367

cs.LG: 线性约束双层优化的一阶方法

原标题: First-Order Methods for Linearly Constrained Bilevel Optimization

作者: Guy Kornowski, Swati Padmanabhan, Kai Wang, Zhe Zhang, Suvrit Sra

摘要: 双层优化算法经常遇到在高维度中是禁止的 Hessian 计算。虽然最近的工作提供了无约束双层问题的一阶方法,但约束设置仍然相对未被充分探索。我们提出了具有有限时间超梯度稳定性保证的一阶线性约束优化方法。对于线性等式约束,我们在 O ~ ( ϵ − 2 ) \widetilde{O}(\epsilon^{-2}) O (ϵ2) 梯度预言调用中实现了 ϵ \epsilon ϵ-稳定性,这几乎是最优的。对于线性不等式约束,我们在 O ~ ( d δ − 1 ϵ − 3 ) \widetilde{O}(d{\delta^{-1} \epsilon^{-3}}) O (dδ1ϵ3) 梯度预言调用中实现了 ( δ , ϵ ) (\delta,\epsilon) (δ,ϵ)-Goldstein 稳定性,其中 d d d 是上层维度。最后,我们在额外假设预言访问最优对偶变量的情况下,获得了线性不等式设置的无维度速率为 O ~ ( δ − 1 ϵ − 4 ) \widetilde{O}({\delta^{-1} \epsilon^{-4}}) O (δ1ϵ4) 的预言复杂度。在此过程中,我们开发了具有不精确预言的新的非光滑非凸优化方法。我们通过初步的数值实验验证了这些保证。

论文链接: https://arxiv.org/pdf/2406.12771

cs.LG: 网络回归的最优输运方法

原标题: An Optimal Transport Approach for Network Regression

作者: Alex G. Zalles, Kai M. Hung, Ann E. Finneran, Lydia Beaudrot, César A. Uribe

摘要: 我们研究网络回归问题,其中我们对网络拓扑如何随欧几里得协变量的函数而变化感兴趣。我们借鉴了基于Fréchet均值的广义回归模型在度量空间上的最新发展,并提出了一种使用Wasserstein度量的网络回归方法。我们表明,当将图表示为多变量高斯分布时,网络回归问题需要计算黎曼质心(即Fréchet均值)。具有非负权重的Fréchet均值转化为重心问题,并且可以使用固定点迭代进行高效计算。尽管计算Wasserstein仿射平均的固定点迭代的收敛性保证仍然是一个未解决的问题,但我们提供了在大量合成和真实数据场景中收敛的证据。广泛的数值结果表明,所提出的方法通过准确考虑合成实验中的图大小、拓扑和稀疏性,改进了现有的程序。此外,使用所提出的方法进行的真实世界实验导致更高的确定系数( R 2 R^{2} R2)值和更低的均方预测误差(MSPE),巩固了在实践中改进的预测能力。

论文链接: https://arxiv.org/pdf/2406.12204

cs.LG: 使用强化学习在超导处理器上进行量子编译

原标题: Quantum Compiling with Reinforcement Learning on a Superconducting Processor

作者: Z. T. Wang, Qiuhao Chen, Yuxuan Du, Z. H. Yang, Xiaoxia Cai, Kaixuan Huang, Jingning Zhang, Kai Xu, Jun Du, Yinan Li, Yuling Jiao, Xingyao Wu, Wu Liu, Xiliang Lu, Huikai Xu, Yirong Jin, Ruixia Wang, Haifeng Yu, S. P. Zhao

机构: 中国科学院物理研究所 北京国家实验室 南洋理工大学 京东探索学院

摘要: 有效地在噪声中间规模量子(NISQ)处理器上实现量子算法是现代量子技术中的一个核心任务。NISQ处理器具有数十到数百个噪声量子比特,具有有限的相干时间和带有误差的门操作,因此NISQ算法自然需要通过量子编译使用长度较短的电路。在这里,我们为超导处理器开发了基于强化学习(RL)的量子编译器,并展示了它发现新颖且适合硬件的短电路的能力。我们展示了对于三比特量子傅里叶变换,可以实现仅使用七个CZ门的编译电路,并且电路保真度为1。编译器还能够在设备拓扑约束下找到最佳电路,其长度明显短于传统方法。我们的研究示范了软件与硬件的协同设计,为高效量子编译提供了宝贵的见解。

论文链接: https://arxiv.org/pdf/2406.12195

cs.LG: 基于位置的放射学报告引导的半监督学习用于前列腺癌检测

原标题: Location-based Radiology Report-Guided Semi-supervised Learning for Prostate Cancer Detection

作者: Alex Chen, Nathan Lay, Stephanie Harmon, Kutsev Ozyoruk, Enis Yilmaz, Brad J. Wood, Peter A. Pinto, Peter L. Choyke, Baris Turkbey

机构: 国家癌症研究所 临床中心 癌症研究中心

摘要: 前列腺癌是世界上最常见的恶性肿瘤之一。虽然深度学习有潜力进一步改善 MRI 计算机辅助前列腺癌检测的效果,但其有效性取决于对手动标注图像的彻底筛选。我们提出了一种新的半监督学习(SSL)方法,该方法由自动提取的临床信息引导,特别是放射学报告中的病变位置,允许使用未标注的图像来减少标注负担。通过利用病变位置,我们改进了伪标签,然后用这些标签来训练我们的基于位置的 SSL 模型。我们表明,我们的 SSL 方法可以通过利用未标注的图像来改善前列腺病变检测,当使用更大比例的未标注图像时,观察到的影响更为显著。

论文链接: https://arxiv.org/pdf/2406.12177

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小舞很执着/article/detail/893312
推荐阅读
相关标签
  

闽ICP备14008679号