当前位置:   article > 正文

2024年7月8日Arxiv机器学习相关论文_on scalable oversight with weak llms judging stron

on scalable oversight with weak llms judging strong llms

关于利用弱大语言模型评判强大语言模型的可扩展监督

原标题: On scalable oversight with weak LLMs judging strong LLMs

作者: Zachary Kenton, Noah Y. Siegel, János Kramár, Jonah Brown-Cohen, Samuel Albanie, Jannis Bulian, Rishabh Agarwal, David Lindner, Yunhao Tang, Noah D. Goodman, Rohin Shah

机构: 谷歌DeepMind

摘要: 可扩展的监督协议旨在使人类能够准确监督超智能人工智能。在本文中,我们研究了辩论,其中两个人工智能竞争说服一名裁判;咨询,其中一个人工智能试图说服一个提问问题的裁判;并将其与直接问答的基准进行比较,在这种情况下,裁判直接回答问题,没有人工智能参与。我们使用大语言模型(LLMs)既作为人工智能代理,也作为人类裁判的替身,将裁判模型视为比代理模型更弱。我们在裁判和代理之间的各种不对称性上进行基准测试,扩展了先前在具有信息不对称性的单一抽取式问答任务上的工作,还包括数学、编码、逻辑和多模态推理不对称性。我们发现,在咨询顾问被随机分配为支持正确/错误答案的情况下,辩论在所有任务中均优于咨询。将辩论与直接问答进行比较,结果取决于任务类型:在具有信息不对称性的抽取式问答任务中,辩论优于直接问答,但在其他没有信息不对称性的任务中,结果则不尽相同。先前的工作为辩手/顾问指定了一个要辩论的答案。当我们允许他们选择要辩论的答案时,我们发现裁判在辩论中被错误答案说服的频率要低于在咨询中。此外,我们发现更强大的辩手模型可以提高裁判的准确性,尽管比以前的研究要适度。

论文链接: https://arxiv.org/pdf/2407.04622

基于随机物理信息的神经网络在贝叶斯数据同化中的应用

原标题: Randomized Physics-Informed Neural Networks for Bayesian Data Assimilation

作者: Yifei Zong, David Barajas-Solano, Alexandre M. Tartakovsky

机构: 伊利诺伊大学厄巴纳-香槟分校 太平洋西北国家实验室

摘要: 我们提出了一种用于在具有噪声数据的反向偏微分方程(PDE)问题中进行不确定性量化的随机物理信息神经网络(PINN)或rPINN方法。该方法用于量化反向PDE PINN解决方案中的不确定性。最近,提出了贝叶斯PINN(BPINN)方法,其中使用贝叶斯定理制定了PINN参数的后验分布,并使用近似推断方法(如哈密顿蒙特卡洛(HMC)和变分推断(VI)方法)对其进行采样。在这项工作中,我们证明了HMC在非线性反向PDE问题中无法收敛。作为HMC的替代方案,我们通过解决通过随机化PINN损失函数获得的随机优化问题来对分布进行采样。rPINN方法的有效性已针对线性和非线性泊松方程以及具有高维空间相关扩散系数的扩散方程进行了测试。rPINN方法为所有考虑的问题提供了信息丰富的分布。对于线性泊松方程,HMC和rPINN产生类似的分布,但rPINN平均比HMC快27倍。对于非线性泊松和扩散方程,HMC方法无法收敛,因为单个HMC链无法在合理的时间内对PINN参数的后验分布的多个模式进行采样。

论文链接: https://arxiv.org/pdf/2407.04617

理解重复自蒸馏的收益

原标题: Understanding the Gains from Repeated Self-Distillation

作者: Divyansh Pareek, Simon S. Du, Sewoong Oh

机构: 华盛顿大学Seattle分校
Allen计算机科学与工程学院

摘要: 自蒸馏是一种特殊类型的知识蒸馏,其中学生模型与教师模型具有相同的架构。尽管使用相同的架构和相同的训练数据,但经验观察表明,自蒸馏在提高性能方面表现出色,特别是在重复应用时。对于这样一个过程,有一个基本的问题是:通过应用多步自蒸馏可以获得多少收益?为了研究这种相对收益,我们建议研究线性回归这个简单但经典的任务。我们的分析表明,多步自蒸馏所实现的多余风险可以显著改善单步自蒸馏的效果,将多余风险降低一个与输入维度 d d d一样大的因子。来自UCI仓库的回归任务的实证结果显示,学得模型的风险(均方误差)可以减少高达47%。

论文链接: https://arxiv.org/pdf/2407.04600

在线鞍点问题的近端点方法

原标题: Proximal Point Method for Online Saddle Point Problem

作者: Qing-xin Meng, Jian-wei Liu

机构: 中国石油大学 (China University of Petroleum)

摘要: 这篇论文关注在线鞍点问题,涉及一系列两人博弈时间变化的凸凹博弈。考虑到环境的非稳态性,我们采用对偶间隙和动态纳什均衡遗憾作为算法设计的性能指标。我们提出了三种近端点方法的变体:在线近端点方法(OPPM),乐观OPPM(OptOPPM)和具有多个预测器的OptOPPM。每种算法都保证了对偶间隙和动态纳什均衡遗憾的上界,当以对偶间隙为度量时,实现了接近最优性。具体来说,在某些良性环境中,比如序列化的收益函数,这些算法保持了几乎恒定的度量界限。实验结果进一步验证了这些算法的有效性。最后,本文讨论了使用动态纳什均衡遗憾作为性能指标可能涉及的潜在可靠性问题。

论文链接: https://arxiv.org/pdf/2407.04591

记住一切会让你变得脆弱:聚焦个性化医疗领域的机器遗忘

原标题: Remembering Everything Makes You Vulnerable: A Limelight on Machine Unlearning for Personalized Healthcare Sector

作者: Ahan Chatterjee, Sai Anirudh Aryasomayajula, Rajat Chaudhari, Subhajit Paul, Vishwa Mohan Singh

机构: 慕尼黑路德维希-马克西米利安大学 印度加尔各里新大学

摘要: 随着数据驱动技术在医疗保健领域的普及不断增加,有关数据隐私和安全的关注变得日益重要。本论文旨在解决个性化医疗模型在心电监测等领域对抗性攻击的脆弱性问题,从而损害患者隐私。我们提出了一种名为“机器遗忘”(Machine Unlearning)的方法,以减轻暴露数据点对机器学习模型的影响,从而增强模型对抗对抗性攻击的鲁棒性,同时保护个人隐私。具体而言,我们研究了在个性化心电监测环境中机器遗忘的有效性,利用了临床心电记录数据集。我们的方法涉及在心电数据上训练深度神经分类器,并对模型进行个体化微调。我们展示了个体化微调模型对抗性攻击的易受攻击性,例如快速梯度符号法(FGSM),该方法可以利用个性化模型中的额外数据点。为了解决这种脆弱性,我们提出了一种机器遗忘算法,从个性化微调模型中有选择性地移除敏感数据点,有效增强模型对抗对抗性操纵的韧性。实验结果表明,我们的方法在减轻对抗性攻击影响的同时保持了预训练模型的准确性。

论文链接: https://arxiv.org/pdf/2407.04589

通过模态感知交互增强进行多模态分类

原标题: Multimodal Classification via Modal-Aware Interactive Enhancement

作者: Qing-Yuan Jiang, Zhouyang Chi, Yang Yang

机构: 南京理工大学

摘要: 由于臭名昭著的模态不平衡问题,多模态学习(MML)导致了优化不平衡现象,因此难以实现令人满意的性能。最近,一些代表性方法已被提出以提升性能,主要集中在自适应调整每种模态的优化,以重新平衡主导和非主导模态的学习速度。为了更好地促进多模态学习中模型信息的交互,在本文中,我们提出了一种新颖的多模态学习方法,称为模态感知交互增强(MIE)。具体而言,我们首先利用基于尖锐感知最小化(SAM)的优化策略来平滑前向阶段的学习目标。然后,借助SAM的几何特性,我们提出了一种梯度修改策略,在反向阶段施加不同模态之间的影响。因此,我们可以同时提高多模态学习的泛化能力并缓解模态遗忘现象。对广泛使用的数据集进行的大量实验表明,我们提出的方法可以胜过各种最先进的基准方法,实现最佳性能。

论文链接: https://arxiv.org/pdf/2407.04587

利用大语言模型进行集成卫星-航空-地面网络:最新进展与未来方向

原标题: Leveraging Large Language Models for Integrated Satellite-Aerial-Terrestrial Networks: Recent Advances and Future Directions

作者: Shumaila Javaid, Ruhul Amin Khalil, Nasir Saeed, Bin He, Mohamed-Slim Alouini

机构: 清华大学 西北工业大学

摘要: 集成卫星、航空和地面网络(ISATNs)代表了不同通信技术的复杂融合,以确保在不同高度和平台之间实现无缝连接。本文探讨了将大语言模型(LLMs)整合到ISATNs中的变革潜力,利用先进的人工智能(AI)和机器学习(ML)能力来增强这些网络。我们概述了ISATNs的当前架构,并强调LLMs在优化数据流、信号处理和网络管理方面可以发挥的重要作用,通过先进的预测算法和实时决策来推进5G/6G通信技术。对ISATN组件进行了全面分析,评估LLMs如何有效地解决传统数据传输和处理瓶颈。本文深入探讨了ISATNs内部的网络管理挑战,强调了需要复杂的资源分配策略、流量路由和安全管理,以确保在不同条件下实现无缝连接和最佳性能。此外,我们还研究了将LLMs整合到ISATNs中所面临的技术挑战和限制,如LLM处理的数据集成、可扩展性问题、决策过程中的延迟,以及设计健壮、容错的系统。该研究还确定了充分利用LLM在ISATNs中能力的关键未来研究方向,这对于增强网络可靠性、优化性能,并实现真正互联互通、智能的全球网络系统至关重要。

论文链接: https://arxiv.org/pdf/2407.04581

GOALPlace:从终点开始

原标题: GOALPlace: Begin with the End in Mind

作者: Anthony Agnesina, Rongjian Liang, Geraldo Pradipta, Anand Rajaram, Haoxing Ren

机构: NVIDIA

摘要: 通过与拥塞优化相结合,实现高质量设计至关重要。本文介绍了 GOALPlace,这是一种新的基于学习的通用方法,通过控制单元密度来改善布局拥塞。我们的方法有效地从 EDA 工具的后布线优化结果中学习,并使用经验贝叶斯技术将这个目标适应到特定布局器的解决方案中,有效地从一开始就着眼于最终目标。它增强了与工具路由器和时序优化引擎的长期启发式方法的相关性,同时在全局范围内解决布局问题,无需昂贵的增量拥塞估算和缓解方法。通过新的分层网表聚类进行的统计分析确定了密度的重要性以及跨布局的适当单元密度目标的潜力。我们的实验表明,我们的方法作为一个演示集成到一个学术 GPU 加速的全局布局器中,始终产生优质或可与商业工具相媲美的宏单元和标准单元布局。我们的经验贝叶斯方法还允许相对于最先进的学术混合尺寸布局器实现实质性的质量改进,减少了高达 10 倍的设计规则检查(DRC)违规,减少了 5% 的线长,并分别减少了最差和总负时序(WNS/TNS)的 30% 和 60%。

论文链接: https://arxiv.org/pdf/2407.04579

介绍“Inside”的分布外情况

原标题: Introducing ‘Inside’ Out of Distribution

作者: Teddy Lazebnik

机构: 阿里埃尔大学 伦敦大学学院 癌症研究所

摘要: 在机器学习(ML)中,检测和理解超出分布(OOD)样本对于确保模型性能可靠至关重要。当前关于OOD的研究,一般而言,特别是在ML的背景下,主要集中在外推性OOD(外部),忽略了内插性OOD(内部)的潜在情况。本研究通过提出OOD可以分为内部和外部情况的新视角,引入了一种新颖的OOD理念。此外,根据这一框架,我们研究了数据集的内部-外部OOD特征及其对ML模型性能的影响。我们的分析表明,不同的内部-外部OOD特征导致ML模型性能出现微妙下降,突显了区分这两种情况对于开发有效的抗OOD方法的重要性。

论文链接: https://arxiv.org/pdf/2407.04534

在电力网络中的图强化学习:一项调查

原标题: Graph Reinforcement Learning in Power Grids: A Survey

作者: Mohamed Hassouna, Clara Holzhüter, Pawel Lytaev, Josephine Thomas, Bernhard Sick, Christoph Scholz

机构: 弗劳恩霍夫能源经济与能源系统技术研究所(IEE) 德国卡塞尔大学 能源管理与电力系统运行系

摘要: 可再生能源和分布式电力发电带来的挑战促使开发深度学习方法,以克服传统方法在电力网使用案例中灵活性不足的问题。GNNs的应用尤为有前景,因为它们能够从电力网中存在的图结构数据中学习。结合RL,它们可以作为控制方法,确定补救电网行动。本文分析了GRL捕捉电力网固有图结构以改进不同电力网使用案例中的表示学习和决策制定能力。它区分了输电网和配电网中常见问题,并探讨了RL和GNN之间的协同作用。在输电网中,GRL通常解决自动化电网管理和拓扑控制问题,而在配电方面,GRL更集中于电压调节。我们根据它们的图结构和GNN模型、应用的RL算法以及它们的整体贡献来分析所选论文。尽管GRL在面对不可预测事件和嘈杂或不完整数据时表现出适应性,但在这个阶段它主要是一个概念验证。在考虑将RL应用于实际电力网运行时,仍有多个待解决的挑战和限制。

论文链接: https://arxiv.org/pdf/2407.04522

G-自适应网格细化 – 利用图神经网络和可微分有限元求解器

原标题: G-Adaptive mesh refinement – leveraging graph neural networks and differentiable finite element solvers

作者: James Rowbottom, Georg Maierhofer, Teo Deveney, Katharina Schratz, Pietro Liò, Carola-Bibiane Schönlieb, Chris Budd

机构: 剑桥大学 牛津大学 巴斯大学 索邦大学

摘要: 我们提出了一种新颖且有效的方法来解决有限元方法(FEM)中长期存在的网格适应性问题。有限元求解器是解决偏微分方程(PDEs)的强大工具,但其成本和准确性严重依赖于网格点的选择。为了保持计算成本低,网格重定位(r适应性)旨在优化固定数量的网格点位置,以获得最佳的有限元解准确性。传统方法要求解决一个单独的非线性“网格化”PDE以找到网格点位置。这会在重新网格化时产生显着的成本,并依赖于某些先验假设和指导启发式来实现最佳的网格点位置。最近的机器学习方法主要集中在为这些传统方法构建快速替代品上。我们的新方法结合了一个由图神经网络(GNN)驱动的架构,通过基于直接最小化有限元解误差相对于网格点位置的训练。GNN采用图神经扩散(GRAND),将网格解空间与经典网格方法的解空间紧密对齐,从而用可学习的策略取代启发式,并提供强大的归纳偏差。这使得快速而稳健的训练成为可能,并导致一种极其高效和有效的在线r适应性GNN方法。这种方法在我们考虑的测试问题上优于传统和先前的机器学习方法,特别是在实现更低的有限元解误差的同时,保留了在先前的机器学习工作中观察到的相对于传统方法的显着加速。

论文链接: https://arxiv.org/pdf/2407.04516

PROUD: PaRetO-guided Diffusion Model for Multi-objective Generation

原标题: PROUD: PaRetO-gUided Diffusion Model for Multi-objective Generation

作者: Yinghua Yao, Yuangang Pan, Jing Li, Ivor Tsang, Xin Yao

机构: 新加坡科学技术研究局(A*STAR) 香港岭南大学

摘要: 最近在深度生成模型领域的最新进展集中在生成满足多个期望属性的样本上。然而,目前的方法通常独立优化这些属性函数,从而忽略它们之间的权衡。此外,属性优化通常未正确整合到生成模型中,导致在生成质量上做出不必要的妥协(即生成样本的质量)。为了解决这些问题,我们制定了一个受限优化问题。它旨在优化生成质量,同时确保生成的样本位于多个属性目标的帕累托前沿。这样的制定使得生成的样本在冲突的属性函数上无法同时进一步改进,并保持生成样本的良好质量。基于这一制定,我们引入了PaRetO-gUided Diffusion模型(PROUD),其中在去噪过程中的梯度会动态调整,以增强生成质量,同时生成的样本符合帕累托最优性。对图像生成和蛋白质生成任务的实验评估表明,与各种基线相比,我们的PROUD始终保持卓越的生成质量,同时接近多个属性函数的帕累托最优性。

论文链接: https://arxiv.org/pdf/2407.04493

默认更好:在表格数据上使用强预调的MLP和Boosted Trees

原标题: Better by Default: Strong Pre-Tuned MLPs and Boosted Trees on Tabular Data

作者: David Holzmüller, Léo Grinsztajn, Ingo Steinwart

机构: SIERRA团队 Inria巴黎、Ecole Normale Superieure、PSL大学、SODA团队 Inria Saclay、斯图加特大学

摘要: 对于表格数据的分类和回归任务,梯度提升决策树(GBDTs)的主导地位最近受到了深度学习方法的挑战,后者通常需要进行大量超参数调整,速度较慢。我们通过引入以下内容来解决这一差距:(a) RealMLP,一种改进的多层感知器(MLP),以及(b) 改进的GBDTs和RealMLP的默认参数。我们在一个包含71个分类数据集和47个回归数据集的元训练基准上调整了RealMLP和默认参数,并将它们与在一个包含48个分类数据集和42个回归数据集的不相交的元测试基准上进行超参数优化的版本进行比较,同时还与Grinsztajn等人(2022年)提出的适用于GBDTs的基准进行比较。我们的基准结果显示,RealMLP在时间-准确性权衡方面优于其他神经网络,并且与GBDTs具有竞争力。此外,RealMLP和具有改进默认参数的GBDTs的组合可以在中等大小的表格数据集(1K-500K样本)上取得出色的结果,而无需进行超参数调整。

论文链接: https://arxiv.org/pdf/2407.04491

Github: https://github.com/dholzmueller/pytabkit

使用 Petri 网作为集成约束机制用于强化学习任务

原标题: Using Petri Nets as an Integrated Constraint Mechanism for Reinforcement Learning Tasks

作者: Timon Sachweh, Pierre Haritz, Thomas Liebig

机构:

摘要: 在使用强化学习(RL)智能体控制生产工厂、自动驾驶车辆或交通基础设施等现实世界领域时,算法信任不足通常是一个问题,部分原因是模型本身缺乏可验证性。在这种情况下,Petri 网(PNs)通常用于流程图或流程步骤,因为它们既多功能又标准化。为了促进 RL 模型的集成并为增加 AI 的可信度迈出一步,我们提出了一种方法,利用 PNs 具有比典型 RL 方法更多的三个主要优势:首先,智能体现在可以轻松地通过结合外部环境观察和给定 PN 中的特定状态信息来建模。其次,我们可以通过固有的 PN 模型对状态相关动作强制执行约束。最后,我们可以通过诸如模型检查等技术验证 PN 属性以提高可信度。我们在典型的四路交叉口交通灯控制设置上测试了我们的方法,并呈现了击败基于周期的基线的结果。

论文链接: https://arxiv.org/pdf/2407.04481

LoCo: 用于大规模模型训练的低比特通信适配器

原标题: LoCo: Low-Bit Communication Adaptor for Large-scale Model Training

作者: Xingyu Xie, Zhijie Lin, Kim-Chuan Toh, Pan Zhou

机构: 清华大学 新加坡国立大学

摘要: 为了高效训练大规模模型,低比特梯度通信将本地 GPU 节点上的全精度梯度压缩为低精度梯度,以提高 GPU 节点之间的梯度同步效率。然而,由于压缩信息丢失,这通常会降低训练质量。为了解决这个问题,我们提出了低比特通信适配器(LoCo),在压缩之前在本地 GPU 节点上补偿梯度,确保在不影响训练质量的情况下实现高效同步。具体而言,LoCo 设计了历史补偿误差的移动平均值,稳定地估计并发压缩误差,然后采用它来补偿并发梯度压缩,从而实现更少的无损压缩。这种机制使其能够与像 Adam 和 FSDP 这样的通用优化器兼容。理论分析表明,将 LoCo 集成到像 Adam 和 SGD 这样的全精度优化器中不会影响它们在非凸问题上的收敛速度。实验结果显示,在像 Megatron-LM 和 PyTorch 的 FSDP 这样的大规模模型训练框架中,LoCo 显著提高了通信效率,例如将 Adam 的训练速度提高了 14% 到 40%,而在像 LLAMAs 和 MoE 这样的大语言模型上没有性能下降。

论文链接: https://arxiv.org/pdf/2407.04480

重新思考点云上采样的数据输入

原标题: Rethinking Data Input for Point Cloud Upsampling

作者: Tongxu Zhang

机构: 香港理工大学

摘要: 近年来,点云上采样已被广泛应用于3D重建和表面生成等领域。然而,现有的点云上采样输入都是基于补丁的,没有研究讨论点云模型完整输入和基于补丁输入之间的差异和原理。为了与基于补丁的点云输入进行比较,本文提出了一种新的数据输入方法,将完整的点云模型划分,以确保在训练PU-GCN时形状完整性。本文在PU1K和ABC数据集上进行了验证,但结果显示,基于补丁的性能优于基于模型的完整输入,即平均分段输入。因此,本文探讨了影响点云上采样结果的数据输入因素和模型模块。

论文链接: https://arxiv.org/pdf/2407.04476

智能抽样:从友好邻居处获取帮助,用于去中心化联邦学习

原标题: Smart Sampling: Helping from Friendly Neighbors for Decentralized Federated Learning

作者: Lin Wang, Yang Chen, Yongxin Guo, Xiaoying Tang

机构: 香港中文大学(深圳)

摘要: 联邦学习(FL)因其在保护隐私和减少通信成本的同时共享知识的能力而引起了广泛关注。与集中式FL不同,去中心化FL(DFL)采用了一种消除了对中央服务器需求的网络架构,允许客户端之间直接通信,从而实现了显著的通信资源节约。然而,由于数据的异质性,不是所有相邻节点都有助于提升本地客户端模型的性能。在这项工作中,我们介绍了\textbf{\emph{AFIND+}},这是一种简单而高效的算法,用于在DFL中对邻居进行采样和聚合,旨在利用协作提高客户端模型的性能。AFIND+识别有帮助的邻居,自适应调整所选邻居的数量,并根据它们的贡献策略性地聚合采样邻居的模型。在具有不同数据分区的真实数据集上的数值结果表明,AFIND+在DFL中优于其他采样算法,并且与大多数现有的DFL优化算法兼容。

论文链接: https://arxiv.org/pdf/2407.04460

基于小波的时间注意力改进了交通预测

原标题: Wavelet-based Temporal Attention Improves Traffic Forecasting

作者: Yash Jakhmola, Nitish Kumar Mishra, Kripabandhu Ghosh, Tanujit Chakraborty

机构: 印度科学教育与研究学院 印度 加尔各答 西孟加拉邦 印度
索邦大学 阿布扎比 阿联酋
索邦人工智能中心 法国 巴黎

摘要: 交通流量数据的时空预测代表了机器学习领域中的一个典型问题,影响着城市交通管理系统。传统的统计和机器学习方法无法充分处理这些复杂交通流量数据集中的时间和空间依赖关系。该领域中一种流行的方法是将图卷积网络和多头注意力机制结合起来进行时空处理。本文提出了一种基于小波的时间注意力模型,即基于小波的动态时空感知图神经网络(W-DSTAGNN),用于解决交通预测问题。使用几种统计指标进行的基准实验证实,我们的提议有效捕捉了时空相关性,并在三个不同的真实世界交通数据集上胜过了十种最先进的模型。我们提出的集成数据驱动方法可以处理动态的时间和空间依赖关系,并以高效的方式进行长期预测。

论文链接: https://arxiv.org/pdf/2407.04440

通过基于排名的符合性预测集实现可信分类

原标题: Trustworthy Classification through Rank-Based Conformal Prediction Sets

作者: Rui Luo, Zhixin Zhou

机构: 香港城市大学

摘要: 机器学习分类任务通常受益于以置信度分数预测一组可能的标签,以捕捉不确定性。然而,现有方法在处理数据的高维性和现代分类模型缺乏良好校准概率方面存在困难。我们提出了一种新颖的符合性预测方法,采用基于排名的评分函数,适用于那些能够正确预测标签顺序的分类模型,即使校准不佳。我们的方法构建了能够实现期望覆盖率并管理其大小的预测集。我们根据底层分类器的排名分布提供了符合性预测集的预期大小的理论分析。通过大量实验证明,我们的方法在各种数据集上优于现有技术,提供可靠的不确定性量化。我们的贡献包括一种新颖的符合性预测方法、理论分析和实证评估。这项工作通过实现可靠的不确定性量化推动了机器学习系统的实际部署。

论文链接: https://arxiv.org/pdf/2407.04407

使用渐变路由的硬注意力门用于内窥镜图像计算

原标题: Hard-Attention Gates with Gradient Routing for Endoscopic Image Computing

作者: Giorgio Roffo, Carlo Biffi, Pietro Salvagnini, Andrea Cherubini

机构: Cosmo IMD

摘要: 为了解决胃肠道息肉大小评估中的过拟合问题并增强模型的泛化能力,我们的研究引入了特征选择门(FSG)或硬注意力门(HAG),并结合梯度路由(GR)进行动态特征选择。该技术旨在通过促进稀疏连接来增强卷积神经网络(CNNs)和视觉Transformer(ViTs),从而减少过拟合并增强泛化能力。HAG通过具有可学习权重的稀疏化来实现这一目标,作为一种正则化策略。GR通过双向前向传播独立于主模型优化HAG参数,以改善特征重新加权的过程。我们的评估涵盖了多个数据集,包括CIFAR-100用于广泛影响评估以及专注于息肉大小估计的内窥镜数据集(REAL-Colon、Misawa和SUN),涵盖了超过370,000帧中的200多个息肉。研究结果表明,我们增强了HAG的网络在与息肉大小相关的二元和三元分类任务中显著提高了性能。具体而言,CNNs在二元分类中的F1分数提高到了87.8%,而在三元分类中,ViT-T模型达到了76.5%的F1分数,优于传统CNNs和ViT-T模型。为了促进进一步的研究,我们发布了我们的代码库,其中包括CNNs、多流CNNs、ViT和增强了HAG的变体的实现。这一资源旨在标准化内窥镜数据集的使用,为胃肠道息肉大小估计中可靠且可比较的研究提供公共训练-验证-测试拆分。代码库可在此http URL上找到。

论文链接: https://arxiv.org/pdf/2407.04400

Github: http://github.com/cosmoimd/feature-selection-gates

关于量子通道学习

原标题: On Quantum Channel Learning

作者: Mikhail Gennadievich Belov, Victor Victorovich Dubov, Alexey Vladimirovich Filimonov, Vladislav Gennadievich Malyshkin

机构: 莫斯科国立大学力学和数学学院 圣彼得堡理工大学 伊奥菲研究所

摘要: 基于一系列密度矩阵映射测量 ρ ( l ) → ϱ ( l ) \rho^{(l)} \to \varrho^{(l)} ρ(l)ϱ(l) l = 1 … M l=1\dots M l=1M,在Hilbert空间 I N IN IN O U T OUT OUT 之间的最优映射问题被表述为一个优化问题,最大化总保真度 F = ∑ l = 1 M ω ( l ) F ( ϱ ( l ) , ∑ s B s ρ ( l ) B s † ) \mathcal{F}=\sum_{l=1}^{M} \omega^{(l)} F\left(\varrho^{(l)},\sum_s B_s \rho^{(l)} B^{\dagger}_s\right) F=l=1Mω(l)F(ϱ(l),sBsρ(l)Bs),受到Kraus算子的概率保持约束的限制。对于形式为 F ( ϱ , σ ) F(\varrho,\sigma) F(ϱ,σ) 的总保真度可以表示为具有超算符 F = ∑ s ⟨ B s | S | B s ⟩ \mathcal{F}=\sum_s\left\langle B_s\middle|S\middle| B_s \right\rangle F=sBsSBs 的二次型形式(精确地或作为近似),开发了一个迭代算法来找到全局最大值。结果包括 N s N_s Ns 个算子 B s B_s Bs,它们共同形成一个从 I N IN IN O U T OUT OUT 的量子通道 A O U T = ∑ s B s A I N B s † A^{OUT}=\sum_s B_s A^{IN} B_s^{\dagger} AOUT=sBsAINBs。该工作引入了两个重要的酉学习的泛化:1. I N IN IN/ O U T OUT OUT 状态被表示为密度矩阵。2. 映射本身被表述为一个通用量子通道。这标志着从常见的研究纯态的酉映射 ϕ l = U ψ l \phi_l=\mathcal{U} \psi_l ϕl=Uψl 转向到一般量子通道,使我们能够区分状态的概率混合和它们的叠加。该方法的一个应用是在密度矩阵映射的酉学习上进行演示 ϱ ( l ) = U ρ ( l ) U † \varrho^{(l)}=\mathcal{U} \rho^{(l)} \mathcal{U}^{\dagger} ϱ(l)=Uρ(l)U,在这种情况下,通过考虑 ρ ( l ) → ϱ ( l ) \sqrt{\rho^{(l)}} \to \sqrt{\varrho^{(l)}} ρ(l) ϱ(l) 映射可以构建关于 U \mathcal{U} U 的二次型保真度,并且在Kraus秩为 N s N_s Ns 的一般量子通道上, B s B_s Bs 的二次型保真度是一个近似 – 然后构建一个由酉映射层次结构组成的量子通道。该方法可以应用于研究退相干效应、自发相干、同步等现象。

论文链接: https://arxiv.org/pdf/2407.04406

在连续变量优化问题中,针对精度分解机器的函数平滑正则化退火

原标题: Function Smoothing Regularization for Precision Factorization Machine Annealing in Continuous Variable Optimization Problems

作者: Katsuhiro Endo, Kazuaki Z. Takahashi

机构: 国家先进工业科学技术研究院(AIST)

摘要: 通过因子分解机量子退火(FMQA)解决连续变量优化问题展示了 Ising 机器作为整数和实数优化问题求解器的潜力。然而,因子分解机(FM)获得的哈密顿函数表面的细节被忽视了。本研究表明,在实数通过二进制变量组合表示的普遍情况下,FM获得的哈密顿函数表面可能非常嘈杂。这种噪音干扰了量子退火的固有能力,并很可能是以往由于 FMQA 性能限制而被认为无法解决的问题的重要原因。噪音的来源已被确定,并提出了一种简单通用的方法来防止其发生。所提出方法的泛化性能以及解决实际问题的能力得到了展示。

论文链接: https://arxiv.org/pdf/2407.04393

一个具有非负高斯牛顿步长的自适应随机梯度方法

原标题: An Adaptive Stochastic Gradient Method with Non-negative Gauss-Newton Stepsizes

作者: Antonio Orvieto, Lin Xiao

机构: Antonio Orvieto∗Lin Xiao†
Antonio Orvieto∗ 林肖†

摘要: 我们考虑最小化大量平滑但可能非凸函数的平均值的问题。在大多数机器学习应用的背景下,每个损失函数都是非负的,因此可以表示为一个平方和其实值平方根的组合。这种重新表述使我们能够应用高斯-牛顿方法,或者在添加二次正则化时应用列文伯格-马夸特方法。得到的算法虽然在计算上与普通随机梯度方法一样高效,但非常适应性强,可以在跟踪非负损失景观的同时自动热身和衰减有效步长。我们提供了一项严格的收敛分析,利用了新技术,在随机凸和非凸设置中。特别是在凸情况下,该方法不需要访问梯度李普希茨常数以实现收敛,并且保证永远不会发散。收敛速度和实证评估与经典(随机)梯度方法以及其他几种自适应方法相比具有明显优势。

论文链接: https://arxiv.org/pdf/2407.04358

UpStory:乌普萨拉叙事数据集

原标题: UpStory: the Uppsala Storytelling dataset

作者: Marc Fraile, Natalia Calvo-Barajas, Anastasia Sophia Apeiron, Giovanna Varni, Joakim Lindblad, Nataša Sladoje, Ginevra Castellano

机构: 乌普萨拉大学

摘要: 友谊和融洽在建立积极社交互动中发挥着重要作用,并且由于对学生结果的影响,它们在教育环境中得到了广泛研究。鉴于通过机器学习(ML)自动分析这类现象的兴趣日益增长,访问带有注释的互动数据集具有极高的价值。然而,目前尚不存在一个明确捕捉融洽的双向儿童互动的数据集。此外,尽管在自动分析人类行为方面取得了进展,但以往的研究尚未涉及在教育环境中预测儿童之间的融洽的工作。我们介绍了UpStory - 乌普萨拉讲故事数据集:这是一个自然双向互动的新数据集,涉及小学生之间的互动,其中融洽经过实验性调整。年龄在8-10岁之间的儿童成对参与任务导向的活动:一起设计一个故事,同时允许在游戏区域内自由移动。我们通过使用被试内设计促进不同水平融洽的平衡收集:自我报告的友谊被用来两两配对每个孩子,要么最小化要么最大化友谊网络中的配对分离。该数据集包含35对数据,总计3小时40分钟的音频和视频记录。它包括两个视频源,覆盖游戏区域,以及每个孩子的单独语音记录。数据集的匿名版本已公开提供,其中包含每帧头部姿势、身体姿势和面部特征;以及每对信息,包括融洽水平。最后,我们为融洽的预测提供了机器学习基线。

论文链接: https://arxiv.org/pdf/2407.04352

通过基于表示的屏蔽提高部分遮挡的城市交通环境中自主代理的安全性

原标题: Enhancing Safety for Autonomous Agents in Partly Concealed Urban Traffic Environments Through Representation-Based Shielding

作者: Pierre Haritz, David Wanke, Thomas Liebig

摘要: 在城市环境中,自动驾驶车辆在无信号路口的导航面临着复杂挑战,诸如视野遮挡、不可预测的行人穿越以及多样化的交通参与者等问题要求在防止碰撞方面极度关注。本文提出了一种新颖的状态表示方法,用于强化学习(RL)智能体,其核心是自主智能体可感知的信息,从而实现对以前未知道路地图的安全导航。我们的方法在安全性和能源消耗指标方面显著超越了几个基准模型。这些改进是在保持竞争性平均行驶速度的同时实现的。我们的研究结果为更加健壮和可靠的自主导航策略铺平了道路,承诺使城市交通环境更安全、更高效。

论文链接: https://arxiv.org/pdf/2407.04343

理解不变性在迁移学习中的作用

原标题: Understanding the Role of Invariance in Transfer Learning

作者: Till Speicher, Vedant Nanda, Krishna P. Gummadi

机构: MPI-SWS

摘要: 迁移学习是一种强大的技术,用于在不同任务之间共享知识。最近的研究发现,具有某些不变性的模型表示,例如对对抗性输入扰动的不变性,在下游任务上实现了更高的性能。这些发现表明,在不同任务之间的知识迁移中,不变性可能是一个重要属性。然而,不变性与迁移性能的关系尚未完全理解,仍有许多问题待解决。例如,与预训练任务的其他因素相比,不变性有多重要?学习到的不变性有多容易迁移?在这项工作中,我们系统地研究了表示不变性对迁移学习的重要性,以及在预训练过程中它如何与其他参数交互。为此,我们引入了一系列合成数据集,使我们能够精确控制训练和测试数据中的变化因素。利用这些数据集,我们a)表明,为了学习具有高迁移性能的表示,对正确转换的不变性与其他大多数因素(如训练样本数量、模型架构和预训练类别的身份)一样重要,甚至更重要,b)展示了在哪些条件下不变性可能会损害迁移表示的能力,c)探讨了不同任务之间不变性的可迁移性。代码可在\url{this https URL}获取。

论文链接: https://arxiv.org/pdf/2407.04325

Github: https://github.com/tillspeicher/representation-invariance-transfer

通过个性化实现公平的联邦数据聚类:弥合不同数据分布之间的差距

原标题: Fair Federated Data Clustering through Personalization: Bridging the Gap between Diverse Data Distributions

作者: Shivam Gupta, Tarushi, Tsering Wangzes, Shweta Jain

摘要: 来自边缘设备的数据快速增长催生了机器学习算法的性能。然而,生成的数据存储在客户端设备上,因此传统机器学习范式面临主要两个挑战 - 为训练集中化数据和对于大多数生成的数据,类标签缺失,客户手动标记数据的动机非常低,原因是成本高昂且缺乏专业知识。为了克服这些问题,已经开始尝试使用无监督的联邦数据聚类以隐私保护的分布式方式处理未标记数据。目标是将客户端上可用的数据划分为 k k k个分区(称为簇),而无需实际交换数据。大多数现有算法高度依赖于客户端之间的数据分布模式,或者计算成本高昂。此外,由于在大多数实际场景中客户端之间数据呈现偏斜性,现有模型可能导致客户端承担高昂的聚类成本,使他们不愿参与联邦过程。因此,我们首次提出了联邦聚类中个性化的概念。目标是在服务器和客户端之间的单轮通信中实现在实现更低的聚类成本的同时实现客户端之间的成本均衡。我们提出了p-FClus,它在一轮通信中解决了这些目标。我们验证了p-FClus的有效性,展示了它的数据独立性特性,适用于任何有限的 ℓ \ell -范数,同时实现了更低的成本和方差。

论文链接: https://arxiv.org/pdf/2407.04302

利用图消息传递神经网络学习矢量多边形的几何不变特征进行分类

原标题: Learning Geometric Invariant Features for Classification of Vector Polygons with Graph Message-passing Neural Network

作者: Zexian Huang, Kourosh Khoshelham, Martin Tomko

机构: 墨尔本大学

摘要: 矢量多边形的几何形状分类仍然是空间分析中一个非平凡的学习任务。先前的研究主要集中在设计深度学习方法来表示栅格化的矢量多边形,而对多边形的离散表示及随后的深度学习方法的研究尚未得到充分调查。在这项研究中,我们研究了矢量多边形的图表示,并提出了一种新颖的图消息传递神经网络(PolyMP)来学习多边形形状分类的几何不变特征。通过大量实验,我们展示了多边形的图表示结合排列不变的图消息传递神经网络在基准数据集(即合成字形和真实建筑物轮廓数据集)上相比基准方法取得了高度稳健的性能。我们证明了所提出的基于图的PolyMP网络能够学习对多边形的几何变换(如平移、旋转、缩放和剪切)不变的表达性几何特征,并且对于多边形的微不足道的顶点移除具有鲁棒性。我们进一步展示了PolyMP的强大泛化能力,使其能够将从合成字形多边形中学到的几何特征泛化到真实世界建筑物轮廓中。

论文链接: https://arxiv.org/pdf/2407.04334

EAGERx:基于图的框架用于Sim2real机器人学习

原标题: EAGERx: Graph-Based Framework for Sim2real Robot Learning

作者: Bas van der Heijden, Jelle Luijkx, Laura Ferranti, Jens Kober, Robert Babuska

机构: 技术大学恩斯赫德

摘要: Sim2real,即从模拟环境到真实世界的控制策略转移,是机器人领域日益受到关注的一个领域,因为它有潜力有效处理复杂任务。Sim2real方法面临挑战,因为模拟和现实之间存在不匹配。这些差异源于对物理现象建模的不准确性和异步控制等因素。为此,我们介绍了EAGERx,这是一个统一软件管道框架,用于真实和模拟机器人学习。它可以支持各种模拟器,并帮助整合状态、动作和时间尺度抽象,以促进学习。EAGERx的集成延迟模拟、领域随机化功能和提出的同步算法有助于缩小sim2real差距。我们展示了EAGERx在容纳各种机器人系统和保持一致模拟行为方面的有效性(在机器人学习及其他领域)。EAGERx是开源的,其代码可在此网址获得。

论文链接: https://arxiv.org/pdf/2407.04328

其他链接: https://eagerx.readthedocs.io

SSP-GNN: 通过双层优化学习跟踪

原标题: SSP-GNN: Learning to Track via Bilevel Optimization

作者: Griffin Golias, Masa Nakura-Fan, Vitaly Ablavsky

机构: 华盛顿大学 应用物理实验室 保罗·艾伦计算机科学学院

摘要: 我们提出了一种基于图的多目标跟踪(MOT)公式,其中目标检测包含运动信息和重新识别特征(属性)。我们的方法将连续最短路径(SSP)算法应用于在一批帧上定义的跟踪图中。在这个跟踪图中,边的成本是通过消息传递网络计算的,即图神经网络(GNN)的变体。GNN的参数,因此也就是跟踪器,是在一个包含示例地面真实轨迹和检测的训练集上端到端地学习的。具体而言,学习采用我们新颖损失函数引导的双层优化形式。我们在模拟场景中评估我们的算法,以了解其对场景方面和模型超参数的敏感性。在各种场景复杂性中,我们的方法与强基线相比表现出色。

论文链接: https://arxiv.org/pdf/2407.04308

利用双层自适应有损压缩加速深度学习推荐模型训练中的通信

原标题: Accelerating Communication in Deep Learning Recommendation Model Training with Dual-Level Adaptive Lossy Compression

作者: Hao Feng, Boyuan Zhang, Fanjiang Ye, Min Si, Ching-Hsiang Chu, Jiannan Tian, Chunxing Yin, Zhaoxia (Summer)Deng, Yuchen Hao, Pavan Balaji, Tong Geng, Dingwen Tao

机构: 印第安纳大学 Meta 罗切斯特大学 中国科学院计算技术研究所

摘要: DLRM 是一种最先进的推荐系统模型,在各种行业应用中得到了广泛采用。然而,DLRM 模型的巨大规模需要使用多个设备/GPUs 进行高效训练。在这个过程中的一个重要瓶颈是耗时的全互连通信,需要从所有设备收集嵌入数据。为了缓解这一问题,我们引入了一种方法,利用误差有界的有损压缩来减少通信数据大小,加速 DLRM 训练。我们开发了一种新颖的误差有界的有损压缩算法,通过深入分析嵌入数据特征,实现高压缩比。此外,我们引入了一个双层自适应策略用于误差界限调整,涵盖表格级和迭代级两个方面,以平衡压缩带来的好处与对准确性的潜在影响。我们进一步优化了针对 GPU 上的 PyTorch 张量的压缩器,最小化压缩开销。评估表明,我们的方法实现了 1.38 倍的训练加速,几乎没有对准确性产生影响。

论文链接: https://arxiv.org/pdf/2407.04272

我们需要语音合成中的变化:说话者嵌入的子中心建模

原标题: We Need Variations in Speech Synthesis: Sub-center Modelling for Speaker Embeddings

作者: Ismail Rasim Ulgen, Carlos Busso, John H. L. Hansen, Berrak Sisman

机构: IEEE 学生会员,IEEE 赛尔洛斯·布索研究员,IEEE 约翰·H·L·汉森研究员,IEEE 成员,IEEE

摘要: 在语音合成中,对人类语音中丰富情感和语调变化的建模对于合成自然语音至关重要。尽管说话者嵌入已广泛用于个性化语音合成作为条件输入,但它们被设计为减少变化以优化说话者识别准确性。因此,在模拟输出语音分布中的丰富变化方面,它们对于语音合成来说并不是最佳选择。在这项工作中,我们提出了一种新颖的说话者嵌入网络,该网络在说话者分类训练中利用多个类中心,而不是传统嵌入中的单个类中心。所提出的方法在保持说话者识别性能的同时引入了说话者嵌入的变化,因为模型不必将说话者的所有话语映射到单个类中心。我们将我们提出的嵌入应用于语音转换任务,并展示我们的方法在合成语音中提供了更好的自然度和语调。

论文链接: https://arxiv.org/pdf/2407.04291

Langevin动力学:通过Lyapunov势函数对优化的统一视角

原标题: Langevin Dynamics: A Unified Perspective on Optimization via Lyapunov Potentials

作者: August Y. Chen, Ayush Sekhari, Karthik Sridharan

机构: 康奈尔大学 麻省理工学院

摘要: 我们研究了使用随机梯度 Langevin 动力学(SGLD)来解决非凸优化问题。SGLD 是随机梯度下降的一种自然且流行的变体,在每一步中,会添加适当缩放的高斯噪声。据我们所知,证明 SGLD 对损失函数的全局收敛的唯一策略是证明 SGLD 能够从一个分配更大质量给函数较小部分的静止分布中采样(Gibbs 测度),然后将这些保证转化为优化结果。

我们采用了一种新策略来分析 SGLD 收敛到全局最小值,基于 Lyapunov 势和优化。我们将先前关于 SGLD 的轻微条件转化为基于 Lyapunov 势的几何特性。这对于具有随机梯度预测的情况非常适用,这在机器学习应用中很自然,其中希望最小化总体损失,但只能通过小批量训练样本访问随机梯度。在这里,我们提供了以下内容:1)在研究 SGLD 用于优化的先前作品设置中改进的速率,2)SGLD 的第一个有限梯度复杂度保证,其中函数是 Lipschitz 的,由函数定义的 Gibbs 测度满足 Poincaré 不等式,以及3)证明如果连续时间 Langevin 动力学在优化中成功,那么在轻微正则性假设下,离散时间 SGLD 也会成功。

论文链接: https://arxiv.org/pdf/2407.04264

一个用于两人零和马尔可夫博弈的两步最小最大 Q-learning 算法

原标题: A Two-Step Minimax Q-learning Algorithm for Two-Player Zero-Sum Markov Games

作者: Shreyas S R, Antony Vijesh

摘要: 提出了一种有趣的迭代过程来解决两人零和马尔可夫博弈。首先将这个问题表达为一个极小-极大马尔可夫博弈。接下来,针对解决马尔可夫决策问题(MDP),对一个两步 Q-learning 算法进行适当修改以解决这个马尔可夫博弈。在适当的假设下,理论上获得了所提出迭代的有界性。利用随机逼近的结果,理论上获得了所提出的两步极小极大 Q-learning 的几乎必然收敛性。更具体地,当模型信息未知时,所提出的算法以概率一收敛到博弈论最优值。数值模拟证实了所提出的算法是有效且易于实现的。

论文链接: https://arxiv.org/pdf/2407.04240

通过里奇流进行图池化

原标题: Graph Pooling via Ricci Flow

作者: Amy Feng, Melanie Weber

机构: 哈佛大学

摘要: 图机器学习通常涉及根据图的拓扑结构和节点属性中编码的相似性对节点进行聚类。在同质图上,整合池化层已被证明可以通过考虑固有的多尺度结构来提升图神经网络的性能。在这种情况下,相似的节点被分组在一起以粗化图,并在更深层次的架构中减少后续层次中的输入大小。在这两种设置中,基础的聚类方法可以通过图池化算子实现,这些算子通常依赖于图论中的经典工具。在这项工作中,我们引入了一个图池化算子(ORC-Pool),它利用了通过Ollivier的离散Ricci曲率和相关几何流对图的几何特征进行表征。先前基于Ricci流的聚类方法在多个领域表现出了巨大的潜力,但由于构造的原因无法考虑节点属性中编码的相似性结构。然而,在许多机器学习应用中,这样的信息对于下游任务至关重要。ORC-Pool将这种聚类方法扩展到带属性的图中,允许将几何粗化整合到图神经网络中作为一个池化层。

论文链接: https://arxiv.org/pdf/2407.04236

TimeLDM:用于无条件时间序列生成的潜在扩散模型

原标题: TimeLDM: Latent Diffusion Model for Unconditional Time Series Generation

作者: Jian Qian, Miao Sun, Sifan Zhou, Biao Wan, Minhao Li, Patrick Chiang

机构: 复旦大学 南洋理工大学 东南大学

摘要: 时间序列生成是深度学习领域的一个关键研究课题,可用于数据增强、填补缺失值和预测。目前,潜在扩散模型正在成为许多重要数据表示的生成建模前沿。作为计算机视觉领域中最为关键的模型,潜在扩散模型最近也引起了其他社区的兴趣,包括自然语言处理、语音和几何空间。在这项工作中,我们提出了TimeLDM,一种用于高质量时间序列生成的新型潜在扩散模型。TimeLDM由一个变分自动编码器组成,将时间序列编码为信息丰富且平滑的潜在内容,以及在潜在空间中操作的潜在扩散模型来生成潜在信息。我们评估了我们的方法生成具有模拟和真实数据集的合成时间序列的能力,并将性能与现有最先进方法进行了基准测试。定性和定量分析表明,所提出的TimeLDM持续提供高质量的生成时间序列。来自Context-FID和Discriminative的分数表明,TimeLDM在平均改进方面分别优于当前最先进的基准方法3.4倍和3.8倍。进一步的研究表明,我们的方法在不同长度的时间序列数据生成上表现更好。据我们所知,这是第一项研究探索潜在扩散模型在无条件时间序列生成方面的潜力,并为合成时间序列建立了一个新的基准。

论文链接: https://arxiv.org/pdf/2407.04211

KAN-ODEs:Kolmogorov-Arnold 网络常微分方程,用于学习动力系统和隐藏物理。

原标题: KAN-ODEs: Kolmogorov-Arnold Network Ordinary Differential Equations for Learning Dynamical Systems and Hidden Physics

作者: Benjamin C. Koenig, Suyong Kim, Sili Deng

机构: 麻省理工学院 Massachusetts Institute of Technology

摘要: Kolmogorov-Arnold 网络(KANs)作为多层感知器(MLPs)的一种替代方案,是最近展示出强大数据建模潜力的一项新发展。这项工作将 KANs 应用作为神经常微分方程框架的支柱,将它们的使用推广到科学机器学习应用中经常遇到的时间相关和网格敏感情况。所提出的 KAN-ODEs 保留了神经常微分方程的灵活动力系统建模框架,同时利用了 KANs 的许多优势,包括更快的神经扩展、更强的可解释性,以及与 MLPs 相比更低的参数数量。我们在三个测试案例中展示了这些优势:Lotka-Volterra 捕食者-猎物模型、Burgers’ 方程和 Fisher-KPP 偏微分方程。我们展示了参数精简的 KAN-ODE 系统在重建整个动力系统方面的强大性能,以及在针对应用于已知流场中源项推断的定向应用中的表现。此外,我们通过激活函数可视化和对训练结果进行符号回归,展示了 KAN-ODEs 的可解释性。KAN-ODEs 的成功训练以及与传统神经常微分方程相比的性能改进意味着在众多科学机器学习应用中利用这种新颖网络架构的巨大潜力。

论文链接: https://arxiv.org/pdf/2407.04192

利用异常模式的复杂系统的机器学习方法:通过异常最大化离群点检测方法

原标题: Machine Learning for Complex Systems with Abnormal Pattern by Exception Maximization Outlier Detection Method

作者: Zhikun Zhang, Yiting Duan, Xiangjun Wang, Mingyuan Zhang

机构: 华中科技大学数学与统计学院 北京航空航天大学可靠性与系统工程学院 船舶综合动力系统科学技术国家重点实验室

摘要: 这篇论文提出了一种新颖的快速在线异常检测方法,称为异常最大化异常检测方法(EMODM),它利用概率模型和统计算法从复杂系统的输出中检测异常模式。EMODM基于双态高斯混合模型,在概率异常检测方面表现出很强的性能,可以处理实时原始数据,而无需使用特殊的先验分布信息。我们通过两个数值案例的合成数据来确认这一点。对于真实世界的数据,我们使用EMODM通过三相逆变器的电流和电压输出检测了电路系统的短路模式。EMODM还在美国53个地区2000年至2024年的失业保险数据中发现了由于COVID-19而导致的异常时期。将EMODM应用于这两个真实数据集展示了我们算法的有效性和准确性。

论文链接: https://arxiv.org/pdf/2407.04248

一个随机矩阵的直径:贝叶斯网络中敏感性分析的新度量

原标题: The diameter of a stochastic matrix: A new measure for sensitivity analysis in Bayesian networks

作者: Manuele Leonelli, Jim Q. Smith, Sophia K. Wright

机构: IE大学 维也纳大学 沃里克大学 图灵研究所

摘要: 贝叶斯网络是最广泛使用的概率模型类之一,用于风险管理和决策支持,因为其可解释性和灵活性,能够包含异构信息。在任何应用建模中,评估对某些目标变量的推断在模型变化时的稳健性至关重要。在贝叶斯网络中,这些分析属于敏感性分析范畴,最常用的方法是通过使用Kullback-Leibler信息度量来量化差异。在本文中,我们认为,基于熟知的总变差距离的稳健性方法提供了对误差规范性的简单且更有价值的界限,这些界限在形式上是可证明的且透明的。我们引入了一种称为直径的条件概率表中依赖性的新度量,以推导这些界限。这种度量量化了变量与其父变量之间的依赖关系强度。我们演示了如何将这种形式上的稳健性考虑融入构建贝叶斯网络中。

论文链接: https://arxiv.org/pdf/2407.04667

使用时空光流网络进行无监督的4D心脏运动跟踪

原标题: Unsupervised 4D Cardiac Motion Tracking with Spatiotemporal Optical Flow Networks

作者: Long Teng, Wei Feng, Menglong Zhu, Xinchao Li

机构: 深圳高等技术研究院 中国科学院大学 大疆创新 科技有限公司 深圳高等技术学院

摘要: 心脏超声心动图的心脏运动跟踪可以用来估计和量化心肌在心脏周期内的运动。这是一种成本效益高且有效的方法,用于评估心肌功能。然而,超声成像具有空间低分辨率和时间随机噪声的固有特性,导致难以获得可靠的注释。因此,进行运动跟踪的监督学习变得困难。此外,目前文献中没有端到端的无监督方法。本文提出了一种运动跟踪方法,其中设计了带有空间重建损失和时间一致性损失的无监督光流网络。我们提出的损失函数利用成对和时间相关性来估计从嘈杂背景中的心脏运动。使用合成的4D超声心动图数据集进行的实验显示了我们方法的有效性,以及在准确性和运行速度上优于现有方法。据我们所知,这是首次使用无监督端到端深度学习光流网络进行4D心脏运动跟踪的工作。

论文链接: https://arxiv.org/pdf/2407.04663

多翼梳状多普勒梅尔频谱图用于关键词检测

原标题: Multitaper mel-spectrograms for keyword spotting

作者: Douglas Baptista de Souza, Khaled Jamal Bakri, Fernanda Ferreira, Juliana Inacio

摘要: 关键词检测(KWS)是语音识别任务中对特征表示质量最为敏感的任务之一。然而,关于KWS的研究传统上主要集中在新模型拓扑上,对于特征提取等其他方面关注较少。本文研究了使用多锥技术来为KWS创建改进特征的方法。实验研究针对不同的测试场景、窗口和参数、数据集以及常用于嵌入式KWS应用中的神经网络进行。实验结果证实了使用所提出的改进特征的优势。

论文链接: https://arxiv.org/pdf/2407.04662

Lazarus:具有自适应专家放置的混合专家模型的弹性训练

原标题: Lazarus: Resilient and Elastic Training of Mixture-of-Experts Models with Adaptive Expert Placement

作者: Yongji Wu, Wenjie Qu, Tianyang Tao, Zhuang Wang, Wei Bai, Zhuohao Li, Yuan Tian, Jiaheng Zhang, Matthew Lentz, Danyang Zhuo

机构: 杜克大学 国立新加坡大学 亚马逊网络服务 全球科技公司 美国加州大学洛杉矶分校

摘要: 稀疏激活的专家混合(MoE)架构越来越被采用,以进一步扩展大语言模型(LLMs),因为它对计算成本的扩展是亚线性的。然而,随着训练规模的扩大,频繁的失败仍然带来重大挑战。即使是单个失败的成本也很高,因为所有 GPU 都需要等待空闲,直到故障得到解决,可能会由于训练必须从检查点重新开始而丢失大量的训练进度。现有的高效容错训练解决方案要么缺乏弹性,要么依赖于将弹性构建到管道并行性中,这种方法无法应用于 MoE 模型,因为 MoE 架构采用了专家并行策略。
我们提出了 Lazarus,这是一个用于弹性和容错训练 MoE 模型的系统。Lazarus 自适应地分配专家副本,以解决专家工作负载中固有的不平衡,并加快训练速度,同时开发了一个经过证明的最佳专家放置算法,以最大化在故障发生时的恢复概率。通过自适应的专家放置和灵活的令牌调度器,Lazarus 还可以在故障后充分利用所有可用节点,不让任何 GPU 空闲。我们的评估显示,在频繁的节点故障下,Lazarus 的性能优于现有的 MoE 训练系统高达 5.7 倍,并且在真实的实例跟踪上提高了 3.4 倍。

论文链接: https://arxiv.org/pdf/2407.04656

用于压缩角分辨光电发射光谱数据的自编码器

原标题: An autoencoder for compressing angle-resolved photoemission spectroscopy data

作者: Steinn Ymir Agustsson, Mohammad Ahsanul Haque, Thi Tam Truong, Marco Bianchi, Nikita Klyuchnikov, Davide Mottin, Panagiotis Karras, Philip Hofmann

机构: 奥尔胡斯大学 丹麦 迪拜联合阿拉伯酋长国

摘要: 角分辨光电发射谱(ARPES)是一种强大的实验技术,用于确定固体的电子结构。ARPES实验用光源的进步目前正导致数据采集速率和数据量大幅增加。另一方面,对最先进的ARPES仪器的访问时间仍然严格受限,需要快速、有效且即时的数据分析工具来利用这段时间。为了满足这一需求,我们介绍了ARPESNet,这是一个多功能的自动编码器网络,可以高效地总结和压缩ARPES数据集。我们在一个大型且多样化的数据集上训练ARPESNet,该数据集包括通过在 k \mathbf{k} k中沿随机方向切割标准的3维ARPES数据集而提取的2维ARPES数据。为了测试ARPESNet的数据表示能力,我们比较了通过ARPESNet压缩的数据、通过离散余弦变换压缩的数据以及原始数据在不同噪声水平下的 k k k均值聚类质量。尽管具有较高的压缩比,ARPESNet数据在聚类质量方面表现出色。

论文链接: https://arxiv.org/pdf/2407.04631

通过高阶累积量进行线性因果分解

原标题: Linear causal disentanglement via higher-order cumulants

作者: Paula Leyes Carreno, Chiara Meroni, Anna Seigal

机构: 哈佛大学 ETH-ITS 瑞士苏黎世分部

摘要: 线性因果分解是因果表示学习中的一种最新方法,通过具有它们之间因果依赖关系的潜变量描述一组观察变量。它可以被视为独立分量分析和线性结构方程模型的泛化。我们研究了线性因果分解的可识别性,假设可以访问在多个上下文下的数据,每个上下文由对潜变量的干预给出。我们表明,对每个潜变量进行一个完美的干预足以在完美干预下恢复参数,在最坏情况下必要,将以前的工作泛化为允许更多的潜变量而不是观察变量。我们给出了一个通过耦合张量分解计算参数的构造性证明。对于软干预,我们通过研究一组多项式方程来找到与观察数据一致的潜在图和参数的等价类。我们的结果假设存在非零高阶累积量,这意味着变量的非高斯性。

论文链接: https://arxiv.org/pdf/2407.04605

在生成模型中集成结构约束以发现量子材料候选物

原标题: Structural Constraint Integration in Generative Model for Discovery of Quantum Material Candidates

作者: Ryotaro Okabe, Mouyang Cheng, Abhijatmedhi Chotrattanapituk, Nguyen Tuan Hung, Xiang Fu, Bowen Han, Yao Wang, Weiwei Xie, Robert J. Cava, Tommi S. Jaakkola, Yongqiang Cheng, Mingda Li

机构: 麻省理工学院 美国 洛克菲勒大学 东北大学 安理大学 密歇根州立大学

摘要: 已知数十亿种有机分子,但仅有一小部分功能无机材料被发现,这对于寻找新的量子材料的社区来说是一个特别相关的问题。最近基于机器学习的生成模型,特别是扩散模型的进展,显示出生成新的稳定材料具有巨大潜力。然而,将几何图案整合到材料生成中仍然是一个挑战。在这里,我们介绍了结构约束集成生成模型(SCIGEN)。我们的方法可以通过在每个扩散步骤之前将去噪结构与扩散约束结构进行策略性屏蔽,以引导生成朝向受约束的输出。此外,我们在数学上证明了SCIGEN有效地从原始分布中执行条件抽样,这对于生成稳定的受约束材料至关重要。我们使用阿基米德格子作为原型约束生成了八百万种化合物,其中超过10%在多阶段稳定性预筛选中幸存。对26,000个幸存化合物进行高通量密度泛函理论(DFT)计算表明,超过50%在DFT水平上通过了结构优化。由于量子材料的性质与几何图案密切相关,我们的结果表明SCIGEN为生成量子材料候选提供了一个通用框架。

论文链接: https://arxiv.org/pdf/2407.04557

通过生成式人工智能重新思考网络上的图像压缩

原标题: Rethinking Image Compression on the Web with Generative AI

作者: Shayan Ali Hassan, Danish Humair, Ihsan Ayyub Qazi, Zafar Ayyub Qazi

机构: 拉合尔管理科学学院

摘要: 互联网的快速增长,受社交媒体、网页浏览和视频流媒体驱动,使图像成为网络体验的核心,导致数据传输量大幅增加,网页大小也在增加。传统的图像压缩方法虽然可以减少带宽,但往往会降低图像质量。本文探讨了一种新颖的方法,利用生成式人工智能在边缘或客户端重建图像。我们开发了一个框架,利用文本提示并提供额外的条件输入,如Canny边缘和调色板,输入到文本到图像模型中,在最佳情况下实现高达99.8%的带宽节省,在平均情况下为92.6%,同时保持高度的感知相似性。经验分析和用户研究表明,我们的方法比传统的压缩方法更有效地保留图像的含义和结构,为减少带宽使用量、提高互联网可负担性提供了一个有前景的解决方案,且图像质量的降级最小。

论文链接: https://arxiv.org/pdf/2407.04542

通过平坦多项式改进学习量子哈密顿量的算法

原标题: Improved algorithms for learning quantum Hamiltonians, via flat polynomials

作者: Shyam Narayanan

摘要: 我们提出了一种改进的算法,用于学习量子哈密顿量,通过给定其吉布斯态的副本,可以在任何温度下成功。具体来说,我们改进了 Bakshi、Liu、Moitra 和 Tang 的工作[BLMT24],通过将样本复杂度和运行时间的依赖关系降低到与逆温度参数的单指数成反比,而不是双指数。我们的主要技术贡献是对指数函数的新的平坦多项式逼近,其次数明显低于[BLMT24]中使用的平坦多项式逼近。

论文链接: https://arxiv.org/pdf/2407.04540

统一的连续时间Q学习用于均场博弈和均场控制问题

原标题: Unified continuous-time q-learning for mean-field game and mean-field control problems

作者: Xiaoli Wei, Xiang Yu, Fengyi Yuan

摘要: 本文从代表性智能体的角度研究了均场跳跃扩散模型中的连续时间Q学习。为了克服当人口分布可能无法直接观测时的挑战,我们引入了解耦形式的综合Q函数(解耦Iq函数),并建立了其与值函数的鞅特征,为均场博弈(MFG)和均场控制(MFC)问题提供了统一的策略评估规则。此外,根据解决MFG或MFC问题的任务,我们可以通过不同方式利用解耦Iq函数来学习均场均衡策略或均场最优策略。因此,我们通过利用所有源自均场相互作用的测试策略,为MFG和MFC问题设计了统一的Q学习算法。在跳跃扩散设置中的几个示例中,在LQ框架内和框架外,我们可以获得解耦Iq函数和值函数的精确参数化,并从代表性智能体的角度展示我们的算法,表现令人满意。

论文链接: https://arxiv.org/pdf/2407.04521

少样本气道树建模使用数据驱动稀疏先验

原标题: Few-Shot Airway-Tree Modeling using Data-Driven Sparse Priors

作者: Ali Keshavarzi, Elsa Angelini

机构: LTCI Telecom Paris Institut Polytechnique de Paris

摘要: 在医学影像领域,缺乏大规模标注数据集是监督式深度学习(DL)分割模型的固有负担。少样本学习方法是一种经济高效的解决方案,可以仅利用有限的标注数据来转移预训练模型。然而,这种方法在分割复杂、多样化和稀疏的管状结构(如气道)时,由于数据多样性有限,容易出现过拟合问题。此外,构建信息丰富的图像表示在医学影像领域发挥着至关重要的作用,可以实现解剖细节的区分增强。在本文中,我们首先训练一个数据驱动的稀疏化模块,以有效增强肺部CT扫描中的气道。然后,我们将这些稀疏表示结合到标准监督分割流程中作为预训练步骤,以提高DL模型的性能。在ATM公开挑战队列上呈现的结果显示,使用稀疏先验进行预训练在全尺度和少样本学习场景中分割Dice分数分别提高了1%到10%。

论文链接: https://arxiv.org/pdf/2407.04507

扩散模型的速度-准确性权衡:来自非平衡热力学和最优输运的智慧

原标题: Speed-accuracy trade-off for the diffusion models: Wisdom from nonequlibrium thermodynamics and optimal transport

作者: Kotaro Ikeda, Tomoya Uda, Daisuke Okanohara, Sosuke Ito

机构: 东京大学 优选网络公司 生物通用研究所

摘要: 我们讨论了一个生成模型(称为扩散模型)与离平衡热力学(称为随机热力学)中的福克-普朗克方程之间的联系。基于随机热力学的技术,我们推导了扩散模型的速度-准确性权衡,这是扩散模型中数据生成速度和准确性之间的权衡关系。我们的结果表明,正向过程中的熵产生速率会影响数据生成中的错误。从随机热力学的角度来看,我们的结果提供了如何在扩散模型中最佳生成数据的定量见解。最佳学习协议是通过随机热力学中的保守力和最优输运理论中的2-Wasserstein距离空间的测地线引入的。我们通过数值方法说明了在扩散模型中不同噪声时间表(如余弦时间表、条件最优输运和最优输运)下速度-准确性权衡的有效性。

论文链接: https://arxiv.org/pdf/2407.04495

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/笔触狂放9/article/detail/928642
推荐阅读
相关标签
  

闽ICP备14008679号