赞
踩
原标题: Solving a Stackelberg Game on Transportation Networks in a Dynamic Crime Scenario: A Mixed Approach on Multi-Layer Networks
作者: Sukanya Samanta, Kei Kimura, Makoto Yokoo
机构: Kyushu University
摘要: 用有限的警力拦截罪犯是一项具有挑战性的任务,因为罪犯会随着时间改变位置。大型交通网络的规模进一步增加了这种情况的难度。为了解决这个问题,我们考虑分层图的概念。在每个时间戳上,我们创建整个交通网络的副本,以跟踪攻击者和防御者的可能移动。我们考虑在动态犯罪场景中的 Stackelberg 博弈,其中攻击者随时间改变位置,而防御者试图在他的逃跑路线上拦截攻击者。给定一组防御者策略,通过在分层网络上应用 Dijkstra 算法确定最优攻击者策略。在这里,攻击者的目标是最小化,而防御者的目标是最大化拦截的概率。我们在分层网络上开发了一种近似算法,以找到防御者的近似最优策略。我们将开发的方法的效果与采用的 MILP 方法进行了比较。我们比较了计算时间和解决方案质量的结果。结果的质量证明了开发方法的必要性,因为它可以在短时间内有效地解决复杂问题。
论文链接: https://arxiv.org/pdf/2406.14514
原标题: IRASim: Learning Interactive Real-Robot Action Simulators
作者: Fangqi Zhu, Hongtao Wu, Song Guo, Yuxiao Liu, Chilam Cheang, Tao Kong
机构: 字节跳动研究、香港科技大学
摘要: 在现实世界中,可扩展的机器人学习受到真实机器人的成本和安全问题的限制。此外,在现实世界中推出机器人轨迹可能耗时且劳动密集。在本文中,我们提出学习交互式真实机器人动作模拟器作为一种替代方法。我们引入了一种新颖的方法,IRASim,它利用生成模型的力量生成执行给定动作轨迹的机器人手臂的极其逼真的视频,从初始给定帧开始。为了验证我们方法的有效性,我们基于三个真实机器人数据集创建了一个新的基准,IRASim基准,并在该基准上进行了大量实验。结果表明,IRASim优于所有基准方法,并在人类评估中更受青睐。我们希望IRASim能够作为增强现实世界中机器人学习的一种有效和可扩展的方法。为了推动生成式真实机器人动作模拟器的研究,我们在https://genthis http URL上开源了代码、基准和检查点。
论文链接: https://arxiv.org/pdf/2406.14540
Github: http://-irasim.github.io
原标题: Feature Fusion Based on Mutual-Cross-Attention Mechanism for EEG Emotion Recognition
作者: Yimin Zhao, Jin Gu
机构: 西南交通大学
摘要: 一个客观和准确的情绪诊断参考对于心理学家至关重要,特别是在处理因病理原因难以沟通的患者时。然而,目前基于脑电图(EEG)数据用于情绪辨别的系统存在一些问题,包括模型复杂度过高、准确性一般以及解释能力有限。因此,我们提出了一种新颖而有效的特征融合机制,名为相互交叉注意力(MCA)。结合特别定制的3D卷积神经网络(3D-CNN),这种纯数学机制巧妙地发现了脑电图数据中时间域和频率域特征之间的互补关系。此外,新设计的通道-功率谱密度-差分熵(Channel-PSD-DE)3D特征也有助于高性能的实现。所提出的方法最终在DEAP数据集上实现了99.49%(愉悦度)和99.30%(唤醒度)的准确性。
论文链接: https://arxiv.org/pdf/2406.14014
原标题: Proceedings of The second international workshop on eXplainable AI for the Arts (XAIxArts)
作者: Nick Bryan-Kinns, Corey Ford, Shuoyang Zheng, Helen Kennedy, Alan Chamberlain, Makayla Lewis, Drew Hemment, Zijin Li, Qiong Wu, Lanxi Xiao, Gus Xia, Jeba Rezwana, Michael Clemens, Gabriel Vigliensoni
摘要: 这次第二届可解释人工智能艺术国际研讨会(XAIxArts)汇集了人机交互、交互设计、人工智能、可解释人工智能(XAI)和数字艺术领域的研究人员,探讨了可解释人工智能在艺术中的作用。研讨会在第16届ACM创造力与认知会议(C&C 2024)上举行,地点为美国芝加哥。
论文链接: https://arxiv.org/pdf/2406.14485
原标题: A Benchmarking Study of Kolmogorov-Arnold Networks on Tabular Data
作者: Eleonora Poeta, Flavio Giobergia, Eliana Pastor, Tania Cerquitelli, Elena Baralis
机构: Politecnico di Torino
摘要: 科尔莫戈洛夫-阿诺德网络(KANs)最近被引入到机器学习领域,迅速引起了整个社区的关注。然而,KANs 主要被用于逼近复杂函数或处理合成数据的测试,而在真实的表格数据集上的测试目前尚缺乏。在本文中,我们提出了一项基准研究,比较了 KANs 和多层感知机(MLPs)在表格数据集上的表现。该研究评估了任务性能和训练时间。从各种数据集的结果来看,KANs 在准确度和 F1 分数上表现出优越或可比的表现,特别在具有大量实例的数据集中表现出色,表明对复杂数据的稳健处理。我们还强调,与相同规模的 MLPs 相比,KANs 的性能改进伴随着更高的计算成本。
论文链接: https://arxiv.org/pdf/2406.14529
Github: https://github.com/eleonorapoeta/benchmarking-kan
原标题: Enhancing Monotonic Modeling with Spatio-Temporal Adaptive Awareness in Diverse Marketing
作者: Bin Li, Jiayan Pei, Feiyang Xiao, Yifan Zhao, Zhixing Zhang, Diwei Liu, HengXu He, Jia Jia
机构: 阿里巴巴集团 口碑
摘要: 在移动互联网时代,在线食品订购服务(OFOS)由于其给人们带来的便利性而成为包容性金融的一个重要组成部分。OFOS平台通过多样化的营销活动向用户和商家提供动态分配激励,以鼓励支付并保持平台的预算效率。尽管取得了显著进展,但营销领域仍面临两个主要挑战:(一)如何以更高效的方式分配有限的预算,要求准确预测用户对激励的单调响应(即敏感性),以及(二)确保不同时间和地点的多样化营销活动具有时空适应性和鲁棒性。为了解决这些问题,我们提出了一种用于营销定价中时空感知的约束单调自适应网络(CoMAN)方法。具体而言,我们通过两个基础的时空感知模块捕捉属性特征中的时空偏好。为了进一步增强对用户在不同时间和地点对激励的敏感性差异的捕捉能力,我们设计了学习时空凸性和凹性以及表达敏感性函数的模块。CoMAN可以在定价过程中实现更高效的激励投资分配,从而提高转化率和订单量,同时保持预算效率。我们在多样化的营销活动中进行了广泛的离线和在线实验,证明了所提方法的有效性,并超过了单调的最先进方法。
论文链接: https://arxiv.org/pdf/2406.14132
原标题: Learning telic-controllable state representations
作者: Nadav Amir, Stas Tiomkin, Angela Langdon
机构: 普林斯顿大学 旧金山州立大学 国立心理健康研究所 国立卫生研究院
摘要: 计算行为的目的性的计算模型包括描述性和规范性两个方面。前者使智能体能够确定世界的当前(或未来)状态,后者用于评估这些状态与智能体目标之间的可取性或不可取性。在强化学习中,规范性方面(奖励和价值函数)被假设依赖于预定义和固定的描述性方面(状态表示)。或者,这两个方面可以相互依赖地出现:目标可以用状态表示特征来表达,但它们也可以用来塑造状态表示本身。在这里,我们通过目标导向或目的性状态的概念,阐述了有界智能体中状态表示学习的新理论框架。我们定义了一种新的可控性属性来描述目的性状态表示的粒度和达到所有目的性状态所需的策略复杂性之间的权衡。我们提出了一种学习可控状态表示的算法,并在一个具有变化目标的简单导航任务中进行了演示。我们的框架突出了有意识地忽略某些信息的重要作用,以学习既具有目标灵活性又简单的状态表示。更广泛地说,我们的工作为通过目标的视角提供了自然和人工学习统一理论视图的具体步骤。
论文链接: https://arxiv.org/pdf/2406.14476
原标题: DeciMamba: Exploring the Length Extrapolation Potential of Mamba
作者: Assaf Ben-Kish, Itamar Zimerman, Shady Abu-Hussein, Nadav Cohen, Amir Globerson, Lior Wolf, Raja Giryes
机构: 特拉维夫大学 谷歌研究
摘要: 长序列处理对于Transformer来说是一个重大挑战,因为它们在输入长度上具有二次复杂度。一种有希望的替代方法是Mamba,它在需要更少的计算资源的情况下展现出高性能,并实现了Transformer级别的能力。在本文中,我们探索了Mamba的长度泛化能力,发现其相对有限。通过一系列的可视化和分析,我们确定限制来自于训练过程中使用的序列长度所决定的受限有效感受野。为了解决这个限制,我们引入了DeciMamba,这是一种专门为Mamba设计的上下文扩展方法。这种机制建立在S6层内嵌的隐藏过滤机制之上,使得训练模型即使没有额外的训练也能够很好地外推。在真实世界的长距离自然语言处理任务上的实证实验表明,DeciMamba可以外推到比训练过程中见到的上下文长度长25倍的长度,而且不需要额外的计算资源。我们将发布我们的代码和模型。
论文链接: https://arxiv.org/pdf/2406.14528
Github: https://github.com/assafbk/decimamba
原标题: Measuring Sample Importance in Data Pruning for Training LLMs from a Data Compression Perspective
作者: Minsang Kim, Seungjun Baek
机构: 韩国大学
摘要: 大语言模型(LLMs)的计算效率训练已成为一个重要的研究问题。在这项工作中,我们将数据修剪视为LLMs的数据高效训练方法,其中我们对数据修剪采取了数据压缩的观点。我们认为样本的信息量,或者说其描述长度的可压缩性,代表了其样本重要性。关键思想是,信息较少的样本很可能包含冗余信息,因此应该首先进行修剪。我们利用训练模型的对数似然函数作为衡量样本信息内容的替代指标。实验证明,基于信息的修剪可以提高模型的泛化能力,相比于在整个数据集上训练的模型,在语言建模和下游任务上都有所改进。
论文链接: https://arxiv.org/pdf/2406.14124
原标题: EduQate: Generating Adaptive Curricula through RMABs in Education Settings
作者: Sidney Tio, Dexun Li, Pradeep Varakantham
机构: 新加坡管理大学
摘要: 在开发个性化和自适应教育工具方面,对学生个体学习进展的关注越来越大。在开发这样的工具时,一个关键的方面是探索如何以高效的方式在多样但相关的内容范围内实现掌握。虽然强化学习和多臂赌博机在教育环境中显示出了潜力,但现有的研究往往假设学习内容之间是独立的,忽视了这些内容之间普遍存在的相互依赖关系。为此,我们引入了教育网络不安定多臂赌博机(EdNetRMABs),利用网络来表示相互依赖的臂之间的关系。随后,我们提出了EduQate,一种采用依赖感知的Q学习方法,在每个时间步骤上对臂的选择进行明智决策。我们证明了EduQate的最优性保证,并使用从合成和真实世界数据建模的学生来证明其有效性,与基准策略进行比较。
论文链接: https://arxiv.org/pdf/2406.14122
原标题: Rewarding What Matters: Step-by-Step Reinforcement Learning for Task-Oriented Dialogue
作者: Huifang Du, Shuqin Li, Minghao Wu, Xuejing Feng, Yuan-Fang Li, Haofen Wang
机构: Tongji University Hangzhou Dianzi University Monash University
摘要: 强化学习(RL)是增强任务导向对话(TOD)系统的一种强大方法。然而,现有的RL方法往往主要关注生成任务,如对话策略学习(DPL)或回复生成(RG),而忽视了对话状态跟踪(DST)的理解。这种狭窄的关注限制了系统通过忽视理解和生成之间的相互依赖来实现全局最优性能。此外,RL方法面临着稀疏和延迟奖励的挑战,这使得训练和优化变得复杂。为了解决这些问题,我们通过在令牌生成过程中引入逐步奖励,将RL扩展到理解和生成任务。理解奖励随着DST中正确填充的插槽数量的增加而增加,而生成奖励则随着用户请求的准确包含而增加。我们的方法提供了与任务完成相一致的平衡优化。实验结果表明,我们的方法有效地提升了TOD系统的性能,并在包括MultiWOZ2.0、MultiWOZ2.1和In-Car在内的三个广泛使用的数据集上取得了最新的最优结果。与当前模型相比,我们的方法在资源有限的情况下也展现出卓越的少样本能力。
论文链接: https://arxiv.org/pdf/2406.14457
原标题: Fantastic Copyrighted Beasts and How (Not) to Generate Them
作者: Luxi He, Yangsibo Huang, Weijia Shi, Tinghao Xie, Haotian Liu, Yue Wang, Luke Zettlemoyer, Chiyuan Zhang, Danqi Chen, Peter Henderson
机构: 普林斯顿大学 华盛顿大学 威斯康星大学麦迪逊分校 南加州大学
摘要: 最近的研究表明,图像和视频生成模型可以被提示以复制其训练数据中的受版权保护的内容,这引发了关于侵犯版权的严重法律问题。特别是,受版权保护的角色对图像生成服务构成了一个困难的挑战,至少有一起诉讼已经根据生成这些角色而判决赔偿。然而,目前很少有研究对这个问题进行了实证研究。我们进行了系统评估以填补这一空白。首先,我们构建了一个评估套件CopyCat,其中包括多样化的受版权保护的角色和一个新颖的评估流程。我们的评估考虑了对受版权保护的角色相似性的检测以及生成图像与用户输入的一致性。我们的评估系统地显示,即使在提示中没有明确提到角色的名称,图像和视频生成模型仍然可以生成角色,有时仅使用两个通用关键词(例如,使用“电子游戏,水管工”作为提示始终生成任天堂的马里奥角色)。然后,我们引入了一些技术来半自动地识别触发角色生成的关键词或描述。使用我们的评估套件,我们研究了运行时缓解策略,包括现有方法和我们提出的新策略。我们的研究结果表明,常用的策略,如DALL-E系统中的提示重写,作为独立的防护措施是不足够的。这些策略必须与其他方法相结合,如负面提示,才能有效减少意外生成受版权保护的角色。我们的工作为版权缓解策略的讨论提供了实证基础,并为积极实施这些策略的模型部署者提供了可行的见解。
论文链接: https://arxiv.org/pdf/2406.14526
原标题: Deep Optimal Experimental Design for Parameter Estimation Problems
作者: Md Shahriar Rahim Siddiqui, Arman Rahmim, Eldad Haber
摘要: 优化实验设计是应用科学和工程中一个研究得很好的领域。在参数估计的框架内,用于估计这样一个设计的技术通常被广泛使用。然而,近年来,随着深度学习技术的引入取代传统的估计方法,参数估计技术正在快速变化。这反过来需要对与这些新技术相关的最优实验设计进行适应。在本文中,我们研究了一种使用深度学习的新实验设计方法。我们展示了将网络训练为无似然估计器可以显著简化设计过程,并规避非线性系统最优实验设计中固有的计算昂贵的双层优化问题的需求。此外,深度设计改善了参数估计问题的恢复过程的质量。作为概念验证,我们将我们的方法应用于两个不同的常微分方程系统。
论文链接: https://arxiv.org/pdf/2406.14003
原标题: APEER: Automatic Prompt Engineering Enhances Large Language Model Reranking
作者: Can Jin, Hongwu Peng, Shiyu Zhao, Zhenting Wang, Wujiang Xu, Ligong Han, Jiahui Zhao, Kai Zhong, Sanguthevar Rajasekaran, Dimitris N. Metaxas
机构: Rutgers University University of Connecticut
摘要: 大语言模型(LLMs)显著提升了信息检索(IR)在各个模块中的表现,如重新排序。尽管表现出色,当前基于LLMs的零样本相关性排序在很大程度上依赖于人工提示工程。现有的自动提示工程算法主要关注语言建模和分类任务,对于IR领域,特别是重新排序,尚未充分探索。由于输入中查询和长段落对的集成,其中排序复杂度超过分类任务,直接应用当前的提示工程算法来进行相关性排序是具有挑战性的。为了减少人力工作量并释放重新排序中提示优化的潜力,我们引入了一种名为APEER的新型自动提示工程算法。APEER通过反馈和偏好优化迭代生成精细的提示。对于四个LLMs和十个数据集的广泛实验表明,APEER相对于现有的最先进(SoTA)手动提示具有显著的性能改进。此外,我们发现APEER生成的提示在不同任务和LLMs之间具有更好的可转移性。代码可在此https URL找到。
论文链接: https://arxiv.org/pdf/2406.14449
Github: https://github.com/jincan333/APEER
原标题: Towards evolution of Deep Neural Networks through contrastive Self-Supervised learning
作者: Adriano Vinhas, João Correia, Penousal Machado
机构: University of Coimbra
摘要: 深度神经网络(DNNs)已成功应用于各种问题。然而,通常指出两个主要限制。第一个是它们需要很长时间来设计。另一个是它们严重依赖标记数据,有时这可能是昂贵且难以获取的。为了解决第一个问题,神经进化已被证明是自动设计DNNs的可行选择。至于第二个问题,自监督学习已被用来利用无标签数据来学习表示。我们的目标是研究神经进化如何帮助自监督学习在性能方面弥合到监督学习的差距。在这项工作中,我们提出了一个能够使用自监督学习演化深度神经网络的框架。我们在CIFAR-10数据集上的结果表明,可以在减少对标记数据依赖的同时演化出适当的神经网络。此外,对演化网络结构的分析表明,与依赖监督学习的个体相比,通过自监督学习学习的网络对其输入的标记数据量的影响较小。
论文链接: https://arxiv.org/pdf/2406.14525
原标题: Control when confidence is costly
作者: Itzel Olivos-Castillo, Paul Schrater, Xaq Pitkow
机构: 莱斯大学 明尼苏达大学 卡内基梅隆大学 贝勒医学院
摘要: 我们开发了一种考虑推理计算成本的随机控制版本。过去的研究确定了在没有控制的情况下的高效编码,或者在忽略合成信息成本的情况下的高效控制。在这里,我们将这些概念结合到一个框架中,其中代理人通过合理地近似推理来实现高效控制。具体而言,我们研究了具有后验概率相对精度的内部成本的线性二次高斯(LQG)控制。这会产生一个权衡:如果在推理过程中节省了足够的比特,代理人可以通过牺牲一些任务性能来获得更多的效用。我们发现,解决联合推理和控制问题的合理策略会根据任务需求经历相变,从代价高但最优的推理转变为一系列通过旋转变换相关的次优推理,每个推理都错误估计了世界的稳定性。在所有情况下,代理人更多地移动以减少思考。这项工作为一种新型的合理计算提供了基础,这种计算可以被大脑和机器用于高效但受计算限制的控制。
论文链接: https://arxiv.org/pdf/2406.14427
原标题: Two-Stage Depth Enhanced Learning with Obstacle Map For Object Navigation
作者: Yanwei Zheng, Shaopu Feng, Bowen Huang, Changrui Li, Xiao Zhang, Dongxiao Yu
机构: Shandong University
摘要: 需要一个智能体仅通过视觉观察导航到给定物体的任务称为视觉物体导航(VON)。VON 的主要瓶颈是策略探索和先验知识的利用。传统的策略探索忽略了搜索和导航阶段的差异,使用相同的奖励,这降低了导航性能和训练效率。我们的研究使智能体能够在搜索阶段探索更大的区域,并在导航阶段寻找最佳路径,提高了导航的成功率。传统的先验知识利用侧重于学习和利用物体关联,而忽略了环境中的深度和障碍信息。本文利用训练场景的 RGB 和深度信息对特征提取器进行预训练,提高了导航效率。智能体在导航过程中记忆障碍信息,降低了碰撞和僵局的概率。深度、障碍和其他先验知识被连接并输入到策略网络中,在两阶段奖励的训练下输出导航动作。我们在 AI2-Thor 和 RoboTHOR 上评估了我们的方法,并证明它在成功率和导航效率上显著优于最先进的方法。
论文链接: https://arxiv.org/pdf/2406.14103
原标题: UpDLRM: Accelerating Personalized Recommendation using Real-World PIM Architecture
作者: Sitian Chen, Haobin Tan, Amelie Chi Zhou, Yusen Li, Pavan Balaji
机构: 香港浸会大学 深圳大学 南开大学 Meta
摘要: 深度学习推荐模型(DLRM)由于在处理大规模推荐任务方面的有效性而在推荐系统中变得流行。DLRM的嵌入层由于对内存容量和内存带宽的密集需求而成为性能瓶颈。在本文中,我们提出了UpDLRM,它利用现实世界的处理内存(PIM)硬件UPMEM DPU来提升内存带宽并减少推荐延迟。DPU内存的并行性可以为嵌入查找中的大量不规则内存访问提供高聚合带宽,从而具有降低推理延迟的巨大潜力。为了充分利用DPU内存带宽,我们进一步研究了嵌入表分区问题,以实现良好的工作负载平衡和高效的数据缓存。使用真实世界数据集进行的评估表明,与仅使用CPU和CPU-GPU混合的对应方法相比,UpDLRM在DLRM的推理时间上实现了更低的延迟。
论文链接: https://arxiv.org/pdf/2406.13941
原标题: Graph Neural Networks for Job Shop Scheduling Problems: A Survey
作者: Igor G. Smit, Jianan Zhou, Robbert Reijnen, Yaoxin Wu, Jian Chen, Cong Zhang, Zaharah Bukhsh, Wim Nuijten, Yingqian Zhang
机构: 荷兰埃因霍温科技大学
摘要: 作业车间调度问题(JSSPs)代表了一类关键且具有挑战性的组合优化问题。近年来,图神经网络(GNNs)在解决JSSPs方面的应用迅速增加,尽管缺乏对相关文献的系统调查。本文旨在全面审查不同类型的JSSPs和密切相关的流水车间调度问题(FSPs)的主流GNN方法,特别是那些利用深度强化学习(DRL)的方法。我们首先介绍各种JSSPs的图表示,然后介绍最常用的GNN架构。然后,我们回顾当前针对每种问题类型的基于GNN的方法,重点介绍图表示、GNN架构、GNN任务和训练算法等关键技术要素。最后,我们总结和分析GNN在解决JSSPs方面的优势和局限性,并提供潜在的未来研究机会。我们希望这项调查能激发和启发创新的方法,以更强大的基于GNN的方法来解决JSSPs和其他调度问题。
论文链接: https://arxiv.org/pdf/2406.14096
原标题: CONMOD: Controllable Neural Frame-based Modulation Effects
作者: Gyubin Lee, Hounsu Kim, Junwon Lee, Juhan Nam
机构: KAIST (韩国科学技术院)
摘要: 深度学习模型在建模LFO驱动的音频效果(如相移器和涟漪器)方面得到了广泛应用。尽管现有的神经网络架构能够高质量地模拟单个效果,但它们不具备通过控制参数来操纵输出的能力。为了解决这个问题,我们引入了可控的基于神经网络框架的调制效果(CONMOD),这是一个单一的黑盒模型,以逐帧的方式模拟各种LFO驱动的效果,并提供对LFO频率和反馈参数的控制。此外,该模型能够学习两种不同相移器效果的连续嵌入空间,使我们能够在效果之间进行切换并实现创造性的输出。我们的模型在具备可控性和通用性的同时,优于以前的工作,为提升现代LFO驱动音频效果中的创造力提供了机会。
论文链接: https://arxiv.org/pdf/2406.13935
原标题: Personalized Music Recommendation with a Heterogeneity-aware Deep Bayesian Network
作者: Erkang Jing, Yezheng Liu, Yidong Chai, Shuo Yu, Longshun Liu, Yuanchun Jiang, Yang Wang
机构: Hefei University of Technology 中国合肥工业大学
摘要: 音乐推荐系统在音乐流媒体平台中至关重要,为用户提供他们喜欢的音乐。最近的研究表明,用户的情感可以影响他们的音乐情绪偏好。然而,现有的情感感知音乐推荐系统(EMRS)明确或隐含地假定用户通过相同的情感词表达的实际情感状态是同质的。他们还假定用户在相同情感状态下的音乐情绪偏好是同质的。在本文中,我们提出了四种EMRS应该考虑的异质性类型:用户之间的情感异质性、用户内部的情感异质性、用户之间的音乐情绪偏好异质性和用户内部的音乐情绪偏好异质性。我们进一步提出了一种异质性感知深度贝叶斯网络(HDBN)来模拟这些假设。HDBN模拟用户选择音乐的决策过程,包括四个组成部分:个性化先验用户情感分布建模、后验用户情感分布建模、用户分组和基于贝叶斯神经网络的音乐情绪偏好预测。我们构建了一个名为EmoMusicLJ的大规模数据集来验证我们的方法。广泛的实验表明,我们的方法在广泛使用的HR和NDCG推荐指标上显著优于基线方法。消融实验和案例研究进一步验证了我们的HDBN的有效性。源代码可在此https URL获得。
论文链接: https://arxiv.org/pdf/2406.14090
Github: https://github.com/jingrk/HDBN
原标题: V-LASIK: Consistent Glasses-Removal from Videos Using Synthetic Data
作者: Rotem Shalev-Arkushin, Aharon Azulay, Tavi Halperin, Eitan Richardson, Amit H. Bermano, Ohad Fried
机构: Lightricks、Tel Aviv University、Reichman University
摘要: 最近,基于扩散的生成模型展现出了卓越的图像和视频编辑能力。然而,局部视频编辑,特别是去除眼镜等小细节,仍然是一个挑战。现有方法要么过度改变视频,要么生成不真实的伪影,要么无法在整个视频中一致地执行所请求的编辑。在这项工作中,我们专注于在视频中一致且保留身份的去除眼镜,将其作为视频中一致去除局部属性的案例研究。由于缺乏配对数据,我们采用弱监督方法,并使用调整后的预训练扩散模型生成合成的不完美数据。我们展示,尽管数据存在缺陷,通过从我们生成的数据中学习并利用预训练扩散模型的先验知识,我们的模型能够在保留原始视频内容的同时一致执行所需的编辑。此外,我们通过成功将其应用于面部贴纸去除,展示了我们方法对其他局部视频编辑任务的泛化能力。我们的方法显示出明显的改进,展示了利用合成数据和强视频先验知识进行局部视频编辑任务的潜力。
论文链接: https://arxiv.org/pdf/2406.14510
原标题: Semi Supervised Heterogeneous Domain Adaptation via Disentanglement and Pseudo-Labelling
作者: Cassio F. Dantas (EVERGREEN, INRAE), Raffaele Gaetano (EVERGREEN), Dino Ienco (EVERGREEN)
摘要: 半监督领域自适应方法利用来自标记源域的信息,旨在推广到稀疏标记的目标域。虽然这种设置已经由于域之间的潜在分布偏移而带来了挑战,但当源数据和目标数据在模态表示上不同时(例如,它们是由具有不同特征的传感器获取的)时,甚至会出现更复杂的情况。例如,在遥感中,图像可以通过各种获取模式(例如,光学或雷达)、不同的光谱特性(例如,RGB或多光谱)和空间分辨率进行收集。这种情况被称为半监督异构域自适应(SSHDA),由于模态异质性,它展现出更严重的分布偏移。为了应对具有挑战性的SSHDA设置,我们介绍了SHeDD(通过解缠半监督异构域自适应),这是一个端到端的神经框架,旨在通过利用来自异构数据源的标记和未标记数据来学习目标域分类器。SHeDD旨在有效地解缠域不变表示,这对于下游任务是相关的,以及域特定信息,这可能会妨碍跨模态转移。此外,SHeDD采用了一种基于增强的一致性正则化机制,利用未标记目标样本上的可靠伪标签进一步提高其在目标域上的泛化能力。在两个遥感基准测试中进行的实证评估,包括获取模式和光谱/空间分辨率方面的异构数据,证明了SHeDD相对于基线和最先进的竞争方法的质量。我们的代码在此处公开可用:this https URL
论文链接: https://arxiv.org/pdf/2406.14087
Github: http://domains.To https://github.com/tanodino/sshda
原标题: Robustness Analysis of AI Models in Critical Energy Systems
作者: Pantelis Dogoulis, Matthieu Jimenez, Salah Ghamizi, Maxime Cordy, Yves Le Traon
摘要: 本文分析了基于最新人工智能模型在电网运营中在 N − 1 N-1 N−1安全准则下的鲁棒性。尽管这些模型在常规电网环境中表现良好,但我们的结果突出显示在断开一条线路后准确性显著下降。通过基于图论的分析,我们展示了节点连接性对这种损失的影响。我们的发现强调了在开发关键基础设施的人工智能方法时需要考虑实际情景。
论文链接: https://arxiv.org/pdf/2406.14361
原标题: Teaching Models To Survive: Proper Scoring Rule and Stochastic Optimization with Competing Risks
作者: Julie Alberge (SODA), Vincent Maladière, Olivier Grisel, Judith Abécassis (SODA), Gaël Varoquaux (SODA)
机构: Inria Saclay 巴莱索,法国 probabl. 巴黎,法国
摘要: 当数据被右侧截断时,即由于有限的观察期限导致一些结果缺失时,生存分析可以计算“事件发生时间”。多类结果导致了一个分类变体:预测最可能的事件,即竞争风险,这方面的研究较少。为了构建一个估计这种情况下结果概率的损失函数,我们引入了一个严格适当的截断调整可分离评分规则,可以在数据的一部分上进行优化,因为评估是独立于观察的。它使得我们能够使用随机优化来处理竞争风险,我们用它来训练梯度提升树。与其他11种最先进的模型相比,这个模型,MultiIncidence,在生存和竞争风险中最好地估计了结果的概率。它可以在任何时间范围内进行预测,并且比现有的替代方法快得多。
论文链接: https://arxiv.org/pdf/2406.14085
原标题: On Newton’s Method to Unlearn Neural Networks
作者: Nhung Bui, Xinyang Lu, See-Kiong Ng, Bryan Kian Hsian Low
机构: 新加坡国立大学 计算机科学系 新加坡国立大学数据科学研究所
摘要: 机器遗忘有助于个人数据所有权,包括“被遗忘的权利”。在使用用户个人数据训练的神经网络(NN)的应用不断增加的情况下,需要开发算法来遗忘一个NN。由于重新训练成本高昂,通常通过近似遗忘来实现效率,其目标是将训练过的NN遗忘得接近重新训练的NN(在分布上)。尽管牛顿法已被先前的研究用于近似遗忘线性模型,但将其用于遗忘NN通常会遇到使计算牛顿更新变得不可能的退化海森矩阵。在本文中,我们首先将展示,当与缓解遗忘退化问题的天真但通常有效的解决方案相结合时,牛顿法出人意料地会遭受灾难性遗忘。为了克服这个困难,我们修正了牛顿法,加入了一个在理论上得到证明的正则化器,并提出了一种用于遗忘NN的立方正则化牛顿法。立方正则化器具有不需要手动微调和自然解释的优点。在几个模型和真实世界数据集上的实证评估表明,我们的方法对灾难性遗忘更具弹性,并且表现优于基准方法,特别是在顺序遗忘中。
论文链接: https://arxiv.org/pdf/2406.14507
原标题: iWISDM: Assessing instruction following in multimodal models at scale
作者: Xiaoxuan Lei, Lucas Gomez, Hao Yuan Bai, Pouya Bashivan
机构: 麦吉尔大学 McGill University
摘要: 能够根据详细指令执行复杂任务的能力是我们物种许多显著成就的关键。作为人类,我们不仅能够执行各种各样的任务,还能够执行非常复杂的任务,这些任务可能需要完成数百或数千个步骤。大语言模型及其更近期的多模态对应物,将文本和视觉输入整合在一起,已经在执行复杂任务方面取得了前所未有的成功。然而,大多数现有的基准测试主要局限于单模态输入(文本或视觉),限制了多模态评估的范围,特别是在多模态上下文中遵循指令。为了弥合这一差距,我们引入了指导虚拟视觉决策(iWISDM)环境,旨在生成各种复杂程度的视觉语言任务的无限数组。使用iWISDM,我们编制了三个不同的基准测试,涵盖了不同复杂级别的视觉任务的指令遵循。我们评估了几个新开发的多模态模型在这些基准测试上的表现。我们的研究结果将iWISDM确立为评估现有和新兴多模态模型的指令遵循能力的强有力基准,并突显了这些模型在精确遵循指令方面与人类之间存在很大差距。
论文链接: https://arxiv.org/pdf/2406.14343
原标题: Optimizing Speculative Decoding for Serving Large Language Models Using Goodput
作者: Xiaoxuan Liu, Cade Daniel, Langxiang Hu, Woosuk Kwon, Zhuohan Li, Xiangxi Mo, Alvin Cheung, Zhijie Deng, Ion Stoica, Hao Zhang
机构: UC Berkeley Anyscal Inc. UCSD SJTU
摘要: 减少大型语言模型(LLMs)的推理延迟至关重要,而推测解码(SD)是最有效的技术之一。推测解码不是让LLM直接生成所有标记,而是使用有效的代理来预测潜在的输出,然后由LLM验证,而不会影响生成质量。然而,在实际的在线LLM服务系统(连续批处理)中部署SD并不总是能提高性能 - 在更高的请求率或低推测准确性下,它反而会增加延迟。此外,在不同系统负载下,并没有适用于所有工作负载的最佳推测长度。基于这些观察,我们开发了一个动态框架SmartSpec。SmartSpec根据一个称为goodput的新指标动态确定每个请求的最佳推测长度(从0,即无推测,到多个标记) - 因此与推测执行成本相关 - goodput描述了整个系统的当前观察负载和推测准确性。我们展示了SmartSpec相对于非推测解码基线,在不同大小的目标模型、草稿模型、请求率和数据集上,平均请求延迟可以减少多达3.2倍。此外,SmartSpec可以应用于不同类型的推测解码,包括传统的基于模型的方法以及基于模型的方法,如提示查找和树状解码。
论文链接: https://arxiv.org/pdf/2406.14066
原标题: Revealing Vision-Language Integration in the Brain with Multimodal Networks
作者: Vighnesh Subramaniam, Colin Conwell, Christopher Wang, Gabriel Kreiman, Boris Katz, Ignacio Cases, Andrei Barbu
机构: 麻省理工学院 百度谷歌
摘要: 我们使用(多)模态深度神经网络(DNN)来探测人类大脑中的多模态整合位点,通过预测人类观看电影时记录的立体脑电图(SEEG)信号。我们将多模态整合位点操作化为多模态视觉语言模型预测记录优于单模态语言、单模态视觉或线性整合语言-视觉模型的区域。我们的目标DNN模型涵盖不同的架构(例如卷积网络和Transformer)和多模态训练技术(例如交叉注意力和对比学习)。作为关键的启用步骤,我们首先证明训练好的视觉和语言模型在预测SEEG信号方面比随机初始化的模型表现更好。然后我们将单模态和多模态模型进行比较。由于我们的目标DNN模型通常具有不同的架构、参数数量和训练集(可能掩盖了归因于整合的差异),因此我们进行了两个模型(SLIP和SimCLR)的对比实验,这两个模型除了输入模态外,所有属性都相同。使用这种方法,我们确定了大量神经位点(平均1090个位点中的141个或12.94%),以及多模态整合似乎发生的脑区。此外,我们发现,在我们评估的多模态训练技术变体中,CLIP风格的训练最适合下游预测这些位点的神经活动。
论文链接: https://arxiv.org/pdf/2406.14481
原标题: How to design a dataset compliant with an ML-based system ODD?
作者: Cyril Cappi, Noémie Cohen, Mélanie Ducoffe, Christophe Gabreau, Laurent Gardes, Adrien Gauffriau, Jean-Brice Ginestet, Franck Mamalet, Vincent Mussot, Claire Pagetti, David Vigouroux
机构: SNCF Airbus DGA IRT Saint Exupéry ONERA
摘要: 本文关注基于视觉的着陆任务,并介绍了设计和验证与机器学习系统的操作设计域(ODD)相符的数据集。依靠新兴的认证标准,我们描述了在系统和图像级别建立ODD的过程。在这个过程中,我们将高级系统约束转化为可操作的图像级属性,从而定义可验证的数据质量要求(DQRs)。为了说明这种方法,我们使用了Landing Approach Runway Detection(LARD)数据集,该数据集结合了合成图像和真实镜头,并重点关注验证DQRs所需的步骤。本文提出的可复制框架解决了设计符合安全关键应用中基于机器学习系统认证的严格需求的数据集的挑战。
论文链接: https://arxiv.org/pdf/2406.14027
原标题: Cross-level Requirement Traceability: A Novel Approach Integrating Bag-of-Words and Word Embedding for Enhanced Similarity Functionality
作者: Baher Mohammad, Riad Sonbol, Ghaida Rebdawi
机构: Higher Institute for Applied Sciences and Technology (HIAST)
摘要: 需求追踪是识别需求之间相互依赖关系的过程。当手动进行时,尤其是在处理不同抽象级别的需求时,这会带来重大挑战。在这项工作中,我们提出了一种新颖的方法,自动化将高层业务需求与更多技术系统需求进行关联的任务。所提出的方法首先通过使用词袋(BOW)模型结合词项频率-逆文档频率(TF-IDF)评分函数来表示每个需求。然后,我们提出了一种增强的余弦相似度,利用了词嵌入表示的最新进展来纠正传统余弦相似度函数的局限性。为了评估我们方法的有效性,我们在三个知名数据集上进行了实验:COEST、WARC(NFR)和WARC(FRS)。结果表明,我们的方法相比现有方法显著提高了效率。在其中一个数据集中,我们的方法取得了约18.4%的提高,这是通过F2分数来衡量的。
论文链接: https://arxiv.org/pdf/2406.14310
原标题: SafeSora: Towards Safety Alignment of Text2Video Generation via a Human Preference Dataset
作者: Josef Dai, Tianle Chen, Xuyao Wang, Ziran Yang, Taiye Chen, Jiaming Ji, Yaodong Yang
机构: Peking University
摘要: 为了减轻大型视觉模型(LVM)产生有害输出的风险,我们引入了SafeSora数据集,以促进与人类价值观一致的文本到视频生成的研究。该数据集包含文本到视频生成任务中的人类偏好的两个主要维度:有帮助性和无害性。为了捕捉深入的人类偏好并促进众包工人的结构化推理,我们将有帮助性细分为4个子维度,将无害性细分为12个子类别,作为初步注释的基础。SafeSora数据集包括14,711个独特的提示,由4个不同的LVM生成的57,333个独特视频,以及由人类标注的51,691对偏好注释。我们进一步通过几个应用程序展示了SafeSora数据集的实用性,包括训练文本-视频调节模型以及通过微调提示增强模块或扩散模型来使LVM与人类偏好一致。这些应用程序突显了SafeSora数据集作为文本到视频对齐研究的基础的潜力,例如人类偏好建模以及对齐算法的开发和验证。
论文链接: https://arxiv.org/pdf/2406.14477
Github: https://github.com/pku-alignment/safe-sora
原标题: Research on Flight Accidents Prediction based Back Propagation Neural Network
作者: Haoxing Liu, Fangzhou Shen, Haoshen Qin and, Fanru Gao
机构: 上海吉祥航空有限公司 三藩市州立大学 佛罗里达大学 凯斯西储大学
摘要: 随着民航业的快速发展和人们生活水平的显著提高,乘坐飞机已成为一种常见且高效的旅行方式。然而,由于飞机的飞行特性和机身结构的复杂性,飞行延误和飞行事故时有发生。此外,飞机事故后带来的生命风险因素也是所有交通方式中最高的。在这项工作中,我们使用基于反向传播神经网络的模型来预测飞行事故。通过收集历史飞行数据,包括气象条件、飞机技术状况和飞行员经验等各种因素,我们训练了一个反向传播神经网络模型来识别潜在的事故风险。在模型设计中,采用了多层感知器结构,通过调整隐藏层节点数和学习率来优化网络性能。实验分析表明,该模型能够以高准确性和可靠性有效预测飞行事故。
论文链接: https://arxiv.org/pdf/2406.13954
原标题: Fusion of Movement and Naive Predictions for Point Forecasting in Univariate Random Walks
作者: Cheng Zhang
机构: 华中理工大学
摘要: 传统的单变量随机游走点预测方法通常由于数据的不可预测性而无法超越朴素基准。本研究介绍了一种新颖的预测方法,将运动预测(二元分类)与朴素预测相融合,实现准确的一步点预测。该方法的有效性通过理论分析、模拟和真实世界数据实验得到证明。它可靠地超越朴素预测,即使运动预测准确率低至0.55,也能在预测S&P 500指数和比特币价格时优于基线模型,如ARIMA、线性回归、MLP和LSTM网络。当准确的点预测具有挑战性,但准确的运动预测是可实现的时,这种方法特别有优势,可以将运动预测转化为随机游走环境下的点预测。
论文链接: https://arxiv.org/pdf/2406.14469
原标题: AI in Space for Scientific Missions: Strategies for Minimizing Neural-Network Model Upload
作者: Jonah Ekelund, Ricardo Vinuesa, Yuri Khotyaintsev, Pierre Henri, Gian Luca Delzanno, Stefano Markidis
机构: KTH皇家理工学院 瑞典
摘要: 人工智能(AI)有潜力通过将几个航天器的决策委托给机载AI来改变太空探索,而不是依赖地面控制和预定义的程序。航天器上可能会有一个AI/ML处理单元,运行一个推理引擎。神经网络将预先安装的参数,可以通过上传、通过遥控命令,在地面训练获得的参数进行更新。然而,卫星上行链路带宽有限,传输成本较高。此外,使用次优的神经网络的任务将错过宝贵的科学数据。较小的网络可以降低上行链路成本,同时增加下载的科学数据的价值。在这项工作中,我们评估和讨论使用降低精度和最低限度的神经网络来减少上传时间的方法。作为一个AI应用案例的例子,我们关注NASA的磁层多尺度(MMS)任务。我们展示了如何在地球磁层中使用机载AI来对数据进行分类,以选择性地下载更高价值的数据,或者识别感兴趣的区域以触发高速采集数据的爆发模式。使用简单的过滤方案和算法,我们展示了如何在一系列分类中检测感兴趣区域的起始和结束。为了提供分类,我们使用一个经过训练准确率>94%的已建立的卷积神经网络(CNN)。我们还展示了如何将网络减少到一个单一的线性层,并训练到与已建立的CNN相同的准确率。从而将模型的整体大小减少了高达98.9%。我们进一步展示了如何通过使用较低精度格式来表示网络参数,将每个网络的原始大小减少高达75%,准确率变化小于0.6个百分点。
论文链接: https://arxiv.org/pdf/2406.14297
原标题: Centimeter Positioning Accuracy using AI/ML for 6G Applications
作者: Sai Prasanth Kotturi, Radha Krishna Ganti
机构: Indian Institute of Technology Madras
摘要: 这项研究探讨使用人工智能/机器学习在6G应用中实现厘米级用户定位,例如工业物联网(IIoT)。初步结果表明,我们基于人工智能/机器学习的方法可以在室内工厂环境中以17厘米的精度估计用户位置。在这个提案中,我们强调了我们的方法和未来方向。
论文链接: https://arxiv.org/pdf/2406.14458
原标题: Q: Improving Multi-step Reasoning for LLMs with Deliberative Planning*
作者: Chaojie Wang, Yanchen Deng, Zhiyi Lv, Shuicheng Yan, An Bo
机构: Nanyang Technological University Skywork AI
摘要: 大语言模型(LLMs)在许多自然语言任务中展示了令人印象深刻的能力。然而,自回归生成过程使得LLMs在进行多步推理时容易产生错误、幻觉和不一致的陈述。在本文中,我们旨在通过引入Q*,一个通用、多功能和灵活的框架,来缓解这种病理。通过学习一个即插即用的Q值模型作为启发式函数,我们的Q*可以有效地引导LLMs选择最有前途的下一步,而无需为每个任务微调LLMs,从而避免了显著的计算开销和在其他任务上性能退化的潜在风险。在GSM8K、MATH和MBPP上进行了大量实验证实了我们方法的优越性。
论文链接: https://arxiv.org/pdf/2406.14283
原标题: Graph Representation Learning Strategies for Omics Data: A Case Study on Parkinson’s Disease
作者: Elisa Gómez de Lope (1), Saurabh Deshpande (1), Ramón Viñas Torné (2), Pietro Liò (3), Enrico Glaab (1 and 4), Stéphane P. A. Bordas (1) ((1) University of Luxembourg, (2) École polytechnique fédérale de Lausanne (EPFL), (3) University of Cambridge, (4) On behalf of the NCER-PD Consortium)
机构: University of Luxembourg Ecole polytechnique fédérale de Lausanne (EPFL) University of Cambridge Luxembourg Center for Systems Biomedicine
摘要: 组学数据分析对于研究复杂疾病至关重要,但其高维度和异质性挑战了传统的统计和机器学习方法。图神经网络已经成为有希望的替代方法,但在真实世界的生物医学挑战中,它们的设计和优化策略仍不清楚。本研究评估了各种图表示学习模型在使用帕金森病和对照样本的高通量生物数据进行病例对照分类时的效果。我们比较了从样本相似性网络和分子相互作用网络中得出的拓扑结构,包括蛋白质-蛋白质和代谢物-代谢物相互作用(PPI,MMI)。图卷积网络(GCNs)、切比雪夫谱图卷积(ChebyNet)和图注意力网络(GAT)与图变换器、图U-net以及更简单的多层感知器(MLP)等先进架构进行了评估。
这些模型分别应用于转录组学和代谢组学数据。我们的比较分析突出了各种架构在从组学数据中提取模式方面的优点和局限性,为生物医学研究中更准确和可解释的模型铺平了道路。
论文链接: https://arxiv.org/pdf/2406.14442
原标题: The Impact of AI on Perceived Job Decency and Meaningfulness: A Case Study
作者: Kuntal Ghosh, Shadan Sadeghian
机构: 德国西格恩大学
摘要: 人工智能(AI)在工作场所的普及有望改变人类的工作方式,工作满意度与工作生活密切相关。现有的关于人工智能与人类合作的研究往往将绩效置于工作体验的重要性之上。相比之下,本文探讨了人工智能对工作的体面性和意义性的影响。通过对信息技术(IT)领域的访谈,我们不仅研究了当前的工作环境,还探讨了引入人工智能后工作场所生态系统的变化。初步的探索性研究结果显示,受访者倾向于将工作场所设想为人类继续发挥主导作用的地方,即使引入了先进的人工智能。在这种前景下,人工智能被视为对人力资源的补充,而不是取代。此外,受访者认为引入人工智能将维持或可能增加整体工作满意度。
论文链接: https://arxiv.org/pdf/2406.14273
原标题: Intelligent Interface: Enhancing Lecture Engagement with Didactic Activity Summaries
作者: Anna Wróblewska, Marcel Witas, Kinga Frańczak, Arkadiusz Kniaź, Siew Ann Cheong, Tan Seng Chee, Janusz Hołyst, Marcin Paprzycki
机构: 华沙理工大学 数学与信息科学学院 华沙 波兰
摘要: 最近,机器学习的多个应用被引入。它们包括在广义上理解的视频流中应用图像分析方法时出现的各种可能性。在这个背景下,开发了一种新的工具,用于学术教育工作者通过自动化、总结和提供即时反馈来增强教学过程。实施的原型利用基于机器学习的技术来识别讲座视频录像中选择的教学和行为特征。
具体而言,用户(教师)可以上传他们的讲座视频,这些视频经过预处理和分析,使用机器学习模型。接下来,用户可以通过交互式图表和表格查看识别到的教学特征的摘要。此外,存储的基于机器学习的预测结果支持基于教学内容对讲座进行比较。在开发的应用中,采用了基于讲座转录的文本模型,通过采用自动语音识别解决方案来提高转录质量。此外,该系统还提供了灵活性,可以(未来)集成新的/附加的机器学习模型和用于图像和视频分析的软件模块。
论文链接: https://arxiv.org/pdf/2406.14266
原标题: CollaFuse: Collaborative Diffusion Models
作者: Simeon Allmendinger, Domenique Zipperling, Lukas Struppek, Niklas Kühl
机构: University of Bayreuth Fraunhofer FIT Technical University of Darmstadt German Research Center for Artificial Intelligence (DFKI)
摘要: 在生成人工智能领域,基于扩散的模型已经成为生成合成图像的一种有前景的方法。然而,扩散模型的应用带来了许多挑战,特别是涉及数据可用性、计算需求和隐私方面的挑战。传统的解决这些缺点的方法,比如联邦学习,通常会给个体客户带来重大的计算负担,尤其是那些资源受限的客户。针对这些挑战,我们提出了一种受分布式学习启发的分布式协作扩散模型的新方法。我们的方法促进了扩散模型的协作训练,同时在图像合成过程中减轻了客户端的计算负担。通过在常见的CelebA数据集上进行实验,我们的方法通过减少共享原始数据的必要性来展示了增强的隐私保护能力。这些能力在各种应用领域具有重要潜力,包括边缘计算解决方案的设计。因此,我们的工作通过促进协作扩散模型的发展,推动了分布式机器学习的进步。
论文链接: https://arxiv.org/pdf/2406.14429
Github: https://github.com/simeonallmendinger/collafuse
原标题: EvoAgent: Towards Automatic Multi-Agent Generation via Evolutionary Algorithms
作者: Siyu Yuan, Kaitao Song, Jiangjie Chen, Xu Tan, Dongsheng Li, Deqing Yang
机构: 复现多智能体生成的方法。我们使用进化算法来自动地生成多智能体系统,以提高任务解决能力。通过对大型语言模型(LLM)的利用,我们能够自动地生成多智能体系统,而无需依赖人工设计的框架。我们在复杂任务解决中进行了实验,并与现有方法进行了比较。实验结果表明,EVOAGENT能够有效地生成高性能的多智能体系统。
本文的作者来自复旦大学和微软亚洲研究院。
摘要: 强大的大语言模型(LLM)的崛起,推动了基于LLM的自主智能体在解决复杂任务,特别是多智能体系统方面的新趋势。尽管取得了显著进展,但我们注意到现有的工作在很大程度上依赖于人工设计的框架,这极大地限制了智能体系统的功能范围和可扩展性。如何自动将专业智能体扩展到多智能体系统,以提高任务解决能力仍然是一个重大挑战。在本文中,我们介绍了EvoAgent,一种通过进化算法自动将专家智能体扩展到多智能体系统的通用方法,从而提高LLM-based智能体在解决任务中的效果。具体而言,我们将现有的智能体框架视为初始个体,然后应用一系列进化算子(例如变异、交叉、选择等)生成具有不同智能体设置的多个智能体。EvoAgent可以推广到任何基于LLM的智能体框架,并且可以在不需要额外人工设计的情况下自动将现有的智能体框架扩展到多智能体系统。各种任务的实验结果表明,EvoAgent可以自动生成多个专家智能体,并显著提高基于LLM的智能体的任务解决能力。
论文链接: https://arxiv.org/pdf/2406.14228
原标题: FutureNet-LOF: Joint Trajectory Prediction and Lane Occupancy Field Prediction with Future Context Encoding
作者: Mingkun Wang, Xiaoguang Ren, Ruochun Jin, Minglong Li, Xiaochuan Zhang, Changqian Yu, Mingxu Wang, Wenjing Yang
机构: 北京大学 中国军事科学院 国防科技大学 美团 福建大学
摘要: 在自动驾驶中,大多数先前的运动预测努力都没有充分编码未来情景,导致预测可能无法准确捕捉到各种代理人(例如车辆或行人)的多样动作。为了解决这个问题,我们提出了FutureNet,它将最初预测的轨迹明确地整合到未来情景中,并进一步编码这些未来上下文以增强后续的预测。此外,大多数以前的运动预测工作都集中在为每个代理人独立预测未来。然而,安全和平稳的自动驾驶需要准确预测复杂动态环境中众多周围代理人的多样未来行为。鉴于所有代理人都占据一定的潜在行驶空间并具有车道驾驶优先权,我们提出了具有车道语义的车道占用场(LOF),用于自动驾驶中的运动预测。LOF可以同时捕捉所有道路参与者未来时空位置的联合概率分布。由于车道占用场预测与轨迹预测之间的高度兼容性,我们提出了一种新颖的网络,用于联合预测这两个任务。我们的方法在两个大规模运动预测基准测试中排名第一:Argoverse 1和Argoverse 2。
论文链接: https://arxiv.org/pdf/2406.14422
原标题: Proving Olympiad Algebraic Inequalities without Human Demonstrations
作者: Chenrui Wei, Mengzhou Sun, Wei Wang
机构: 北京大学 国家人工智能综合实验室
新加坡国立大学 数学系
摘要: 解决奥林匹克级数学问题代表了机器智能和自动推理的重大进展。然而,当前的机器学习方法在解决超出欧几里得平面几何的奥林匹克级问题时遇到困难,原因是缺乏大规模、高质量的数据集。在涉及无限推理空间的有限条件的代数系统中,挑战甚至更大。为了解决这些问题,我们提出了 AIPS,一种代数不等式证明系统,能够自主生成复杂的不等式定理,并有效地解决奥林匹克级别的不等式问题,无需人类示范。在混合推理方式下的证明搜索过程中,实施了一种基于生成数据集的价值课程学习策略,以提高证明性能,展现出强大的数学直觉。在一个包含20个国际数学奥林匹克级别不等式问题的测试集上,AIPS成功解决了其中的10个,表现优于现有方法。此外,AIPS自动生成了大量非平凡的定理,无需人类干预,其中一些定理已由专业参赛者评估,并被认为达到了国际数学奥林匹克的水平。值得注意的是,其中一个定理被选为2024年某大城市数学奥林匹克竞赛的比赛题目。
论文链接: https://arxiv.org/pdf/2406.14219
原标题: Fair Streaming Feature Selection
作者: Zhangling Duan, Tianci Li, Xingyu Wu, Zhaolong Ling, Jingye Yang, Zhaohong Jia
机构: 安徽大学 香港理工大学
摘要: 流式特征选择技术已经成为处理实时数据流的必要手段,因为它们有助于从不断更新的信息中识别出最相关的属性。尽管它们的性能很好,但目前的流式特征选择算法在管理偏见和避免可能由敏感属性引起的歧视方面经常存在缺陷,这可能导致最终模型中的不公平结果。为了解决这个问题,我们提出了一种新的算法 FairSFS,用于公平流式特征选择,以在不影响在线处理数据的能力的前提下维护特征选择过程中的公平性。FairSFS通过动态调整特征集合来适应传入的特征向量,并从这个修订后的集合中区分分类属性和敏感属性之间的相关性,从而防止敏感数据的传播。实证评估表明,FairSFS不仅保持了与领先的流式特征选择方法和现有的公平特征技术相当的准确性,而且显著提高了公平性指标。
论文链接: https://arxiv.org/pdf/2406.14401
原标题: SPL: A Socratic Playground for Learning Powered by Large Language Mode
作者: Liang Zhang, Jionghao Lin, Ziyi Kuang, Sheng Xu, Mohammed Yeasin, Xiangen Hu
机构: 孟菲斯大学 卡内基梅隆大学 陕西师范大学 华中师范大学 香港理工大学
摘要: 基于对话的智能辅导系统(ITS)通过在交互对话中自动化复杂的人类辅导策略,显著推进了自适应和个性化学习。然而,在自然语言处理(NLP)中复制专家人类沟通的微妙模式仍然是一个挑战。最近在NLP方面的进展,特别是大语言模型(LLMs)如OpenAI的GPT-4,通过提供基于广泛预训练知识的类人和上下文感知的回应,提供了有希望的解决方案。受LLMs在各种教育任务(例如内容创作和总结、问题解决和自动反馈提供)中的有效性的启发,我们的研究引入了基于Socratic教学方法的Socratic Playground for Learning(SPL),这是一个由GPT-4模型驱动的基于对话的ITS,旨在培养学习者的批判性思维。通过广泛的提示工程,SPL可以生成特定的学习场景,并促进高效的多轮辅导对话。SPL系统旨在增强个性化和自适应学习体验,以满足个体需求,特别关注提高批判性思维能力。我们在论文写作任务中的初步实验结果表明,SPL有潜力改善辅导互动,并进一步增强基于对话的ITS功能。我们的研究通过SPL的示例展示了LLMs如何增强基于对话的ITS,并扩大教育技术的可访问性和效果。
论文链接: https://arxiv.org/pdf/2406.13919
原标题: REVEAL-IT: REinforcement learning with Visibility of Evolving Agent poLicy for InTerpretability
作者: Shuang Ao, Simon Khan, Haris Aziz, Flora D. Salim
机构: 新南威尔士大学悉尼分校
摘要: 理解智能体的学习过程,特别是在训练后对其成功或失败的影响因素,对于理解智能体决策过程背后的原因至关重要。先前的方法通过创建结构因果模型(SCM)或直观地表示值函数的分布来阐明学习过程。然而,这些方法存在局限,因为它们仅适用于二维环境或具有简单转换动态的情况。在复杂环境或任务中理解智能体的学习过程更具挑战性。在本文中,我们提出了一种名为REVEAL-IT的新框架,用于解释智能体在复杂环境中的学习过程。首先,我们可视化不同训练任务的策略结构和智能体的学习过程。通过可视化这些发现,我们可以理解特定训练任务或阶段对智能体在测试中表现的影响程度。然后,基于GNN的解释器学习突出显示策略中最重要的部分,提供对智能体学习过程更清晰和更健壮的解释。实验证明,从该框架中得出的解释可以有效地帮助优化智能体的表现。
论文链接: https://arxiv.org/pdf/2406.14214
Github: https://github.com/cruiseresearchgroup/reveal-it
原标题: Computation-Efficient Semi-Supervised Learning for ECG-based Cardiovascular Diseases Detection
作者: Rushuang Zhou, Zijun Liu, Lei Clifton, David A. Clifton, Kannie W. Y. Chan, Yuan-Ting Zhang, Yining Dong
机构: 香港城市大学 生物医学工程系 香港
摘要: 标签稀缺问题是阻碍深度学习系统在利用心电图(ECG)自动检测心血管疾病(CVDs)方面广泛应用的主要挑战。通过调整预训练模型,可以通过将从大型数据集中学到的知识转移到下游小型数据集来缓解这一问题。然而,计算效率和CVDs检测性能方面的瓶颈限制了其临床应用。在不显著牺牲模型计算效率的情况下改善检测性能是困难的。因此,我们提出了一种计算效率高的半监督学习范式(FastECG),用于利用ECG进行稳健和高效的CVDs检测。它能够在有限监督和高计算效率的情况下对预训练模型进行下游数据集的稳健适应。首先,我们开发了一种随机停用技术,实现了对预训练权重的稳健和快速的低秩适应。随后,我们提出了一种一次性秩分配模块,用于确定预训练权重的更新矩阵的最佳秩。最后,引入了一个轻量级半监督学习流程,通过利用带标签和无标签数据来提高模型性能,同时保持高计算效率。对四个下游ECG数据集的大量实验表明,FastECG不仅在多标签CVDs检测方面优于最先进的方法,而且消耗的GPU印记、训练时间和参数存储空间更少。因此,这种范式为在有限监督条件下预训练模型在临床应用中实现高计算效率和稳健检测性能提供了有效的解决方案。
论文链接: https://arxiv.org/pdf/2406.14377
原标题: SeCoKD: Aligning Large Language Models for In-Context Learning with Fewer Shots
作者: Weixing Wang, Haojin Yang, Christoph Meinel
机构: 哈索·普拉特纳学院 德国 波茨坦大学
摘要: 之前的研究表明,演示可以显著帮助大语言模型(LLMs)在给定任务上表现更好。然而,这种所谓的上下文学习(ICL)能力对呈现的上下文非常敏感,通常需要数十个演示。在这项工作中,我们研究了是否可以减少样本数量,同时仍然保持竞争性能。我们提出了SeCoKD,一种自我知识蒸馏(KD)训练框架,将学生模型与大量提示变体对齐,从而增加单个演示的利用率。我们在三个LLMs和六个基准测试中使用SeCoKD进行实验,主要关注推理任务。结果表明,我们的方法在零样本和一样本设置中比基准模型和监督微调(SFT)表现更好,分别提高了30%和10%。此外,SeCoKD在评估新任务时几乎没有负面影响,比监督微调更加稳健。
论文链接: https://arxiv.org/pdf/2406.14208
原标题: PoseBench: Benchmarking the Robustness of Pose Estimation Models under Corruptions
作者: Sihan Ma, Jing Zhang, Qiong Cao, Dacheng Tao
机构: The University of Sydney JD Explore Academy Nanyang Technological University
摘要: 姿态估计旨在使用单眼图像准确识别人类和动物的解剖关键点,这对于各种应用非常重要,如人机交互、体现式人工智能和自动驾驶。虽然当前的模型显示出有希望的结果,但它们通常是在干净的数据上进行训练和测试的,可能忽视了在真实世界部署过程中可能出现的损坏,从而在实际场景中带来安全风险。为了解决这个问题,我们引入了 PoseBench,这是一个全面的基准,旨在评估姿态估计模型对真实世界损坏的鲁棒性。我们评估了60个代表性模型,包括自顶向下、自底向上、基于热图、基于回归和基于分类的方法,涵盖了人类和动物姿态估计的三个数据集。我们的评估涉及四类十种损坏:1)模糊和噪声,2)压缩和颜色丢失,3)严重光照,4)遮罩。我们的研究结果表明,最先进的模型容易受到常见的真实世界损坏的影响,并且在处理人类和动物姿态估计任务时表现出不同的行为。为了提高模型的鲁棒性,我们深入探讨了各种设计考虑,包括输入分辨率、预训练数据集、骨干网络容量、后处理和数据增强。我们希望我们的基准可以成为推动鲁棒姿态估计研究的基础。基准和源代码将在此 https URL 上发布。
论文链接: https://arxiv.org/pdf/2406.14367
Github: https://xymsh.github.io/PoseBench
原标题: Communication-Efficient Byzantine-Resilient Federated Zero-Order Optimization
作者: Afonso de Sá Delgado Neto, Maximilian Egger, Mayank Bakshi, Rawad Bitar
机构: Technical University of Munich Arizona State University
摘要: 我们介绍了CYBER-0,这是第一个针对内存和通信高效的联邦学习的零阶优化算法,能够抵御拜占庭故障。通过在MNIST数据集和RoBERTa-Large的微调上进行大量数值实验,我们证明CYBER-0在通信和内存效率方面优于最先进的算法,同时达到了类似的准确性。我们对其在凸损失函数上的收敛性提供了理论保证。
论文链接: https://arxiv.org/pdf/2406.14362
原标题: Automatic Labels are as Effective as Manual Labels in Biomedical Images Classification with Deep Learning
作者: Niccolò Marini, Stefano Marchesin, Lluis Borras Ferris, Simon Püttmann, Marek Wodzinski, Riccardo Fratti, Damian Podareanu, Alessandro Caputo, Svetla Boytcheva, Simona Vatrano, Filippo Fraggetta, Iris Nagtegaal, Gianmaria Silvello, Manfredo Atzori, Henning Müller
机构: 西瑞尔应用科学西部瑞士大学(HES-SO Valais) 意大利帕多瓦大学 多特蒙德应用科学与艺术大学 克拉科夫AGH大学 SURFsara 阿姆斯特丹 萨莱尔诺鲁吉大学医院 纳格泰加尔大学医院 Ca Gravina病理学单位
摘要: 越来越多的生物医学数据的可用性有助于设计更加健壮的深度学习(DL)算法来分析生物医学样本。目前,训练DL算法执行特定任务的主要限制之一是需要医学专家标记数据。存在自动标记数据的方法,但是自动标记可能会产生噪声,而且不完全清楚何时可以采用自动标记来训练DL模型。本文旨在研究在哪些情况下可以采用自动标记来训练DL模型,以对全幻灯片图像(WSI)进行分类。分析涉及多种体系结构,例如卷积神经网络(CNN)和视觉Transformer(ViT),以及来自三个用例(乳糜泻,肺癌和结肠癌)的10000多个WSI,其中一个分别包括二进制,多类和多标签数据。结果表明,将噪声标签的百分比定为10%可以导致训练出具有竞争力的WSI分类模型。因此,生成自动标签的算法需要符合此标准才能被采用。将语义知识提取器工具(SKET)算法应用于生成自动标签,可以获得与手动标签相当的性能,因为它生成的噪声标签百分比在2-5%之间。自动标签与手动标签一样有效,达到了与使用手动标签训练模型所获得的稳定性能相当的效果。
论文链接: https://arxiv.org/pdf/2406.14351
原标题: Identifiable Exchangeable Mechanisms for Causal Structure and Representation Learning
作者: Patrik Reizinger, Siyuan Guo, Ferenc Huszár, Bernhard Schölkopf, Wieland Brendel
机构: Max Planck Institute for Intelligent Systems, Tübingen, Germany
University of Cambridge, Cambridge, United Kingdom
Tübingen AI Center, Tübingen, Germany
ELLIS Institute Tübingen, Tübingen, Germany
摘要: 识别潜在表示或因果结构对于良好的泛化和下游任务性能非常重要。然而,这两个领域的发展相对独立。我们观察到,表示和因果结构学习中的几种方法都依赖于相同的数据生成过程(DGP),即可交换但不是独立同分布的数据。我们提供了一个统一的框架,称为可识别的可交换机制(IEM),用于在可交换性的视角下进行表示和结构学习。IEM提供了新的见解,使我们能够放宽在可交换的非独立同分布数据中对因果结构识别的必要条件。我们还展示了可识别表示学习中的对偶条件的存在,从而得到了新的可识别性结果。我们希望这项工作能为因果表示学习的进一步研究铺平道路。
论文链接: https://arxiv.org/pdf/2406.14302
原标题: DASB – Discrete Audio and Speech Benchmark
作者: Pooneh Mousavi, Luca Della Libera, Jarod Duret, Artem Ploujnikov, Cem Subakan, Mirco Ravanelli
机构: 康考迪亚大学 Mila - 魁北克人工智能研究所 Avignon Université 蒙特利尔大学 魁北克大学
摘要: 离散音频令牌近年来引起了相当大的关注,因为它们有潜力连接音频和语言处理,实现现代多模态大型语言模型的创建。理想的音频令牌必须有效地保留语音和语义内容以及语用信息、说话人身份和其他细节。虽然最近提出了几种类型的音频令牌,但由于现有研究中评估设置的不一致性,确定各种任务的最佳分词器是具有挑战性的。为了填补这一空白,我们发布了离散音频和语音基准(DASB),这是一个全面的排行榜,用于在广泛的区分任务中对离散音频令牌进行基准测试,包括语音识别、说话人识别和验证、情感识别、关键词检测和意图分类,以及生成任务,如语音增强、分离和文本转语音。我们的结果表明,在大多数区分和生成任务中,语义令牌的性能优于压缩令牌。然而,语义令牌和标准连续表示之间的性能差距仍然很大,突出了在这一领域需要进一步研究的需求。
论文链接: https://arxiv.org/pdf/2406.14294
原标题: Revisiting Modularity Maximization for Graph Clustering: A Contrastive Learning Perspective
作者: Yunfei Liu, Jintang Li, Yuehe Chen, Ruofan Wu, Ericbk Wang, Jing Zhou, Sheng Tian, Shuheng Shen, Xing Fu, Changhua Meng, Weiqiang Wang, Liang Chen
机构: 蚂蚁集团
摘要: 图聚类是图挖掘中的一项基础且具有挑战性的任务,旨在将图中的节点分类为几个不相交的簇。近年来,图对比学习(GCL)已成为图聚类领域的主要研究方向,并取得了最新的技术进展。然而,基于GCL的方法严重依赖于图增强和对比方案,这可能会引入语义漂移和可扩展性等挑战。另一种有前景的研究方向涉及采用模块化最大化作为聚类任务的指导原则,模块化最大化是一种流行且有效的社区检测度量。尽管最近取得了进展,但模块化最大化的潜在机制仍不为人们所理解。在这项工作中,我们深入研究了模块化最大化在图聚类中的潜在成功。我们的分析揭示了模块化最大化与图对比学习之间的强连接,其中正负样本由模块化自然定义。根据我们的结果,我们提出了一种名为MAGI的社区感知图聚类框架,该框架利用模块化最大化作为对比预训练任务,有效地揭示了图中社区的潜在信息,同时避免了语义漂移的问题。对多个图数据集进行的大量实验证实了MAGI相对于最先进的图聚类方法在可扩展性和聚类性能方面的有效性。值得注意的是,MAGI在超过1亿个节点的大型图上轻松扩展,并且胜过了强基线方法。
论文链接: https://arxiv.org/pdf/2406.14288
Github: https://github.com/edisonleeeee/magi
原标题: FairX: A comprehensive benchmarking tool for model analysis using fairness, utility, and explainability
作者: Md Fahim Sikder, Resmi Ramachandranpillai, Daniel de Leng, Fredrik Heintz
机构: 林雪平大学、东北大学
摘要: 我们介绍了FairX,这是一个基于Python的开源基准测试工具,旨在全面分析在公平性、效用性和可解释性(XAI)范围内的模型。FairX使用户能够训练基准测试偏差消除模型,并使用各种公平性指标、数据效用指标评估其公平性,并为模型预测生成解释,所有这些都在一个统一的框架内。现有的基准测试工具没有评估从公平生成模型生成的合成数据的方法,也没有支持训练公平生成模型的功能。在FairX中,我们将公平生成模型添加到我们的公平模型库(预处理、处理中、后处理)和评估指标中,以评估合成公平数据的质量。这个版本的FairX支持表格和图像数据集。它还允许用户提供自己的自定义数据集。这个开源的FairX基准测试包可以在这个https URL上公开获取。
论文链接: https://arxiv.org/pdf/2406.14281
Github: https://github.com/fahim-sikder/FairX
原标题: VeriFlow: Modeling Distributions for Neural Network Verification
作者: Faried Abu Zaid, Daniel Neider, Mustafa Yalçıner
机构: Transferlab, appliedAI Institute for Europe, Munich, Germany TU Dortmund University, Dortmund, Germany Center for Trustworthy Data Science and Security, University Alliance Ruhr, Dortmund, Germany
摘要: 正式验证已成为确保神经网络安全可靠的一种有前途的方法。朴素地验证安全属性意味着确保神经网络在整个输入空间上的安全性,而不考虑任何训练或测试集。然而,这也意味着即使对于在现实世界中不出现且毫无意义的输入,神经网络的安全性也会被检查,通常会导致虚假错误。为了解决这个缺点,我们提出了VeriFlow架构作为一种基于流的密度模型,旨在允许任何验证方法将其搜索限制在感兴趣的某个数据分布上。我们认为我们的架构特别适合这个目的,因为它具有两个主要特性。首先,我们展示了我们的模型定义的变换和对数密度函数是分段仿射的。因此,该模型允许使用基于线性算术的SMT验证器。其次,数据分布的上密度级集(UDL)在潜在空间中呈 L p L^p Lp球形状。因此,给定概率指定的UDL的表示在潜在空间中是有效可计算的。这允许具有精细、概率可解释的控制的SMT和抽象解释方法,以确定受验证输入的(非)典型程度。
论文链接: https://arxiv.org/pdf/2406.14265
原标题: CityNav: Language-Goal Aerial Navigation Dataset with Geographic Information
作者: Jungdae Lee, Taiki Miyanishi, Shuhei Kurita, Koya Sakamoto, Daichi Azuma, Yutaka Matsuo, Nakamasa Inoue
机构: 东京工业大学, 东京大学, 国立情报学研究所, ATR, RIKEN AIP, 京都大学, 索尼半导体解决方案
摘要: 视觉语言导航(VLN)旨在通过整合视觉和语言线索,引导自主智能体在现实世界环境中导航。虽然在地面导航中对这些交互模态有了实质性的进展,但空中导航仍然很少被探索。这主要是因为缺乏适用于真实世界、城市规模的空中导航研究资源。为了弥补这一差距,我们引入了CityNav,这是一个使用来自真实城市的3D点云表示的语言目标空中导航新数据集。CityNav包括32,637个自然语言描述,与人类示范轨迹配对,这些描述是通过为这项研究开发的基于Web的3D模拟器从参与者那里收集的。每个描述都指定了一个导航目标,利用了真实世界城市中地标的名称和位置。我们还提供了导航智能体的基线模型,其中包括一个内部的2D空间地图,表示描述中引用的地标。我们在CityNav数据集上对最新的空中导航基线和我们提出的模型进行了基准测试。使用这个数据集的结果揭示了以下关键发现:(i)我们在人类示范轨迹上训练的空中智能体模型优于在最短路径轨迹上训练的模型,突显了人类驱动的导航策略的重要性;(ii)2D空间地图的整合显著提高了城市规模的导航效率。我们的数据集和代码可以在此https URL上获得。
论文链接: https://arxiv.org/pdf/2406.14240
Github: https://water-cookie.github.io/city-nav-proj/
原标题: Enhancing robustness of data-driven SHM models: adversarial training with circle loss
作者: Xiangli Yang, Xijie Deng, Hanwei Zhang, Yang Zou, Jianxi Yang
机构: 重庆交通大学 广州智能软件研究所 萨尔大学 奥克兰大学
摘要: 结构健康监测(SHM)对于保障航空航天、土木和机械基础设施的安全和可靠性至关重要。由于传感器和计算能力的进步,基于机器学习的数据驱动方法在SHM中越来越受欢迎。然而,用于SHM的机器学习模型容易受到对抗性示例的攻击–即使输入的微小变化也可能导致不同的模型输出。本文旨在通过讨论SHM中的对抗性防御来解决这个问题。在本文中,我们提出了一种对抗性训练方法,该方法使用圆形损失来优化训练中特征之间的距离,以使示例远离决策边界。通过这种简单而有效的约束,我们的方法在模型的鲁棒性方面取得了显著的改进,超过了现有的防御机制。
论文链接: https://arxiv.org/pdf/2406.14232
原标题: VLBiasBench: A Comprehensive Benchmark for Evaluating Bias in Large Vision-Language Model
作者: Jie Zhang, Sibo Wang, Xiangkui Cao, Zheng Yuan, Shiguang Shan, Xilin Chen, Wen Gao
机构: 中国科学院计算技术研究所 中国科学院大学 北京大学
摘要: 大型视觉-语言模型(LVLMs)的出现标志着通用人工智能取得了重要进展。然而,这些进步也伴随着输出中往往反映出的偏见问题,这一问题尚未得到充分研究。现有的基准测试由于数据规模有限、单一的提问格式和狭窄的偏见来源,无法全面评估这些偏见。为了解决这个问题,我们引入了VLBiasBench,这是一项旨在全面评估LVLM偏见的基准测试。在VLBiasBench中,我们构建了一个涵盖九个不同类别的社会偏见的数据集,包括年龄、残疾状态、性别、国籍、外貌、种族、宗教、职业、社会经济地位,以及两个交叉偏见类别(种族 × 性别和种族 × 社会经济地位)。为了创建一个大规模的数据集,我们使用Stable Diffusion XL模型生成了46,848张高质量图像,并将其与不同的问题相结合,形成了128,342个样本。这些问题分为开放式和封闭式类型,充分考虑了偏见的来源,从多个角度全面评估LVLM的偏见。随后,我们对15个开源模型以及一个先进的闭源模型进行了广泛的评估,提供了一些关于这些模型偏见的新见解。我们的基准测试可在此处获得
论文链接: https://arxiv.org/pdf/2406.14194
Github: https://github.com/Xiangkui-Cao/VLBiasBench
原标题: Failure-Resilient Distributed Inference with Model Compression over Heterogeneous Edge Devices
作者: Li Wang, Liang Li, Lianming Xu, Xian Peng, Aiguo Fei
摘要: 分布式推理范式使计算工作负载能够在多个设备之间分布,从而促进了基于深度学习的智能服务在资源极度有限的物联网(IoT)场景中的实现。然而,依赖于计算/通信能力不同且容易崩溃或超时失败的异构IoT设备集群执行复杂推理任务提出了巨大挑战。在本文中,我们提出了RoCoIn,一种用于在异构边缘设备上进行本地分布式执行基于深度神经网络的推理任务的稳健合作推理机制。它通过使用知识蒸馏从大模型中学习一组独立且紧凑的学生模型,进行分布式部署。特别地,设备被战略性地分组以冗余地部署和执行相同的学生模型,从而使推理过程对任何本地故障具有弹性,同时设计了联合知识分区和学生模型分配方案,以在存在具有不同能力的设备的情况下最小化分布式推理系统的响应延迟。进行了大量的模拟实验来证实我们的RoCoIn在分布式推理方面相对于几个基准方法的卓越性能,并且结果证明了它在及时推理和故障弹性方面的有效性。
论文链接: https://arxiv.org/pdf/2406.14185
原标题: A Multi-Stream Fusion Approach with One-Class Learning for Audio-Visual Deepfake Detection
作者: Kyungbok Lee, You Zhang, Zhiyao Duan
机构: 罗切斯特大学
摘要: 本文讨论了开发稳健的音视频深度伪造检测模型的挑战。在实际应用中,新一代算法不断涌现,这些算法在检测方法开发过程中并未遇到。这要求方法具有泛化能力。此外,为了确保检测方法的可信度,让模型能够解释视频中哪些线索表明其是伪造是有益的。受到这些考虑的激励,我们提出了一种多流融合方法,采用一类学习作为表示级别的正则化技术。我们通过扩展和重新划分现有的FakeAVCeleb数据集,创建了一个新的基准,研究了音视频深度伪造检测的泛化问题。该基准包含四类伪造视频(真实音频-伪造视频,伪造音频-伪造视频,伪造音频-真实视频和不同步视频)。实验结果表明,与基线模型相比,我们的方法提高了模型对未知攻击的检测能力,平均提高了7.31%。此外,我们提出的框架提供了可解释性,指示模型识别哪种模态为伪造。
论文链接: https://arxiv.org/pdf/2406.14176
原标题: Online Learning of Weakly Coupled MDP Policies for Load Balancing and Auto Scaling
作者: S.R. Eshwar, Lucas Lopes Felipe, Alexandre Reiffers-Masson, Daniel Sadoc Menasché, Gugan Thoppe
机构: 印度科学研究所、IMT阿特兰蒂克布列塔尼-洛瓦尔地区、里约热内卢联邦大学
摘要: 负载均衡和自动扩展是可扩展的现代系统的核心,用于在工作负载变化时动态分配资源和调整服务速率。本文介绍了一种新颖的模型和算法,用于调整与自动扩展相结合的负载均衡器,考虑到有限队列中的突发流量。我们首先将问题呈现为弱耦合的马尔可夫决策过程(MDP),可通过线性规划(LP)求解。然而,由于此类LP的控制变量数量组合增长,我们引入了一个更易处理的松弛LP形式,并将其扩展到使用基于LP Lagrangian的双时间尺度算法来解决在线参数学习和策略优化问题。
论文链接: https://arxiv.org/pdf/2406.14141
原标题: Autonomous Robotic Drilling System for Mice Cranial Window Creation
作者: Enduo Zhao, Murilo M. Marinho, Kanako Harada
摘要: 生命科学中的机器人辅助实验操作预计能够实现良好的结果,不受科学家技能水平的限制。生命科学中的实验样本因个体差异而需要复杂的算法来实现成功的自主机器人控制。作为一个使用案例,我们正在研究在小鼠中创建颅窗的方法。这个操作需要去除一个直径约为8毫米、厚度约为300微米的圆形颅骨补丁,但小鼠的颅骨形状和厚度因小鼠品系、性别和年龄的不同而显著变化。在这项工作中,我们提出了一种无离线规划的自主机器人钻孔方法,包括一个基于图像和力信息的执行时间反馈的轨迹规划模块和完成程度识别。力信息可以提高完成程度的分辨率10倍。我们以两种方式评估了所提出的方法。首先,在一个蛋壳钻孔任务中,成功率为95%,平均钻孔时间为7.1分钟,共进行了20次试验。其次,在尸体小鼠中,成功率为70%,平均钻孔时间为9.3分钟,共进行了20次试验。
论文链接: https://arxiv.org/pdf/2406.14135
原标题: Enhancing the LLM-Based Robot Manipulation Through Human-Robot Collaboration
作者: Haokun Liu, Yaonan Zhu, Kenji Kato, Atsushi Tsukahara, Izumi Kondo, Tadayoshi Aoyama, Yasuhisa Hasegawa
摘要: 大语言模型(LLMs)在机器人领域越来越受欢迎。然而,基于LLM的机器人由于语言模型、机器人和环境之间的集成不佳,仅限于简单重复的动作。本文提出了一种通过人机协作(HRC)来增强基于LLM的自主操作性能的新方法。该方法涉及使用提示的GPT-4语言模型将高级语言命令分解为机器人可以执行的动作序列。系统还采用基于YOLO的感知算法,为LLM提供视觉线索,有助于在特定环境中规划可行的动作。此外,提出了一种通过结合远程操作和动态运动原理(DMP)的HRC方法,使基于LLM的机器人能够从人类指导中学习。使用丰田人类支持机器人进行了真实世界的操作任务实验。结果表明,通过结合人类示范,可以高效地完成需要复杂轨迹规划和对环境进行推理的任务。
论文链接: https://arxiv.org/pdf/2406.14097
原标题: Memory-Efficient Gradient Unrolling for Large-Scale Bi-level Optimization
作者: Qianli Shen, Yezhen Wang, Zhouhao Yang, Xiang Li, Haonan Wang, Yang Zhang, Jonathan Scarlett, Zhanxing Zhu, Kenji Kawaguchi
机构: 新加坡国立大学 英国南安普顿大学
摘要: 双层优化(BO)已成为解决分层机器学习问题的基本数学框架。随着深度学习模型的不断增大,对可扩展的双层优化解决方案的需求变得日益关键。由于其固有特性,传统基于梯度的双层优化算法不适合满足大规模应用的需求。在本文中,我们介绍了称为 ( FG ) 2 U (\textbf{FG})^2\textbf{U} (FG)2U的 F \textbf{F} Forward G \textbf{G} Gradient U \textbf{U} Unrolling with F \textbf{F} Forward F \textbf{F} Fradient,它实现了对双层优化的元梯度的无偏随机逼近。 ( FG ) 2 U (\text{FG})^2\text{U} (FG)2U规避了与传统双层优化方法相关的内存和逼近问题,并提供了比现有大规模双层优化方法更准确的梯度估计。此外, ( FG ) 2 U (\text{FG})^2\text{U} (FG)2U天生支持并行计算,使其能够有效利用大规模分布式计算系统,实现显著的计算效率。在实践中, ( FG ) 2 U (\text{FG})^2\text{U} (FG)2U和其他方法可以被策略性地放置在训练过程的不同阶段,以实现更具成本效益的两阶段范式。此外, ( FG ) 2 U (\text{FG})^2\text{U} (FG)2U易于在流行的深度学习框架中实现,并可以方便地适应更具挑战性的零阶双层优化场景。我们对 ( FG ) 2 U (\text{FG})^2\text{U} (FG)2U进行了彻底的收敛性分析和全面的实际讨论,并进行了广泛的实证评估,展示了它在各种大规模双层优化任务中的卓越性能。
论文链接: https://arxiv.org/pdf/2406.14095
原标题: Seg-LSTM: Performance of xLSTM for Semantic Segmentation of Remotely Sensed Images
作者: Qinfeng Zhu, Yuanzhi Cai, Lei Fan
机构: 清华大学
摘要: 最近,在具有线性复杂度的自回归网络的最新进展推动了重要的研究进展,在大型语言模型中表现出了卓越的性能。一个代表性的模型是扩展的长短期记忆网络(xLSTM),它结合了门控机制和记忆结构,在长序列语言任务中的表现与Transformer架构相当。像xLSTM这样的自回归网络可以利用图像序列化来扩展其在分类和分割等视觉任务中的应用。尽管现有研究已经证明了Vision-LSTM在图像分类中的出色结果,但其在图像语义分割中的性能尚未得到验证。我们的研究是首次尝试评估Vision-LSTM在遥感图像语义分割中的有效性。这个评估是基于一个特别设计的编码器-解码器架构,名为Seg-LSTM,并与最先进的分割网络进行比较。我们的研究发现,在大多数比较测试中,Vision-LSTM在语义分割方面的性能有限,通常不如基于Vision-Transformers和Vision-Mamba的模型。建议未来的研究方向是改进Vision-LSTM。源代码可以从此https URL获取。
论文链接: https://arxiv.org/pdf/2406.14086
Github: https://github.com/zhuqinfeng1999/Seg-LSTM
原标题: Exploring Layerwise Adversarial Robustness Through the Lens of t-SNE
作者: Inês Valentim, Nuno Antunes, Nuno Lourenço
机构: 科英布拉大学 CISUC/LASI, DEI NeuroEvolution
摘要: 对抗性示例旨在欺骗人工神经网络(ANNs)产生错误的输出,突显了这些模型的漏洞。探索这些弱点对于开发防御措施至关重要,因此,我们提出了一种评估图像分类ANNs的对抗鲁棒性的方法。使用t-分布随机邻居嵌入(t-SNE)技术进行视觉检查,并使用一种度量方法来比较清洁和扰动的嵌入,帮助确定层中的弱点。通过对CIFAR-10上的两个ANN进行分析,一个是由人类设计的,另一个是通过神经进化设计的,我们发现在特征提取层中早期出现了清洁和扰动表示之间的差异,影响了后续的分类。我们的度量结果得到了t-SNE图的视觉分析的支持。
论文链接: https://arxiv.org/pdf/2406.14073
原标题: Understanding Different Design Choices in Training Large Time Series Models
作者: Yu-Neng Chuang, Songchen Li, Jiayi Yuan, Guanchu Wang, Kwei-Herng Lai, Leisheng Yu, Sirui Ding, Chia-Yuan Chang, Qiaoyu Tan, Daochen Zha, Xia Hu
机构: Rice University Texas A&M University New York University
摘要: 受大型语言模型(LLMs)的启发,时间序列预测(TSF)作为时间序列分析中的一个长期任务,正在向大型时间序列模型(LTSMs)转变,旨在训练基于Transformer的通用模型用于TSF。然而,在异构时间序列数据上训练LTSMs面临着独特的挑战,包括数据集之间的不同频率、维度和模式。最近的研究努力在增强LTSM训练和泛化能力方面进行了各种设计选择的研究和评估,包括预处理技术、模型配置和数据集配置。在这项工作中,我们全面分析了这些设计选择,并旨在确定训练LTSM的最佳实践。此外,我们提出了一种针对时间序列数据的新型统计提示策略,称为“时间序列提示”。此外,基于我们分析的观察结果,我们引入了“LTSM-bundle”,其中包含我们确定的最佳设计选择。实证结果表明,“LTSM-bundle”在基准数据集上相比于最先进的LSTMs和传统的TSF方法实现了更好的零样本和少样本性能。
论文链接: https://arxiv.org/pdf/2406.14045
原标题: Resource-efficient Medical Image Analysis with Self-adapting Forward-Forward Networks
作者: Johanna P. Müller, Bernhard Kainz
机构: Friedrich–Alexander University Erlangen–Nürnberg Imperial College London
摘要: 我们引入了一种快速自适应前向网络(SaFF-Net)用于医学图像分析,以减少功耗和资源限制,这些限制主要来自于目前对模型训练和微调的普遍依赖于反向传播。在最近提出的前向算法(FFA)的基础上,我们引入了卷积前向算法(CFFA),这是一种适用于高级图像分析的参数高效重构,克服了原始FFA的速度和泛化约束。为了解决FFA的超参数敏感性问题,我们还引入了一个自适应框架SaFF-Net,在热身和训练过程中进行参数微调。我们的方法可以更有效地进行模型训练,并消除了在FFA中任意选择Goodness函数的先前必要条件。我们在与标准反向传播(BP)神经网络进行比较的几个基准数据集上评估了我们的方法,结果显示基于FFA的网络具有明显较少的参数和函数评估,可以在一次性场景和大批量大小中与标准模型竞争。代码将在会议时间提供。
论文链接: https://arxiv.org/pdf/2406.14038
原标题: CooHOI: Learning Cooperative Human-Object Interaction with Manipulated Object Dynamics
作者: Jiawei Gao, Ziqin Wang, Zeqi Xiao, Jingbo Wang, Tai Wang, Jinkun Cao, Xiaolin Hu, Si Liu, Jifeng Dai, Jiangmiao Pang
机构: 清华大学 上海人工智能实验室 北京航空航天大学 南洋理工大学 卡内基梅隆大学
摘要: 近年来,由于大规模动作捕捉数据的可用性和强化学习方法的应用,人形控制取得了显著进展。然而,许多现实世界的任务,如移动大型和重型家具,需要多个角色的协作。鉴于多角色协作数据的稀缺性和多智能体学习所面临的效率挑战,这些任务不能直接使用为单智能体场景设计的训练范式来解决。在本文中,我们引入了合作人物-物体交互(CooHOI)的新框架,通过两阶段学习范式来解决多角色物体运输问题:个体技能习得和后续传递。最初,单个智能体使用对抗性运动先验(AMP)框架学习执行任务。随后,智能体通过使用多智能体近端策略优化(MAPPO)进行并行训练,考虑到操纵对象的共享动力学,学习与其他人合作。当一个智能体与对象交互,导致特定的对象动力学变化时,其他智能体学习适当地做出响应,从而实现了队友之间的隐式沟通和协调。与以往依赖基于跟踪的方法进行多角色HOI的方法不同,CooHOI本质上是高效的,不依赖于多角色交互的动作捕捉数据,并且可以无缝扩展以包括更多参与者和各种对象类型。
论文链接: https://arxiv.org/pdf/2406.14558
原标题: Leveraging eBPF and AI for Ransomware Nose Out
作者: Arjun Sekar, Sameer G. Kulkarni, Joy Kuri
机构: 印度理工学院甘地尼加尔分校、印度科学院
摘要: 在这项工作中,我们提出了一种用于实时检测和防范勒索软件的两阶段方法。为了实现这一目标,我们利用了eBPF(扩展伯克利数据包过滤器)和人工智能的能力,开发了主动和被动两种方法。在第一阶段,我们利用基于签名的检测方法,使用自定义的eBPF程序跟踪新进程的执行,并对已知勒索软件数据集进行基于哈希的分析。在第二阶段,我们采用基于行为的技术,通过使用自定义的eBPF程序和自然语言处理(NLP)中的勒索说明的创建来监控进程活动,这是勒索软件活动的一个重要指标。通过利用eBPF的低级跟踪能力和集成NLP的机器学习算法,我们的解决方案在零日攻击开始的几秒钟内以惊人的99.76%的准确率识别勒索软件事件。
论文链接: https://arxiv.org/pdf/2406.14020
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。