赞
踩
论文链接:https://ieeexplore.ieee.org/document/9906807?denied=
论文出处:IEEE Transactions on Cybernetics,2024
论文单位:汉堡大学,清华大学
我们期望从跟踪系统捕获的人手深度图像 I_H 中估计出机器人手的关节角度。
尽管“Shadow hand”被设计成与成人手的机制相匹配,但灵巧的远程操作需要操作者的手与机器人之间的精确映射。
由于机械手和人手之间存在跨域的差异,如何从这两个域中获取具有指导意义和共享手部特征H_share,如骨骼形状和整个轮廓,是该回归问题的主要问题。
我们认为从共享姿态特征 H_share而不是单纯的 I_H 进行预测更有利。
为了获得指导性的特征表示Z_pose,我们采用了一种从 人手图像I_H 映射到机械手图像I_R 的生成结构,并从bottleneck层检索姿态特征H_share。
尽管条件GANs在图像生成质量上有了很大的提高,但鉴别器只追求重构图像的高真实感,而没有充分关注输入图像的姿态特征。
另外,众所周知,自动编码器以无监督的方式学习有效的数据编码,并且广泛用于图像到图像的翻译应用程序。
因此,我们建议使用编码器-解码器风格的图像-图像转换方法(Transteleop)进行手部特征H_share提取。
这个学习方案定义为:
Transteleop的深度网络架构如图4所示。
图4. Transteleop的结构图。给定来自人手域的输入深度图像,Transteleop旨在重建机械手图像并预测机器人域中机械手的关节命令。
Transteleop可以归结为四个模块:
(1)encoder(编码)模块
(2)embedding(嵌入)模块
(3)decoder(解码)模块
(4)joint (关节)模块
encoder–embedding–decoder关联获取人手 I_H 的深度图像,并在相同的手部姿势下重建机械手Iˆ_R的深度图像。
嵌入层连接编码器和解码器子模块,并体现了共享姿态特征H_share。
请注意,嵌入模块中的所有层都是全连接层,因为全连接层允许每个单元连接前一层的每个激活单元,而卷积层通常具有特定的感受野。
在image-to-image translation领域,L1损失会产生预测图像的粗略轮廓,但保留高分辨率的细节,而L2损失则倾向于估计分布的平均值,导致图像模糊。
在我们的例子中,手的局部特征,比如手关键点的位置,比图像分辨率更重要。Transteleop通过引入基于关键点的 L2 重构损失(公式(3))来解决这个问题。这鼓励模型专注于局部特征,比如手关节周围的像素。
式中,M为像素个数,αij为像素在[i, j]处的权重因子。I_R为机器人手图像的真值.
每个像素的权重因子 α∈[0,1] [见式(4)]为像素与手部关键点之间的归一化距离,如图5所示。
式中,Pij为像素在图像坐标[i, j]处的位置,A为所有15个关键点及其8个相邻像素的位置数组,αij为像素在[i, j]处的比例因子。Dmax为数组D的最大值,Pij的大小为1 × 2, A的大小为135 × 2, D的大小为M × 1。
图5. 权重因子α的热图。较深的颜色说明了这些像素的重要性。
Transteleop的 joint模块采用全连通层,从嵌入H_share的潜在特征推断出17-D joint角度。关节损失L_joint 用均方误差损失进行监督
式中,N为节点个数,GT为真地节点角度。
在训练时间内,完整训练目标 L_hand 为重建损失与关节角度回归损失的加权和,在配对的人-机器人数据集上训练。
其中λ_recon = 1, λ_joint = 10为标度权值。
在推理时,不使用解码器模块。相应地,Transteleop将人手的深度图像作为输入,然后为机器人输出关节命令。
我们的实时主动视觉系统允许相机通过移动视觉传感器捕捉到最佳视点的右手。
视觉传感器安装在机器人手臂的末端执行器上。
在这样的跟踪系统中,需要考虑三个关键问题:
1)机器人能否实时流畅地跟随人手;
2)机器人是否与人保持安全距离;
3)UR5机械臂是否能满足操作任务所需的工作空间。
对于第一个问题,PhaseSpace运动跟踪系统的频率保证了对人手的快速、可靠的识别。
然后,携带SR300深度相机的UR5机器人的目标姿态始终更新到相机可以最优观察到人的手指的位置,即人的手掌前面40厘米的位置。在我们的手部坐标系中,这个位置很容易通过沿着人手负y轴平移40厘米来计算,如图6(a)所示。
第二,30hz关节空间轨迹生成由逆运动学求解器bio-ik实现。
末端执行器的实时6D姿态在线转换为关节空间机器人指令,要求指令尽可能接近当前机器人构型。在笛卡尔空间中,平移和角运动受到速度和加速度极限的约束。除此之外,还采用了关节空间中的最大速度约束。
在UR5认证安全系统的基础上,人手与末端执行器之间40厘米的距离和轨迹约束也提供了强有力的安全保障。
此外,我们在规划场景中添加了一个体积覆盖人手面积的碰撞对象,并实时更新其姿态。
在实验中,我们在执行前检查了目标姿态的碰撞。而且,人可以随时按下deadman开关(左脚踏板),UR5机器人立即停止。
为了确定系统的整体工作空间,我们通过在环境中创建网格位姿,构建了UR5和PR2右臂的可达性图,并计算了这些位姿的有效IK解。
在我们的设置中,UR5机器人安装在墙角附近的墙上,而PR2则站在一个不受约束的空间中。
图7中的蓝、绿、黄、红球体表示机器人末端执行器可以以大于50、20、10、等于1个方向(-s)到达该位置。
与UR5工作空间相比,显然,由于机制限制,PR2工作空间中只有少数蓝色球体分散。
为了最大限度地利用PR2工作空间,我们对右PR2臂进行了相对控制,对UR5机器人进行了绝对控制。
因此,右PR2手臂只在演示者踩下右脚踏板后进行人臂的增量运动,UR5机器人将在线跟踪人臂的运动。
通过这种方式,人类演示者可以始终在一个舒适的运动范围内移动他们的手臂。整个手部姿态跟踪的框图如图8所示。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。