赞
踩
目录:
0 引言
1 人形机器人对室内家政服务任务的结构化
1.1人形机器人在室内家政服务中的比较优势
1.1.1 人形机器人拟人性的7个维度
1.1.2 拟人性在室内家政服务工作中的比较优势
1.1.3 潜在的重要用户:宠物爱好者
1.2 居所室内环境的特征与结构化
1.2.1 室内空间的物理参数友好
1.2.2 居所具备较好的结构化潜力
1.2.3 居所结构化的思路
1.3 基于任务对象结构化程度的室内家政任务分类
1.3.1 面向结构化/准结构化对象的基础家政任务
1.3.1.1 使用自动化终端设备的基础家政任务
1.3.1.2 基于局部结构化被动平台的基础家政任务
1.3.1.3 基于局部准结构化被动容器的基础家政任务
1.3.1.4 操作局部结构化被动运动部件的基础家政任务
1.3.2 面向非结构化对象的复杂家政任务
2 人形机器人执行基础家政任务过程中的技术要点
2.1 入户初始化:参数化标定居所内的对象
2.1.1 居所参数初始化
2.1.2 任务对象参数初始化
2.1.3 居室子区域、任务对象图像的初始化
2.2 人形机器人执行一次任务的技术过程推演:用洗衣机洗衣服
2.2.1 过程推演
2.2.2 技术要点:充分运用居所基础信息表
2.2.3 技术痛点:实时更新居所基础信息表
2.3 人形机器人入户服务的最大痛点:安全性
2.3.1 自主行动导致安全风险
2.3.2 被动干扰导致安全风险
2.3.3 意外跌倒导致安全风险
2.3.4 部件失能导致安全风险
3 深入应用FPGA的室联人形机器人控制系统框架设计
3.1 设计思路
3.1.1 将部分感知设备移到各居室的天花板
3.1.2 将部分算法、管理子系统卸载到外置机箱
3.1.3 添加语音收发模块、用于连接居家口语大模型服务器的通信接口
3.2 系统框图
3.3 室联感知子系统(浅蓝色)
3.4 室联运算子系统(红色)
3.4.1 人形机器人内置运算二级子系统
3.4.2 人形机器人外置运算二级子系统
3.4.3 射频通信二级子系统
3.5 多 “人” 协作模式
3.6 语音收发子系统(含大模型下传指令解析功能)(棕色)
3.7 关于居家口语大模型的服务器、预训练语料
4 结语
声明:
1 本文篇幅较长(正文一万一千字),各节内容的独立性较强,建议读者根据目录以及自己的兴趣选阅。
2 本文由笔者(并非人形机器人业内人士)在多方学习的基础上独立创作。限于检索资料的范围,除了特殊声明之处,笔者不声称所述技术思想是本人原创。任何先于本文公开发布的、与本文部分内容相同或相近的技术信息的原创者,享有更优先的知识产权。
3 请读者从实用主义的角度看待本文所述技术思想,若有想法/问题/质疑,欢迎留言、私信、微信(见文末)交流。
正文:
0 引言
近期关于人形机器人应用场景的讨论非常热烈,反对者的观点是:
人形机器人由于工作在非结构化场景中、处理非结构化任务、需要应对突发情况、当前尚未深入研究其安全性及对策、内部有效容积小且分成几块、很多情况下可以由AGV/轮足车+机械臂(例如波士顿动力的stretch)予以替代等因素,在几年之内不可能找到适合的应用场景。
笔者的本行是底层技术(FPGA应用研发),但自2017年起一直关注机器人、人形机器人领域,近期在知乎发布了两篇技术文档:林伟:在实用化人形机器人研发流程中深入应用FPGA技术的流程图(版本A)(基于工信部《人形机器人创新发展指导意见》)(参考资料1)、林伟:在实用化人形机器人控制系统中深入应用FPGA的框架设计(基于特斯拉Optimus-Gen2的硬件系统)(参考资料2),并将其在业内广为推介。
本文拟就上述观点阐述一些应对思路,进而以此为基础,结合上述两篇技术文档提出一个进阶技术方案,以期协助人形机器人行业的潜在投资者理清思路、看到希望,促进更多资源投入到本文关注的技术领域,助力人形机器人尽快走向实用。
基本思路:
人形机器人的根本特征是拟人性,拟人性导致的亲和力使其适合用于室内家政服务。
室内家政服务的环境、任务对象具备一定程度的结构化特征,导致将人形机器人应用于这一场景在技术上具备可行性。
以居所基础信息表为核心将居所及其内部家具、家电在宏观层面上参数化,从而将人形机器人的非结构化宏观任务切分为更易实现的局部子任务。据此举例、梳理将人形机器人应用于室内基础家政服务过程中的技术要点,提供参考流程。
针对入室服务的高安全性需求,借鉴车路协同汽车自动驾驶系统将大量传感器布置在路侧以提供全局视野、用路侧运算模块分担车侧的算力与功耗压力的思路,提出了室联人形机器人的概念,基于这一概念对在人形机器人控制系统中深入应用FPGA的框架设计进行了升级。
在框架设计中增加了语音收发子子系统,就居家口语大模型的部署方式及其安全性提供了参考意见。
[本文用居所指代整套房子;用居室指代房子中的一个房间,包括门厅、厨房、洗手间等]
1 人形机器人对室内家政服务任务的结构化
1.1人形机器人在室内家政服务中的比较优势
1.1.1 人形机器人拟人性的7个维度
拟人性,是人形机器人区别于其他类型机器人的根本特征。
笔者于2021年1月在知乎发布了文章(以下称之为参考资料3),其中将 “拟人性” 划分为6个维度,本文取其中的5个:身体结构像人、可见器官像人、运动模式像人、动作姿态像人、交流内容像人,再添加2个维度 -- 面部表情像人、安全性像人。
1.1.2 拟人性在室内家政服务工作中的比较优势
如众多网络文章中述及的,人类的生活环境(尤其是居家环境)是针对人类的身体特征而设计的,身体结构、运动模式像人的人形机器人在家政服务应用场景下较非人形机器人更具适应性。
进而,当一个人形机器人在拟人性的上述7个维度都做得很像人(以下称之为 “高拟人度人形机器人”),对于一部分人类个体来说,它将不再是一个冷冰冰的工具,更像是一个同类、一个服务人员,从而更具亲和力。
这种亲和力,是高拟人度人形机器人在服务这类人的细分市场中相对于非人形机器人的比较优势。
1.1.3 潜在的重要用户:宠物爱好者
一般来说,喜欢宠物甚至将宠物视为家庭成员的人,心理上更倾向于接受、认同新加入的家庭成员。将宠物爱好者作为一个人群,对比于上述可能将高拟人度人形机器人视为一个同类、一个服务人员的人群,两者之间的重合程度很可能足够高,以至于具有商业价值。
[本小节的思路系笔者的直观推测。建议关注其商业价值的业内公司/投资者委托专业机构进行评估。]
1.2 居所室内环境的特征与结构化
1.2.1 室内空间的物理参数友好
居室内空间中的光照情况比较稳定,受日光影响较少,并且没有雨雪风沙等天气因素的干扰,温度、湿度也相对稳定。工作于其中的人形机器人的感知系统,在同等成本下能够以显著高于室外环境的可靠性、精度实现对环境的感知;工作于其中的射频通信系统,也将不必考虑各种极端天气的影响。
1.2.2 居所具备较好的结构化潜力
居所的居室布局千变万化,居室内的家具、家电的布置方式千变万化,由此导致室内家政服务人形机器人面对的是非结构化的应用场景。
然而,居所、家具、家电都是工业制成品,为了便于制造及运输,其中大多数的主体形状是长方体、圆柱体以及它们的变形体的组合(包括正-负组合),致使由这些近规则体构成的家庭室内环境可以在很大程度上由人形机器人的控制系统在宏观层面上予以结构化。
1.2.3 居所结构化的思路
分析各居室内图像及点云、提取简单的点/线/面/棱/拐角/顶角,量化分析这些几何元素在空间中的形/位参数,再以手动标注或自动识别(基于CNN或专业大模型)的方式,将这些几何元素与居所布局、居室结构、家具及家电的外形轮廓实现对应,建立居所内自顶(居所)向下(家具、家电)的分层立体几何模型;进而建立针对各居室及室内/室间对象的、全居所统一的、可以作为自顶(居所)向下(任务目标子区域)进行任务切分的依据的宏观结构化模型。
1.3 基于任务对象结构化程度的室内家政任务分类
1.3.1 面向结构化/准结构化对象的基础家政任务
在需要人形机器人执行的家政任务中,很大一部分的任务对象具备结构化/准结构化特征,从而使这类任务的执行过程能够被以(相较于面向非结构化对象的任务)更少的成本予以设计、实现。
本文将这些任务称为基础家政任务,以下予以分述。
1.3.1.1 使用自动化终端设备的基础家政任务
自动化终端设备,是指洗衣-甩干机、洗碗机、烘干机、电冰箱/柜、微波炉、烤箱、电饭煲、空气炸锅、榨汁机、空调、吸尘器、扫地机器人、电热/太阳能淋浴器、电动窗帘、擦鞋机等家用电器。
功能特征:用内置的、专业化的、电动的终端机构完成某种具体的家务,对外仅提供以 “傻瓜化操作” 为目标而设计的(否则卖不出去)的用户操作接口,非常适合由人形机器人操作(勿怒,无意diss)。
结构特征:外壳形状相对固定,整体姿态相对固定,操作接口在外壳上的位置固定。
其在居所中的位置相对固定(即使移动了也较易识别)、占据的空间区域相对固定,连同功能特征参数、结构特征参数一起,能够被人形机器人控制系统(借助各种传感器)以量化方式予以实时标定、实时更新。
使用自动化终端设备的家政任务:以基于现场感知的反馈控制方式从其外形上定位上述用户操作接口、对其执行操作,将待处理的任务对象投入这些设备的进料口,或者将设备与任务对象按预定义的方式对接,再依照固定的时序流程(可能需要从多个流程中做出选择)按动操作接口中的按钮,由这些设备自动完成任务,再将设备中经处理的任务对象由设备出料口(可能复用进料口)取出,或者将设备与任务对象的对接状态复归为执行任务之前的状态。
1.3.1.2 基于局部结构化被动平台的基础家政任务
局部结构化被动平台,是指桌面、床面、灶台面、切菜板面、地面、墙面、天花板等用于承载任务对象的空旷平面。
这些平面的在居所中的位置、占据的空间区域相对固定,姿态相对固定(多为水平或与地面垂直),表面色彩、纹理相对固定且具备一定程度的规律性,能够被人形机器人控制系统(借助各种传感器)以量化方式予以实时标定、实时更新。
在这类平台上放置、悬挂的任务对象在人形机器人传感器(光学/红外线传感器、RGBD传感器、激光雷达等)的视野中,都表现为处于一个相对空旷的局部平面中,工作目标物作为分析对象更容易从包含背景、平台的图像/点云中被分割出来,从而减少家政任务执行算法的设计工作量,或(/和)减少针对局部任务的端到端神经网络训练的工作量。
特斯拉Optimus-Gen2叠衣服的视频,演示的就是这种应用场景(链接:马斯克展示机器人“擎天柱”叠衣服:还不能自主执行,但未来肯定可以_哔哩哔哩_bilibili)。
1.3.1.3 基于局部准结构化被动容器的基础家政任务
局部准结构化被动容器,是指电冰箱/柜、碗柜、书柜、衣柜、鞋柜、洗涤槽、洗手盆、坐便器等具备结构化外形或(/和)内部结构的容器。
这类容器的在居所中的位置、占据的空间区域相对固定,姿态相对固定,其内部空间、内部隔间的结构参数也基本固定,并且能够被人形机器人控制系统(借助各种传感器)以量化方式予以实时标定、实时更新。
人形机器人以基于现场感知的反馈控制方式向这类容器中放置/投入工作目标物、从这类容器中移出工作目标物,都表现为对一个准结构化的空间进行操作(参考资料4),任务对象作为被分析的目标更容易从包含背景、容器的图像/点云中被分割出来,从而减少家政任务执行算法的设计或(/和)端到端神经网络训练的工作量。
当然,推而广之,整个房间乃至整套居所,基于第1.2.2节所述的方法,都可以被人形机器人控制系统视为一个全局结构化的大容器。
1.3.1.4 操作局部结构化被动运动部件的基础家政任务
局部结构化被动运动部件,是指居室门、橱柜门、冰箱门、冰柜盖、抽屉、台式PC的键盘托板、带锁紧把手的升降桌、窗页、窗帘、百叶窗等可以由人形机器人用手推、拨而被动在1个(或近似1个,例如抽屉)自由度上做简单运动的家具部件。
这类部件在居所中的位置、占据的空间范围相对固定,姿态相对固定,其上为方便人类操作而设置的专用子部件(例如门把手、升降桌锁紧把手)的位置、姿态相对与部件本体也基本固定,并且能够被人形机器人控制系统(借助各种传感器)以量化方式予以实时标定、实时更新。
人形机器人以基于现场感知的反馈控制方式操作这些部件以使其打开、关闭,都表现为操作一个近似结构化的工作目标物,部件作为分析对象较容易从图像/点云中被分割出来并予以识别,进而读取预存的、针对这个部件的操作流程,将其用作设计任务执行算法的基础。(链接:波士顿动力机器人帮助伙伴开门BostonDynamics_哔哩哔哩_bilibili)(请注意,视频中的门轴带有用于自动关门的弹簧,增加了任务难度)
1.3.2 面向非结构化对象的复杂家政任务
非结构化对象的外部形态或(/和)受力状态随时改变,与之关联的任务需求复杂多变且不可预见,典型例子是人类个体。
面向非结构化对象的家政任务的实例:怀抱婴儿,扶老人行走,给老幼病残人士洗漱、喂饭、梳头、理发、刮胡子、换衣服。
2 人形机器人执行基础家政任务过程中的技术要点
第1.3.2节所述的复杂家政任务对人形机器人的功能要求非常全面、性能要求非常高,笔者目前看不到其被人形机器人执行的前景。
与之相对应,笔者认为,第1.3.1节所述的基础家政任务,近几年内可能由人形机器人予以承担。
因此,本节设计了人形机器人执行基础家政任务的一种流程,进而针对各个步骤以及步骤中的一些技术要点予以说明,以期为业界提供一个比较系统的应用场景描述。
2.1 入户初始化:参数化标定居所内的对象
在人形机器人进入某个客户的居所之初,应获取与所需执行的家政服务相关的、以预定义的格式化数据表(称为 “居所基础信息表”)的形式进行传输与存储的居所基础信息,这就是人形机器人执行基础家政服务任务的入室初始化。其核心在于:
通过提取、使用居所及任务对象的结构化特征参数,将非结构化的宏观任务空间切分为更易实现的局部子任务。
[本节内容可能是原创,若有读者了解此前公布过的相关工作,请告知其出处,谢谢 -- 笔者将在评论区就此予以说明并将其置顶。请关注本文内容原创性的读者关注评论区]
2.1.1 居所参数初始化
在入户之初,人形机器人获取居所本体的结构化参数包括:
各房间的几何尺寸,各房间互相之间的空间位置关系、互联拓扑关系,各个门的位置、尺寸,各门轴在门框上的位置,各门扇相对于门框的转动方向、转动角度区间,各门把手的位置、握持方式、扭转方向及扭转角度区间,室内可行走区域的形状、位置、尺寸,允许人形机器人的肢体进入的空间区域的形状、位置、尺寸。
人形机器人在入户之初将这些参数存入一个可以随时调用的居所基础信息表。
2.1.2 任务对象参数初始化
获取居室内各任务对象(即第1.3.1节所述的结构化/准结构化任务对象,下同)的外部几何参数:位置、外部轮廓的尺寸,当前姿态。
获取居室内各任务对象的功能参数,以洗衣-甩干一体机为例(不考虑连接电源、连接进出水管),其功能参数包括:
单次洗涤衣物的重量上限、体积上限,滚筒/转筒盖的位置、盖轴的位置,滚筒/转筒盖的打开方向及其相对于转轴转动的角度范围,滚筒/转筒盖把手的位置及把持方式,操作面板的位置、图像,操作面板上各按钮的位置,按动按钮所需的力的大小,按钮的各种时序组合所代表的洗衣-甩干系列指令。
人形机器人在入户之初将这些几何参数、功能参数存入随时可以调用的居所基础信息表。
2.1.3 居室子区域、任务对象图像的初始化
获取居所内涉及服务任务的各个子区域(尤其是门、窗、墙壁悬挂/内嵌物等图像特征明显且位置相对固定的子区域)在各个角度的图像,获取各任务对象从各个视角(包括易翻覆任务对象 -- 例如方凳 -- 在翻覆状态的各个视角)看过去的图像,作为执行服务任务过程中进行对比的目标。
人形机器人在入户之初将这些图像存入随时可以调用的居所基础信息表。
2.2 人形机器人执行一次任务的技术过程推演:用洗衣机洗衣服
2.2.1 过程推演
借助第2.1节的居所基础信息表,我们推演人形机器人小明使用转筒式全自动洗衣机(属于第1.3.1.1节所述的自动化终端设备)洗衣服的技术过程。
居所的主人林先生对小明说:“请把床上的夹克衫洗干净。”
小明的自然语言处理系统从这句话中获取指令的关键要素:任务(洗衣服)、任务对象(夹克衫)、任务对象当前所处的位置(床上),然后将任务分解为如下流程:
走到床边 -> 拿夹克衫 -> 评估夹克衫是否适用于居室中的洗衣机 -> 走到洗衣机旁边 -> 将夹克衫放进洗衣机 -> 操作洗衣机按钮以完成洗衣+甩干(本例为简化叙述而假定洗衣机的电源、进出水管、洗衣液容器日常处于连接状态并且相关操作的复杂度可控,省略了烘干步骤)。
按照上述流程,小明调用居所基础信息表(最后更新的版本,下同),结合传感器获取的当前获取的室内状况,确认自己在居所内的位置,再调用居所基础信息表中存储的床的位置、室内可行走区域的形状、位置、尺寸,规划从自己当前的位置到床边的路径。
小明走到床边,调用居所基础信息表中存储的床的图像数据集中拍摄角度与自己当前所处位置的拍摄角度最相近的图像,将其与当前拍摄的床面图像对比,确认夹克衫在床上所处的位置,将其拿起。
小明用双手按照预设的力量(由指端触觉传感器测得)将夹克衫团成一团,目视估算其的体积,用上肢关节内置的力传感器测量其重量,然后调用居所基础信息表中存储的本居室的洗衣机单次洗涤衣物的重量上限、体积上限,确认夹克衫的重量、体积不超限。
小明再次用传感器获取当前的室内状况,调用居所基础信息表中存储的洗衣机的位置,规划从床边到洗衣机旁边的路径。
小明走到洗衣机旁边,调用居所基础信息表中存储的转筒盖的位置、打开方向、转筒盖把手的位置及把持方式,用类似于波士顿动力长脖子机器狗开门的方式掀开转筒盖,将夹克衫放进去,合上转筒盖。
小明拍摄洗衣机操作面板的图像,调用居所基础信息表中存储的操作面板上各按钮的位置参数,确认各按钮的位置,调用预存的各按钮的功能、洗衣服的操作流程,按照流程规定的时序关系按动按钮以设置洗衣机的工作模式并启动洗涤,由洗衣机自动完成注水、加注洗衣液、洗涤、甩干的过程。
小明在上述走动过程中,如果探测到路径前方的门处于关闭状态,则调用居所基础信息表中存储的这个门的信息,确定其门把手的位置与扭转方向,确定门轴的位置、门扇转动的方向(朝向自己还是背离自己)及其扫过的地面区域,然后用波士顿动力长脖子机器狗开门的方式把门打开。
2.2.2 技术要点:充分运用居所基础信息表
由上述推演可知,其中非常关键的技术要点是:充分运用在人形机器人入室初始化过程中建立的居所基础信息表。
居所基础信息表将居室内的工作环境结构化,忽略大量的细节信息(相当于 “降维”),将工作环境抽象为一组预定义格式的数据,使人形机器人在执行任务过程中得以及时获取所涉环境的宏观信息、任务对象的结构信息,并将人形机器人的非结构化宏观任务切分为更易于实现的局部子任务,切分后的子任务或者类似于已经被实现了的人形机器人动作,或者可以预见能被人形机器人实现。同时,降低了多模态融合环境感知、环境建模与解算、任务建模与解算的实时运算工作量,降低了各肢节运动规划的实时运算工作量。
2.2.3 技术痛点:实时更新居所基础信息表
在现实生活中,居室里的一部分对象,例如椅子、凳子、杯子、水壶、书籍、笔记本电脑、扫地机器人,其位置、姿态、状态处于随时变化的过程中,居室里的人、宠物也经常处于运动过程中。
这些对象在不作为任务对象的时间段内,其所占据的空间区域(及其临近的安全冗余区域)应被从人形机器人的可触及空间区域中实时予以抠除;或者,当人形机器人预判这两个区域集彼此之间即将或(/和)已经出现重叠时,应及时采取相应的措施。
所以,居所基础信息表的信息处于实时变化中,需要实时予以更新。相关信息的实时、有效获取,将成为技术痛点。
2.3 人形机器人入户服务的最大痛点:安全性
入户服务的人形机器人作为日常与人类混居的自动化机械电子设备,其安全性必然是用户考虑的首要因素。
当前人形机器人已经实现的功能包括:走几步、跑起来、上下台阶/坡道、踩碎石、后空翻、一脚踹不倒、开门、拧瓶盖、倒水、叠衣服、伸臂挪移东西,尚未有研发单位专门展示其进一步的安全性设计的效果。
这是反对者否定人形机器人应用前景的主要依据之一,也是其入户服务的最大痛点。
以下梳理人形机器人在入户服务的应用场景中可能出现的风险。
2.3.1 自主行动导致安全风险
人形机器人是自主走动、自主执行任务的机械电子设备。其制造商必须在设计上尽最大努力以确保这种自主行动不会危及人类个体(以及宠物,见第1.1.3节)的安全。
协作机器人的设计初衷与此类似,相关信息见参考资料5。
与协作机器人不同的是,入户服务的人形机器人为了尽可能多地执行在第1.3.1节所述的、面向结构化/准结构化对象的基础家政任务,其运动区域、其肢节触及区域的几何形状将是复杂、多变的,还可能(以远较协作机器人复杂的方式)与人类个体/宠物的活动区域重合,并且,这种重合的方式与出现的时刻将因由执行任务、人类个体/宠物的不可预测的行动而实时变化。
所以,人形机器人在为执行各种基础家政任务而自主行动的过程中,必须实时感知邻近区域中是否有、是否可能出现人类个体或(/和)宠物,并据此实时修改环境模型、实时评估发生碰撞的风险、实时修改运动规划算法生成的各关节轨迹点序列以实现避让。如果避让不及,也应如协作机器人那样,在关节内置力传感器感知到非预期的阻力之后,中止肢节的运动。
2.3.2 被动干扰导致安全风险
人形机器人执行基础家政任务依赖于本体内置的各种传感器。如果传感器在各种因素的干扰下性能下降甚至失效,将导致人形机器人控制系统对任务环境做出错误的判断,导致安全风险。
例如,高拟人度人形机器人的身高、体积与人类个体相似,如果有一个人从离人形机器人较近的区域走过,将导致其内置的多个传感器的探测视野在相应的方向上被大面积遮挡,从而影响其对周边环境的感知、判断,进而可能引发安全风险。
2.3.3 意外跌倒导致安全风险
高拟人度人形机器人的重心高(直立行走)且支撑范围窄(双足支撑)导致其平衡困难。在因突发事件导致其失去平衡、跌倒的情况下,身体落地过程中各肢节在重力持续作用下积累的动能有可能危及临近区域内人类个体、宠物的安全,或(/和)危及自身、临近区域内器物的安全。
2.3.4 部件失能导致安全风险
人形机器人作为一个复杂的机械电子设备,在长期执行家政服务任务的过程中,其中某些部件难免因故障/老化而失去功能(例如1个伺服电机烧毁),导致其本体的运动学模型、动力学模型发生根本性的改变(失去1个自由度),从而危及临近区域内人类个体、宠物的安全,或(/和)危及自身、临近区域内器物的安全。
3 深入应用FPGA的室联人形机器人控制系统框架设计
2024年3月底,笔者在知乎发布了技术文档《在实用化人形机器人控制系统中深入应用FPGA的框架设计》(参考资料2),从深入应用FPGA的角度,针对以多通道+多模态信息采集、 “感-算-控” 一体化为特征的实用化人形机器人控制系统提供了一个具象化的设计实例、参考技术方案。
室内家政服务应用场景对实用化人形机器人的功能提出了更为具体的要求,所以有必要对上述框架设计进行升级。
[本节内容可能是原创,若有读者了解此前公布过的相关工作,请告知其出处,谢谢 -- 笔者将在评论区就此予以说明并将其置顶。请关注本文内容原创性的读者关注评论区]
3.1 设计思路
3.1.1 将部分感知设备移到各居室的天花板
考虑第2.3.2节所述的安全性风险,针对人形机器人本体传感器视野受限且易被遮挡的功能痛点,借鉴车路协同汽车自动驾驶系统将大量传感器布置在路侧以提供全局视野的思路,将人形机器人感知设备的一部分设置在各居室的天花板上、与机器人本体进行实时射频通信,利用这些传感器视野开阔、布置位置灵活的优势实现对任务环境的全方位实时感知。这种人形机器人可以被称为:
室联人形机器人。
3.1.2 将部分算法、管理子系统卸载到外置机箱
人形机器人整体体积受限,除了支撑结构、电源、动力系统必须占用其内部空间之外,还需要将很多空间用于使其可见器官像人(第1.1.1节所述拟人性的7个维度之一),例如,用体积足够、形状逼真的弹性材料模拟人类的肌肉组织,这将导致其内部容积进一步减少。再加上厚实、连续的弹性材料对散热能力的严重制约,导致人形机器人的结构对其控制系统的设计产生严重的限制。
为此,本文借鉴车路协同汽车自动驾驶系统用路侧运算模块分担车侧的算力与功耗压力的思路,在居所中增设了人形机器人外置机箱,将尽可能多的、可以容忍射频信道传输延迟(从发送端应用层数据帧尾部进入通信协议栈到接收端应用层数据帧头部离开通信协议栈的时间差,即所谓 “尾进头出”)的算法放置其中(以下将这些算法称为可卸载算法,意为可以从人形机器人本体卸载到外置机箱中的算法),以较低的成本+较高的冗余度分担人形机器人本体内置控制系统硬件设计在安装空间、电池续航性能、散热功率方面的压力。
基于同样的考虑,将管理子系统(非实时性)从人形机器人本体移到了外置机箱。
3.1.3 添加语音收发模块、用于连接居家口语大模型服务器的通信接口
第1.1.1节所述拟人性的7个维度之一是交流内容像人,这就要求人形机器人具备高度拟人化的语音交流能力。为此,本节在控制系统框架设计中添加了语音信号收发模块,并且提供了语音信号收发模块对外连接(楼宇/小区内的)居家口语大模型服务器的通信接口。
3.2 系统框图
图1 深入应用FPGA的室联人形机器人控制系统框图(建议下载到PC观看)
图1以参考资料2图2为基础,增加了一个结构上独立于人形机器人本体、放置在居所内的外置机箱,用于控制布设在居所环境中的传感器、处理多模态传感器信息、执行可卸载算法,并且对外实现与居家口语大模型服务器的通信,增加了与这个大模型服务器通信接口紧耦合的语音收发子系统。
对比图1与参考资料2图2,两者之中名称相同的模块功能基本相同,本文不再赘述。以下仅介绍不同的部分。
3.3 室联感知子系统(浅蓝色)
本子系统拟在各居室天花板的4角装设RGB-D摄像头,实现对各居室空间的无死角3D建模、对居所及其中对象的实时监控。
或者,在成本不敏感的应用场景下,又或者FMCW激光雷达的成本大幅度降低(例如核心功能实现芯片化),在各居室天花板的4角装设FMCW激光雷达(能测量目标的3D点云、径向运动速度),实现对室内空间的无死角3D建模与运动速度联测(综合4个FMCW激光雷达测得的目标点相对于激光雷达的径向运动速度);同时将上述RGB-D摄像头降级为普通摄像头以降低总成本。
所有这些外置传感器的测量数据都实时汇总到外置机箱内的FPGA中,由其中的模块统一进行预处理,预处理后的数据流经模块、模块传输给外置机箱中的运算CPU。
本子系统获得的信息被用于建立、实时更新第2.1.1节所述的居所基础信息表,其存储位置是位于FPGA内部的RAM块,以确保其更新、调用的实时性。
3.4 室联运算子系统(红色)
3.4.1 人形机器人内置运算二级子系统
本二级子系统的各模块,相对于参考资料2图2中的同名模块,完全保留的仅有关节运动轨迹点插值模块。
此外,在需要由运算CPU、运算CPU算法任务协处理模块实现的算法(包括传感器融合上层算法,对环境、本体、工作目标的实时建模,运动规划)中,仅保留不能容忍射频信道传输延迟的算法成分(具体的划分需要在实施过程中视算法内容、射频信道传输延迟及传输带宽的具体情况而定)。
3.4.2 人形机器人外置运算二级子系统
本二级子系统的各模块所执行的算法,即为参考资料2图2中的同名模块所执行的算法减去第3.4.1节所述算法之后剩余的部分。
3.4.3 射频通信二级子系统
本二级子系统由分别位于人形机器人本体、外置机箱(以及天花板上)的一对通信模组组成。
其中,每个通信模组包括一个射频通信组件、一个位于FPGA中的射频通信组件驱动模块构成,两者的传输延迟相加,构成第3.1.2、3.4.1节所述的射频信道传输延迟。
位于人形机器人本体的射频通信组件位于Ta的头顶部位,连接外置机箱内FPGA的射频通信组件位于各居室天花板的中央部位。不论人形机器人走到居所中的哪个居室,都能实现其内置射频通信组件与连接外置机箱内FPGA的射频通信组件直传(而非依赖多径效应)通信。
本二级子系统要求射频通信协议具备大带宽、低延迟特征,以高效传输两部分运算子系统协同运行所需传输的大量数据。
关于传输的可靠性问题,本二级子系统对射频通信协议的要求并不很高,这是由第1.2.1节所述的室内环境的稳定性、上个自然段所述的直连信道决定的。
具体的射频通信协议选择,需要在本框架设计的实施阶段由系统架构师、算法工程师、射频通信工程师、FPGA工程师合作确定。
同时,本二级子系统也需要传输人形机器人本体与管理子系统之间交换的信号。其中,尤其需要以最高的传输优先级确保世界时时标、同步信号序列传输的实时性。
3.5 多 “人” 协作模式
基于以上几个小节述及的机制,室联人形机器人可以运行在多 “人” 协作模式。以两 “人” 协作搬动大件贵重物品为例:
感知、运算、控制子系统协同控制两个人形机器人各关节伺服电机的转动角度及时间-角度曲线,使两者与被搬动物体合为一体,等效于一个四足(整体支撑非常稳固)、四手(对被搬动物品的把持非常稳固)的人形机器人。
这种工作模式下,对人形机器人控制系统反馈控制环路的实时性提出了更高要求,更适合发挥FPGA的性能优势。
3.6 语音收发子系统(含大模型下传指令解析功能)(棕色)
上传通道:语言信号收发模块接收用户发出的语音信号、将其转换为格式化的数字量序列、传输给人形机器人本体内置FPGA,由后者经射频通信二级子系统发送给外置机箱,再经外置机箱上的光纤通信接口发送到居家口语大模型服务器。
居家口语大模型服务器完成端到端居家口语处理,生成格式化数字量序列,其中包含回复语句或(/和)识别出的用户指令代号及相关参数(例如第2.2.1节的推演过程中由小明从林先生的语言中获取的指令的关键要素),经光纤信道发回给信源人形机器人外置机箱。
下传通道:外置机箱中的FPGA从格式化数字量序列中解析出回复语句信息、用户指令代码及参数,将回复语句信息经射频通信二级子系统发送给人形机器人本体内置FPGA,最终交由语言信号收发模块将其转化为回复用户问话的语音。
同时,外置机箱中的FPGA将解析出的、来自居家口语大模型服务器的用户指令代码及参数转发给外置机箱中的运算CPU,由后者根据用户指令、在运算CPU算法任务协处理模块的协助下执行后续的算法。
3.7 关于居家口语大模型的服务器、预训练语料
鉴于目前在较低成本下实现大模型推理的延迟很长、不具备实用价值(参考资料6),本文将居家口语大模型置于楼宇/小区共享的服务器中,以分摊实用化大模型推理系统的成本(是否合理需由专业人士予以评估)。
另外,笔者作为预防人工智能反叛问题的较早研究者之一(参考资料7),七年来一直极为关注自然语言处理技术的危险性。
对此,鉴于实用化的室内家政服务人形机器人必须具备居家口语交流能力,并且必须能解读用户口语中的指令,更重要的是,将自然语言处理大模型应用于人形机器人的趋势已经无法阻挡,笔者建议,将室内家政服务人形机器人所用自然语言处理大模型的预训练语料局限在居家口语的范围之内,以防大量部署的、具备联网能力和深度影响物质世界能力的人形机器人具备针对物理世界(包括人类及其社会)的通用建模能力(更多相关思路将在后续技术文档中予以详述)。
4 结语:行动最重要
2023年11月,工信部发布《人形机器人创新发展指导意见》,对人形机器人提出了以应对真实场景下的复杂环境与任务、应对突发情况为特征的实用化功能需求,为业内竞争提供了指导方向。
人形机器人的拟人性导致的亲和力,使其适合用于室内家政服务。
室内家政服务的环境友好,其任务对象具备一定程度的结构化特征,导致将人形机器人应用于这一场景在技术上具备可行性。
基于参考资料2提出的技术方案,本文提出了深入应用FPGA的室联人形机器人控制系统,在安全性维度上提供了更优的解决方案,将有助于人形机器人尽快走向实用。
建议从事人形机器人研发的各家企业、机构借鉴本文提供的技术信息并予以斧正、发展、实施,建立属于自己的专利护城河,在竞争中共同推进人形机器人尽早在室内家政服务场景中大规模落地,尽早实现人形机器人产业的良性循环。
(作者微信:linweifpga,欢迎留言、微信交流)
------------------------------------
参考资料:
1 林伟:在实用化人形机器人研发流程中深入应用FPGA技术的流程图(版本A)(基于工信部《人形机器人创新发展指导意见》)
2 林伟:在实用化人形机器人控制系统中深入应用FPGA的框架设计(基于特斯拉Optimus-Gen2的硬件系统)
4 面向多种约束操作任务的机械臂运动规划研究,作者:刘怡舟,博士毕业论文,2021,哈尔滨工业大学
6 低资源集群中的大语言模型分布式推理技术,作者:冯文佼等,2024,中兴通讯技术
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。