机器狗能当羽毛球搭子了！仅靠强化学习从0自学-J9九游会·APP

2025-06-03

机器狗能当羽毛球搭子了！仅靠强化学习从0自学还涌现出类人回位行为

　　研究人员开发了基于强化学习的机器狗全身视觉运动控制策略，使机器狗能够自学羽毛球哐哐对打。

　　2.机器狗最高挥拍速度达到12米/秒，在与人类选手的协作比赛中，甚至涌现出类人行为。

　　4.除此之外，机器狗还自主学习动态调整相机姿态，根据任务紧迫性动态调整步态。

　　无需人工协助，仅靠强化学习，机器狗子就学会了羽毛球哐哐对打，就像这样——

　　基于强化学习，研究人员开发了机器狗的全身视觉运动控制策略，同步控制腿部（18个自由度）移动，和手臂挥拍动作。

　　在与人类选手的协作比赛中，某一回合连续击球10次，甚至涌现出如击球后回位中心的类人行为。

　　该研究在各种环境中进行了大量实验，验证了四足机器人预测羽毛球轨迹、有效导航服务区域，以及对人类球员进行最精准打击的能力。

　　它配备了一个带有全局快门的ZED X立体相机用于羽毛球感知。相机在坐标系中计算出的羽毛球位置，预测拦截位置，这个值和机器人本体感知观测值一起被喂给强化学习策略。

　　此外，羽毛球拍相对于腕关节呈45°角定向。研究人员表示，根据早期对不同朝向的仿真测试，这被证明是最有效的配置。

　　如下图所示，在部署过程中，狗子以400 Hz的频率运行，同时机器人控制策略以100 Hz的速率更新观测值并发送关节位置指令。

　　系统的感知包括羽毛球位置测量、状态估计和轨迹预测，它在Jetson AGX Orin模块上以60 Hz的频率异步运行。

　　整个过程中，虽然存在一些失误，但狗子还是能够根据不同的速度和落点的来球做出适当反应。

　　平均来说，感知模块在对手机球后需要花费0.357秒来判断拦截轨迹。通常，羽毛球会在0.654秒后达到四足底座上方1.25米然后被拦截。

　　在给定真实感知（ground-truth perception）的情况下，研究人员评估了在指令挥拍时间到达拦截位置0.1米范围内（大约是球拍中心到边缘的距离）的击球百分比。

　　不过，当狗子站在发球区边界，或者羽毛球直接落在狗子身后时，机器狗预测羽毛球轨迹并成功拦截就变成了一件很有挑战性的任务。

　　因为当羽毛球从正上方或正后方接近狗子时，它必须直接向上俯仰。这对机器狗来说很有难度。

　　上图中的折线统计图B，绘制了执行的EE速度和最大基座角速度相对于指令速度的曲线。

　　在执行10m/s的挥拍速度时，狗子基本都能跟踪指令速度；速度超过10m/s时，精度就会下降。

　　当命令他以19m/s挥拍时，机器狗出现了最高执行速度，即12.06m/s。相比之下，业余羽毛球运动员可以达到20m/s至30m/s的挥拍速度。

　　如材料与方法部分所述，系统在接近其电流和关节速度极限的情况下运行以实现这些指令。此外，更高的指令速度导致基座角速度增加，表明基座姿态控制与操作器挥动之间存在耦合。

　　上图中的C部分显示了在击球时间前后球拍与目标位置之间的距离，球拍在指令的击球时刻精确到达其最近点。

　　在指令12m/s挥拍时，机器狗执行的平均挥拍速度为10.8m/s，平均位置误差为0.117米。

　　此外，整个羽毛球大战中，机器狗会自主学习动态调整相机姿态，根据任务紧迫性动态调整步态，包括短距离微调姿态、中距离不规则步态、长距离类疾驰（Galloping）步态等。

　　比如，它以快跑进行远距离快速拦截，并在近距离回击时稳定，动态协调手臂和腿部。

　　打羽毛球的难点，就是需要运动员在步法和上肢运动之间进行复杂的相互协调作用。

　　更进一步来说，需要机器狗在动态环境中协调下肢与上肢之间的运动，并使肢体控制与感知对齐。

　　一方面，当前控制器和硬件存在不足；另一方面，羽毛球对感知、移动和操作之间复杂的相互作用提出了极高的要求，需要平衡「快速响应的移动」与「精确的手臂运动」。

　　尽管在原理上，机器人拥有大量的自由度以实现灵活运动，但在实践中，这很大程度上取决于控制算法。

　　在实际应用中，另一种大家熟知的球类——乒乓球，在精确性和策略方面的研究都更为广泛，这类情况目前主要的解决办法是使用带有外部视觉系统的固定基座或龙门式操作器。

　　相比之下，本研究强调全身视觉运动技能，并仅依赖机载感知，整合了腿式移动和手臂挥动——这种方法更好地模拟了人类打羽毛球时候的方式。

　　该策略由一个利用真实世界相机数据的感知噪声模型提供信息，从而确保仿真与部署之间感知误差水平的一致性，并促进学习主动感知行为。

　　在这样的框架中，教师策略没有动力去学习主动感知行为，因为它已经能够获得完美的观测结果；学生策略则仅基于部分观测和由本体感知和感知历史重构的潜在向量来模仿这些行为。

　　因此，两种策略都没有发展出主动感知行为，并且在用于控制的信息上出现了差异。

　　此外，该方法还包括一个羽毛球预测模型和用于鲁棒运动控制的约束强化学习，以增强部署准备度。

　　与基准相比，在没有明确的视野范围奖励的情况下，机器狗即可实现更低的感知误差，和更高效的机械功率使用。

　　团队表示，当前系统主要依赖一个商用立体相机上的扩展卡尔曼滤波器（EKF）进行羽毛球状态估计。

　　该方法可以通过整合额外的传感模态来改进，例如通过扭矩和声音进行冲击检测，或加入额外的 RGB（红、绿、蓝）、深度或事件相机，以增强机器人在更激烈的游戏场景中的物理交互响应。

　　鉴于人类球员通常通过观察对手动作来预测羽毛球轨迹，人体姿态估计也可能是一种提高策略性能的有价值模态。