September 29, 2024
抓取是机器人技术中的一个基本而重要的问题,是机器人操纵的基础。尽管这一问题至关重要,但解决这一问题的办法远远不能令人满意。
在本文中,我们介绍了rgbd-grasp,这是一种7自由度的抓取检测管道。我们将单眼RGBD图像作为输入,并输出6自由度抓手姿势以及抓手的宽度作为附加自由度。
Grasp Pose
\[ \mathcal{P} = (x,y,z,r_x,r_y,r_z,w) \] 其中\(x\)、\(y\)和\(z\)表示夹具的平移,而\(r_x\)、\(r_y\)和\(r_z\)表示旋转,\(w\)表示相应的宽度。
RGBD Image
\[ \mathcal{I}=(\mathcal{C},\mathcal{D}) \]
\(\mathcal{C}\) 是RGB图像,\(\mathcal{D}\)是深度信息。
Gripper Configuration
\[ \mathcal{G}=(h,l,w_{max}) \]
令 \(\mathcal{E}\) 表示包括机器人和物体的环境,并且 \(s(\mathcal{E},\mathcal{I},\mathcal{G},\mathcal{P})\) 表示指示抓握成功与否的二进制变量。如果物体被成功地举起,则抓握是成功的。给定RGBD图像 \(\mathbf{I}\) 和抓取器配置G,我们的目标是找到一组抓取姿势 \(\mathbf{P} = \{\mathcal{P}_1,\mathcal{P}_2,\cdots,\mathcal{P}_k\}\),在给定固定\(k\)的情况下最大化抓取成功率: \[\{\mathcal{P}_1^*,\mathcal{P}_2^*,\cdots,\mathcal{P}_k^*\}=\text{argmax}\sum_{\begin{array}{c}|\mathbf{P}|=k\\\end{array}}\text{Prob}(s=1|\mathcal{E},\mathcal{I},\mathcal{G},\mathcal{P}_i).\]
我们将问题分解为两个子问题。
Angle-View Net (AVN) 在图像的不同位置生成抓取器方向: \[\mathcal{P}_{img}=(u,v,r_x,r_y,r_z,c)\]
我们收集那些具有高置信度分数的预测,并计算它们的宽度和到图像平面的距离,给定相机固有参数和基于Fast Analytic Searching (FAS) 的深度图像: \[\mathcal{P}_{cam}=(x,y,z,r_x,r_y,r_z,w)\]
FAS模块的图示。上图: 点云由深度图像重建。对具有不同宽度和到图像平面的不同距离的候选者进行采样。我们对这些候选人进行碰撞和空检查。红色候选对象与场景点云碰撞,这违反了第一条规则。紫色的候选人在他们的抓取空间中没有意义,这违反了第二条规则。剩下的蓝色候选者被认为是良好的抓握姿势。下图: 在所有良好的抓握姿势中,我们进行抓握姿势非最大抑制,以找到距离最大,宽度最小的姿势。