Deprecated: Creation of dynamic property db::$querynum is deprecated in /www/wwwroot/dongguagua.com/inc/func.php on line 1413

Deprecated: Creation of dynamic property db::$database is deprecated in /www/wwwroot/dongguagua.com/inc/func.php on line 1414

Deprecated: Creation of dynamic property db::$Stmt is deprecated in /www/wwwroot/dongguagua.com/inc/func.php on line 1453

Deprecated: Creation of dynamic property db::$Sql is deprecated in /www/wwwroot/dongguagua.com/inc/func.php on line 1454
UMI——斯坦福刷盘机器人:从手持夹持器到动作猜测Diffusion Policy(含代码解读)-下_bb贝博球bet体育入口_ballbet贝博bb艾佛森_bb球bet体育入口
欢迎访问专业五金冲压加工厂家-深圳市鹏丰精密五金有限公司
ballbet贝博bb艾佛森_bb球bet体育入口-专业五金冲压加工厂家
全国服务热线:

13528775529

bb贝博球bet体育入口

UMI——斯坦福刷盘机器人:从手持夹持器到动作猜测Diffusion Policy(含代码解读)-下

时间: 2025-01-25 03:55:24 |   作者: bb贝博球bet体育入口

  如我组成的mobile aloha复现团队里的邓教师所说,mobile aloha也用了 diffusion,不过是作为比照试验的冲击方针来用的

  进一步,为了充沛开释分散模型在物理机器人上进行视觉运动战略学习的潜力,作者团队提出了一套要害的技能奉献,包含将撤退视界操控、视觉调理和时刻序列分散transformer结合起来

  尽管DDPM一般用于图画生成,但该团队运用DDPM来学习机器人的视觉运动战略。这需求针对DPPM的公式进行两大修正

  具体来说,在时刻进程修正,战略将最新的个调查数据作为输入,并猜测个动作,其间个动作在不从头规划的状况下在机器人上履行(在此界说中,修正表明观测视界,修正表明动作猜测视界,而修正则代表了动作履行视界)。这样做既促进了时刻动作的一致性,又坚持了响应速度

  1. 众所周知,从从高斯噪声中采样的修正开端,DDPM履行修正次去噪迭代,以产生一系列下降噪声水平的中心动作,修正,直到构成所需的无噪声输出修正 (说白了,便是去噪) 该进程遵从下述所示的公式1

  其间 修正为经过学习优化参数的噪声估量网络, 为每次迭代时参加的高斯噪声 且上面的公式1也能够理解为一个单一的噪声梯度下降步长,界说为如下公式2

  此外,公式1中的 、 和 作为与迭代步长 相关的函数挑选被称为噪声调度,能够理解为梯度下降进程中学习速率的调整战略。经证明,将 修正设定略小于1能够改进安稳性

  再之后,练习进程首要从数据会集随机抽取未修正的样本 。关于每个样本,咱们随机挑选一个去噪迭代 ,然后为迭代 修正采样一个具有恰当方差的随机噪声 然后要求噪声估量网络从添加噪声的数据样本中猜测噪声,如下公式3

  最小化公式3所示的丢失函数也一起最小化了数据散布p(x0)和从DDPM q(x0)中提取的样本散布之间KL-散度的变分下界

  根据CNN的分散战略中,选用Janner等人[21]的1D temporal CNN,并做了一些修正,如下图所示

  首要,咱们仅经过特征线性调制(FiLM),和对观测特征修正的动作生成进程进行调理,并进行去噪迭代修正,以建模条件散布修正

  在实践中发现,根据CNN的主干网络在大多数使命上体现杰出且无需过多超参数调优。但是,当希望的动作序列跟着时刻快速而急剧改变时(如velocity指令动作空间),它的体现很差,或许是因为时刻卷积的概括误差[temporal convolutions to prefer lowfrequency signals],以偏好频率低的信号所造成的

  为削减CNN模型中过度滑润效应[49],咱们提出了一种根据Transformer架构、学习minGPT[42]思维的DDPM来进行动作猜测,如下图所示

  在咱们的根据状况的试验中,大多数功能最佳的战略都是经过Transformer主干完成的,特别是当使命复杂度和动作改变率较高时。但是,咱们得知Transformer对超参数更灵敏

  不同的相机视图运用不相同的编码器,以对每个时刻步内的图画独立编码,然后衔接构成,且运用规范的ResNet-18(未进行预练习)作为编码器,并进行以下修正:

  因为高维输出空间采样困难,在大多数战略学习方法中一般不做序列猜测。例如,IBC将难以有效地采样具有非润滑能量景象的高维动作空间。类似地,BC-RNN和BET难以确定动作散布中存在的方式数量(需求GMM或k-means进程)

  相比之下,DDPM在不下降模型体现力的前提下,在输出维度添加时仍就坚持杰出扩展性,在许多图画生成使用中已得到证明。使用这种才能,分散战略以高维动作序列的方式表明动作,它自然地处理了以下问题:

  时刻动作一致性,如下图所示,为了将T块从底部推入方针,战略能够从左或右绕T块走

  为了练习用于隐式战略的EBM,运用了infonce风格的丢失函数,它相当于公式6的负对数似然

  而分散战略和DDPM经过建模公式6中相同动作散布的得分函数[46],回避了修正的估量问题:

  因而,分散战略的推理进程(公式4)和练习进程(公式5)都不触及对修正的评价,从而使分散战略的练习愈加安稳

  “1 截止到24年5月初,咱们总算把斯坦福的UMI、DexCap成功复现了(国内最早复现这两模型的团队或之一,至于Mobile Aloha则迥然不同),且已把这两者的一切硬件悉数换成国产平替,欢迎参加本线 经过本线下营一起完成一系列干流机器人的复现布置、二次开发之后,如适宜,欢迎和我司的大模型机器人项目组协作,一方面,一起为高校/公司服务,二方面,一起打造世界级通用机器人

  ,无门槛免费送!( 新用户注册即送,老学员可找julyedukefu008或你加的恣意一位七月在线教师微信领 )!

  事发上海一小区!十余只漂泊猫一夜之间中毒逝世,此前多地已产生,专家:或许构成刑罪

  开车探望病重父亲高速上被卡车追尾,3岁儿子、老公、保姆均丧生,女子:做了子宫切除,这辈子就这一个儿子

  人类幼崽硬核拔牙,舅舅让外甥女拔牙,没想到是金钱的“引诱”网友:早上起来300被舅舅拿走了!