深度学习能力 人工智能教机器人走路!

时间:2019-01-04 16:11来源:机器人库作者:wuping 点击:
------分隔线----------------------------

摘要:人工智能系统,使机器人具备了像人类一样灵巧地掌握和操纵物体的能力,现在,研究人员表示,他们已经开发出一种算法,通过这种算法,机器可能学会独立行走。来自加州大学伯克利分校和其中之一的谷歌人工智能研究部门的科学家们,在Arxiv.org上发表《通过深度强化学习,来学习走路》,它描述一个人工智能系统,教一个长了四只脚的机器人穿越熟悉和不熟悉地形。 该论

关键字:深度,学习能力,人工智能,教,机器人,走路,

人工智能系统,使机器人具备了像人类一样灵巧地掌握和操纵物体的能力,现在,研究人员表示,他们已经开发出一种算法,通过这种算法,机器可能学会独立行走。来自加州大学伯克利分校和其中之一的谷歌人工智能研究部门的科学家们,在Arxiv.org上发表《通过深度强化学习,来学习走路》,它描述一个人工智能系统,教一个长了四只脚的机器人穿越熟悉和不熟悉地形。

该论文作者解释说,深度强化学习可以用于自动获取一系列机器人任务数据,从而实现将感知输入映射到低级动作的策略的端到端学习。如果我们能在现实世界中,直接从零开始学习移动步态,原则上,我们就能获得最适合于每个机器人的步态, 从而有可能获得更好的灵活性、能源效率和稳健性。

设计挑战有两方面。强化学习人工智能训练技术使用奖励或惩罚来驱动个体朝着目标前进,需要大量的数据,在某些情况下需要数万个样本,才能取得良好的结果。即:在美国,决定其结构的参数通常需要进行多次训练,这可能会随着时间的推移损害机器人。

作者指出,深度强化学习在仿真中广泛应用于学习运动策略,甚至将其应用到现实机器人中,但由于仿真中存在的差异,不可避免地会导致一些性能损失,需要大量的手工建模。事实证明,在现实世界中使用这种算法是具有挑战性的。

为了寻求一种方法,用研究人员的话说,可以让一个系统在没有模拟训练的情况下学习运动技能,他们开发了一个名为 maximum entropy RL的强化学习框架。它优化了学习策略,即被处理数据的随机性最大化。在RL中,AI agent通过对策略中的行为进行采样并获得奖励,不断寻找行为的最优路径,即状态和行为的轨迹。

他们开发了一个由计算机工作站组成的流水线,该工作站更新神经网络,从Minitaur下载数据,并上传最新的策略,机器人上搭载的Nvidia Jetson TX2执行上述策略,收集数据,并通过以太网将数据上传到工作站。两小时内,他们用一种奖励前进速度、惩罚大角度加速度和俯仰角的算法,走了16万步,成功地训练了这架小型机器人在平坦的地形上行走,越过木块等障碍物,爬上斜坡和台阶。

研究人员写道,据我们所知,这个实验是一个深层强化学习算法的第一个例子,该算法直接在现实世界中学习不受驱动的四足动物运动,不需要任何模拟或预先训练。
【光粒网综合报道】( 责任编辑:wuping )
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------

凡光粒网注明"来源:光粒网"或"来源:www.diodelaser.com.cn"的作品,包括但不限于本网刊载的所有与光粒网栏目内容相关的文字、图片、图表、视频等网上内容,版权属于光粒网和/或相关权利人所有,任何媒体、网站或个人未经光粒网书面授权不得转载、摘编或利用其它方式使用上述作品;已经书面授权的,应在授权范围内使用,并注明"来源:光粒网"。违反上述声明者,本网将追究其相关法律责任。

【免责申明】本文仅代表作者个人观点,与光粒网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。

在线投稿有投稿需求的公司企业请直接在线申请,其他项目合作联系 QQ:1965483967 QQ:2644977628 → 在线申请投稿 >
Copyright  ©  2010-2018 diodelaser.com.cn Inc. All rights reserved.光粒网 版权所有
鄂ICP备11013139号-2

鄂公网安备 42018502002510号