图虫创意
人工智能(AI)系统使得机器人能够以人类灵巧的方式掌握和操纵物体,现在,研究人员表示他们已经开发出一种算法,通过这种算法,机器可以自己学会走路。在Arxiv.org上发表的一份预印本论文中(“通过深度强化学习来学习走路”),加州大学伯克利分校的科学家和谷歌人工智能(AI)研究部门之一Google Brain描述了一种人工智能系统,教“一个四足机器人来穿越熟悉和不熟悉的地形。
“深度强化学习可以用于自动获取一系列机器人任务的控制器,从而实现将感知输入映射到低级别动作的策略的端到端学习。”该论文的作者解释道。 “如果我们可以直接在现实世界中从头开始学习运动步态,原则上我们就能获得最适合每个机器人、甚至适合单个地形的控制器,潜在地实现更好的敏捷性、能源效率和稳健性。”
设计挑战是双重的。强化学习是一种使用奖励或惩罚来驱动代替人实现目标的人工智能培训技术,它需要大量数据,在某些情况下需要数万个样本才能获得良好的结果。并且微调机器人系统的超参数 —— 即确定其结构的参数 —— 通常需要多次训练,这可能会随着时间的推移对腿式机器人造成伤害。
“深度强化学习已被广??泛用于模拟中的学习运动策略,甚至将它们转移到现实世界的机器人中,但由于模拟中的差异,这不可避免地导致性能损失,并且需要大量的手动建模。”该论文的作者指出,“在现实世界中使用这些算法已经证明具有挑战性。”
为了找到一种方法,用研究人员的话说,“(使)一个系统在没有模拟训练的情况下学习运动技能成为可能,他们选择了一种称为“最大熵RL”的强化学习框架(RL)。最大熵RL优化学习策略以最大化预期回报和预期熵,或者正在处理的数据中的随机性度量。在RL中,AI代理通过从策略中采样动作并接收奖励,不断寻找最佳的行动路径,也就是说,状态和行动的轨迹。最大熵RL激励政策更广泛地探索;一个参数 —— 比如说,温度 —— 确定熵对奖励的相对重要性,从而确定其随机性。
但这并不全是积极和有效的,至少不是一开始。因为熵和奖励之间的权衡直接受到奖励函数的规模的影响,而奖励函数的规模又影响学习速率,所以通常必须针对每个环境调整缩放因子。研究人员的解决方案是自动化温度和奖励规模调整,部分是在两个阶段之间交替进行:数据收集阶段和优化阶段。
结果不言自明。在OpenAI的健身房(一个用于训练和测试AI代理的开源模拟环境)进行的实验中,作者的模型在四个连续运动任务(HalfCheetah、Ant、Walker和Minitaur)中实现了“几乎相同”或比基线更好的性能。
在第二次真实世界的测试中,研究人员将他们的模型应用于四足Minitaur,这是一种带八个执行器的机器人,一个测量马达角度的马达编码器,以及一个测量方向和角速度的惯性测量单元(IMU)。
他们开发了一个管道,包括(1)计算机工作站,更新神经网络,从Minitaur下载数据,并上传最新策略;(2)在机器人上安装Nvidia Jetson TX2执行上述策略,收集数据,并通过以太网将数据上传到工作站。经过两个小时160,000步的训练后,通过奖励前进速度和惩罚“大角加速度”和俯仰角的算法,他们成功地训练Minitaur在平坦的地形上行走,越过木块等障碍物行走,以及爬上斜坡和台阶,而这些在训练时间内均未出现。
“据我们所知,这个实验是深度强化学习算法的第一例,这种算法可以在没有任何模拟或训练的情况下,直接在现实世界中学习欠驱动的四足运动。”研究人员写道。