伯克利大学提出了一个从视频(SFV)中学习技能

伯克利大学 2018-10-29 13:54:36

  人类非常聪明,我们可以通过观察进行学习。无论是日常的洗手,还是惊人的杂技表演,对人类来说都是可以学习的。

  然而,对于机器来说,通过观察来学习常困难的。YouTube每分钟都会有300小时的视频上传,即使拥有如此庞大的数据库,也很难用它来训练机器。

  因为,大多数模仿学习方法的表示必须非常简单以及简洁,例如动作捕捉(mocap)记录的表示。但获取动作数据可能非常麻烦,通常需要大量的仪器。动作捕捉系统也往往局限于室内,这显然严重了机器的学习。

  为了达到这种效果,伯克利大学提出了一个从视频(SFV)中学习技能的框架。利用计算机视觉和强化学习方面的最先进技术,系统使模拟角色能够从视频剪辑中学习各种各样的技能。给定一段动作视频,例如车轮或后空翻,特定对象能够学习从而再现该动作,而无需任何手动姿势注释。

  通过观看视频,从而学习运动技能的问题一直在计算机领域备受关注。 以前的技术通常依赖于手工制作的控制结构,这些控制结构对产生的行为了强大的。因此,这些方法往往受限于可以学习的技能类型,并且,机器人模仿出来的动作看起来相当不自然。

  最近,深度学习技术在简单的机器学习任务中表现的非常棒。但是这些任务通常只是简单的域转换,并而连续控制的结果主要是在相对简单的动态任务上进行的。

  该学习框架由三个部分组成:姿态估计、运动重构和运动仿真。输入的视频首先由姿态估计阶段进行处理,预测每个帧中参与者的姿态。接下来,运动重建阶段将姿态预测合并为参考运动,并修复可能由姿态预测引入的伪影。最后,参考运动被传递到运动模拟阶段,在该阶段,一个模型被训练成模拟运动。

  给定一个剪辑过的视频,使用一个基于视觉的姿态估计器来预测视频中的角色在每一帧中的姿态。姿态估计器是建立在人工网格恢复的基础上的,该方法使用弱监督的对抗性方法训练姿态估计器,从单目图像中预测姿态。虽然姿态标注是用来训练姿态估计器的,但是一旦经过训练,姿态估计器就可以应用到没有任何注解的新图像上。

  由于姿态估计器对每个视频帧的预测是相互的,因此帧间的预测可能不一致,从而导致抖动伪影。此外,尽管基于视觉的姿态估计器在最近几年有了很大的改进,但它们仍然偶尔会犯一些相当大的错误,这可能导致不时出现一些奇怪的姿势。因此,运动重建阶段的作用是减少这些错误,从而产生一个更物理的参考运动,将更容易的模拟字符。

  相邻帧中的姿势相似以便产生更平滑的运动。另外,wp和wsm是不同损失的权重。

  运动重建前后参考运动的比较。运动重建减轻了许多伪影,并产生了更平滑的参考运动。

  一旦有了理想的参考运动,可以继续训练模拟角色从而模仿运动。然后引入励函数,其目标是鼓励模拟的姿态与重构的参考运动在每个帧的姿态的差异降到最小。

  这种看似简单的方法的表现确是很棒,我们的角色能够学习到各种具有挑战性的杂技技能,其中每一项技能都可以从一个视频演示中学到的。

  总之,我们的使用的方法能够从YouTube收集的各种视频剪辑中学习到20多种不同的技能。

  尽管我们角色的形态往往与视频中的人物有很大的不同,但是确实能够模仿很多动作。作为一个更极端的形态差异的例子,我们也可以训练一个阿特拉斯机器人来模仿视频中人物的动作

  拥有一个模拟人物的优点之一是,我们可以利用模型将这些行为应用到新的中。在这里,我们的模型,学习适应不规则地形的运动,而原始视频,也就是学习对象中中的人物是在平坦的地面中演示的。

  尽管与原始视频有很大的不同,但学习算法仍然为处理这些新开发了相当合理的策略。

  总之,这个学习框架实际上是采取最简单的方法来解决模仿视频的问题。关键在于将问题分解为更易于管理的部分,为这些部分选择正确的方法,并将它们有效地集成在一起。然而,模仿视频的技巧仍然是一个极具挑战性的问题,我们还无法复制大量的视频片段:

  但令人鼓舞的是,只要将现有的技术集成在一起,就可以在这个具有挑战性的问题上走得更远。希望这项工作将有助于未来的技术,让机器能够利用大量公开的视频数据,获得一系列真正令人的技能。

  文章出处:【微信号:RoboSpeak,微信号:机器讲堂】欢迎添加关注!文章转载请注明出处。

  当你在超市中搜索时,心里可能会想:现在我在肉类区域,所以接下来可能到水产品区。这些都应该是相近的。如....

  随着深度学习在计算机视觉、语音识别和推荐系统领域中的成功运用,近年来有很多研究致力于将深度神经网络模....

  适合社交的时间是会议的休息时间,也就是coffee break。对于初次参加顶会的人,这时你可以....

  未来,你的工作会被人工智能所取代吗?和AI抢饭碗,你能立于不败之地吗?一些人类看上去很难的工作,在人....

  营长要给大家推荐一本还未完成的深度学习书籍——《深度学习500问》。通过问答的形式阐述任店问题与知识....

  Cityscapes评测集有两项任务:像素级(Pixel-level)图像场景分割(以下简称语义分割....

  有关AI系统鲁棒性的研究主要集中于:在条件和变化时AI主体在安全的范围内运行。实际情况中,可....

  在深度强化学习中,智能体是由神经网络表示的。神经网络直接与相互作用。它观察的当前状态,并根据....

  在10月19日上午举办的IDC中国数字化转型年度盛典的“人工智能与大数据”分论坛上。

  在实际的应用程序中,从整体上帮助解决该问题的主要策略是:将模型的适用范围在「应用程序将面对的物体....

  TRFL库包含实现经典RL算法以及更前沿技术的许多函数。这里提供的损失函数和其他操作是在纯Tenso....

  由于基于单帧图像预测的位姿是不连续的,在上图中可以看到明显不连贯的动作。同时由于估计器某些错误估计的....

  本文将重点介绍单目方案的空间定位。 三、单目三维空间测量与定位要解决的问题 1、 求解原理和过程 如....

  动力公司(Boston Dynamics)的一段最新视频显示,这台无比敏捷、速度惊人的Atla....

  2018 年计算机视觉技术在视频安防和工业视觉领域应用是发展最快的两个领域,尤其在视频安防领域,也是....

  从计算机视觉的角度来看,虽然对人类来说,看真实的文件和影印版的没有太大差别,但对计算机就大不一样了:....

  给定一段视频,我们用基于视觉的动作估计器预测每一帧演员的动作qt。该动作预测器是建立在人类网格复原这....

  小蚁科技创始人兼CEO达声蔚,在AI WORLD 2018世界人工智能峰会上,介绍了小蚁科技在过去几....

  安防是人工智能落地的一个重要领域,也是国内各类AI创企纷纷瞄准的红海赛道。在安防领域,云从科技的产品....

  云从科技主要面向金融、安防、机场、零售、教育、社区等垂直行业,通过人脸识别技术作为跨行业入口,将人工....

  有的算法需要使用者具有一定的编程能力,而有的算法生成的结果却又不是那么逼真。我们真正需要的是一个能够....

  相比之下,人工智能会非常费力地制造视觉印象,就好像它是用盲文阅读描述一样。不同的算法,人工智能产生了....

  据雷锋网的介绍,与诸多学术会议通行的单盲、双盲评审制度不同,所有提交的论文都将会公开作者姓名等信息,....

  PNN论文作者通过实验和分析,表明干扰层可以有效地替代标准的卷积层,然后他们将干扰层组成深度神经网络....

  随着外部传感、运动规划和车辆控制等方面取得显著的,自动驾驶汽车的自主创新能够很好地帮助车辆在预先....

  在计算机视觉领域,人工智能系统会尝试识别和分类对象。在这项研究中,研究人员向计算机视觉系统展示了一幅....

  在我们可以真正使用AI控制的热气流滑翔机进行实际应用之前,还有很多工作要做。这只是鸟类辅助自身飞行的....

  近年来,人工智能技术与医疗健康领域的融合不断加深,随着人工智能领域,语音交互、计算机视觉和认知计算等....

  计算机视觉是人工智能在中国落地最顺利的技术。和语音相比,计算机视觉是一条更有技术深度,更多应用场景的....

  相比之下,机器在生成“视觉”上更费力。它们看待事物的方式类似用盲文阅读,其中图像的像素就是“文字”,....

  计算摄影技术决定镜头的数量,也可能会改变量位相机上的影像处理管线(Image Pipeline)。传....

  并且在以往的研究中,重点往往放在对游戏局部信息的处理上,主要分为微操和宏操。例如在游戏开局前,预先设....

  过去的2017年,手机的安全功能进入了人脸识别技术时代,其实在我们生活中涉及安全范畴的领域,人脸识别....

  X射线的波长远小于可见光的波长,甚至短于紫外线的波长。威廉·康拉德·伦琴(1845-1923)因其在....

  目前,该产品已率先在重庆瑞方渝美压铸有限公司(简称渝美)投入使用并获得收益,将帮助渝美以“机器视觉+....

  上图是用不同数量的关键点[3,5,8,10,15,20]训练网络的结果,可以发现网络最先找到的关键点....

  “Cloud AutoML 产品设计让机器学习的过程变得更简单,让即便没有机器学习经验的人也可以享受....

  对于小企业来说,做小、做轻,才能更好地聚焦能量,打造长远竞争力,积攒力气才能走得更远。“专业化、合作....

  徐冰还提到:“AI科学研究近些年正在呈现出跳跃式的进步,但现在学术界和工业界做深度学习是不一样的,在....

  值得一提的是,两年前,谷歌宣布产业线图时,同样也是 Greene 宣布了李飞飞的加入。当时,Gre....

  首先,真实情况下,无标注数据的来源通常没有,因此光照、姿态、遮挡等会有很大的差异,这种情况下基于....

  Silver的中提出的强化学习10大要点涵盖涉及算法评估、状态控制、建模函数等方面的和,....

  Donkey Car是一种为模型车开源的DIY自动驾驶平台,它利用一个带有相机的树莓派单片机,让模型....

  按照以往的做法,如果研究人员要用强化学习算法对励进行剪枝,以此克服励范围各不相同的问题,他们首先....

  参与该研究的博士生Lucas Manuelli说道:“许多控制系统和识别方法都无法识别朝多个方向放置....

  深度学习领域的“Hello World!”,入门必备!MNIST是一个手写数字数据库,它有60000个训练样本集和10000个测试样本集,...

  摘要:提出了一种改进的矩不变自动阈值算法。该算法针对矩不变自动阈值法忽略图像细节的缺点,在矩不变自动阈值的基础上增加了基...

  从“跳一跳”之后,又有一款小程序游戏因其独特好玩的个性,在朋友圈C位出道了。 几天前,谷歌发布了一款名为“猜画小歌”...

  职位描述: 1. 负责计算机视觉&机器学习(包括深度学习)算法的开发与性能提升,负责下述研究课题中的一项或多项,包括但不限于...