香港中文大学教授刘云辉:机器人视觉和行动智能

2017年08月25日 15:34 新浪科技

微博 微信 空间

添加喜爱
香港中文大学教授 刘云辉香港中文大学教授 刘云辉

  新浪科技讯 8月25日消息,2017世界机器人大会在亦庄正式开幕,大会于8月23日至27日举行。本届世界机器人大会以“创新创业创造,迎接智能社会”为主题,大会,分为论坛、展览、比赛三部分。展览部分展出面积约5万平方米。全球机器人行业的领先企业携“明星”展品悉数亮相,展示了机器人行业产业链上下游各环节的最新技术应用,勾勒出一幅充满未来感的机器人世界图景。

  8月24日大会主论坛上,香港中文大学教授 刘云辉发表了“机器人视觉和行动智能”的主题演讲,以下为实录:

  刘云辉:非常高兴能够来到这里,我来自香港中文大学的天时机器人研究所。哈佛大学的Gartner教授在1993年《多模态智能》这本书当中把智能分为七类,包括语言智能和逻辑智能,其中一个就是肢体运动智能。这些对机器人来讲主要涉及到感知和肌肉运动再控制等等方面,相对于肢体运动和行动智能来讲,下围棋算是理解层面的智能。机器人的智能主要体现在两个方面:一个是抓起操作,另一个是运动,比如机器狗怎么到处运动等等。

  行动智能和视觉有什么关系呢?大家都知道我们依赖于眼睛观察世界、了解世界,运动当中视觉起到了非常重要的作用。比如我们打网球通过眼睛来看球的运动,同时启动我们的身体,比如做微创手术医生是看到屏幕上的视觉反馈进行操作。今天我介绍一下在肢体或者行动智能方面的一些工作,主要包括柔性物体操作,还有视觉驱动的导航以及实时的视觉系统,这些都可以提供反馈,再就是Human Action人的行为跟踪和识别。

  为什么在医疗手术、制造业操控传输,或者是烫衣服,包括比较流行的软体机器人也需要柔性变形。这是一个非常重要而且基础的问题,我们可以把这个问题在数学上简单化,比如有了一个物体的形状,通过机器运动要变成另外一个形状,或者数学上对一些形状的描述符描述的参数通过运动控制趋近目标。挑战是因为变形体的模型非常的难,我们不知道给它一个力变形体怎么变化,这是最主要的问题,所以对控制器设计就非常困难。以前大家建立了很多模型,包括质量模型、有限模型,这些控制器都不能很好地工作,主要是因为模型太难了,因为材料不同、形状不同,对这个变形体非常有影响。我们想通过三维或者二维的视觉反馈估计这种模型,然后实现不依赖模型的变形体操作。这个就是通过达芬奇手术机器人协助操控变形体,或者是操控一些软组织。

  这里主要的依据是,这个形状应该怎么描述?描述符很重要,有了描述符以后就可以设计一些反馈控制。其实描述符也有很多,可以基于图像特征的点、线和角度等等。再就是现在一些全球的全局特征,比如2D曲线,然后可以把这个系数作为特征量来描述,这样不会有特征点,通过在线估计之间的关系就可以实现柔性体操作,包括很好的器官模型可以实现模拟手术过程,使它达到一个位置,然后使它的内脏达到变形。我们可以通过塑形材料来弯曲一下,达到一个弯度,也可以控制物体三维的形状实现扭转变形等等。这些东西其实都可以通过这种方法来实现,也就是形变控制。

  这种方法应该怎么应用?就像刚才杨教授讲的很多医疗机器人的发展,现在医疗机器人主要还是操作形式的,包括合作医疗机器人或者部分手术自动化操作的机器人,以及最后的医疗机器人系统。现在我们也在做这方面的研究,涉及到几个问题:因为微创手术都是通过内窥镜来观测物体,这里就涉及到很多最基本的问题,包括基于视觉的感知和手术规划,还有基于视觉的控制和最后手术的智能。医生很聪明,发生什么突变事件可以很快做出决定,这是我们的一个方向。中间的柔性操作技术可以用于基于视觉的控制,达芬奇上就做了很多实验来核实,大家都知道达芬奇是非常有名的机器人系统,这里模拟变形体来做一些定点控制,包括加上一些约束,模拟器官有些部分不能动的必须按照某些轨迹来动,这些操作都可以实现。

  这里有些材质不一样,但是也可以操作,如果在这当中有些干扰因素,把这个切了一部分,同时也可以做这种变形体操作,还有就是现在这种连续柔性机械手的形状控制等等都可以用这种视觉反馈的方法来做。再就是这种柔性手术器械和传统的刚性器械怎么合作,这些都是花了大量的时间核实,现在我们准备把它扩展,看一看医疗手术上能不能用。这里有些医生和辅助手术机器人,就是做子宫切除手术,因为病变需要把女性子宫切除的时候有一个助手操作的手术器械从阴道里面把它塞进去对子宫进行变形操作,现在是有一个人,然后用机器人进行自动操作。我们已经做了5个临床实验,效果还是比较好的。

  这是医生通过穿戴式的接口和机器人进行交互,可以用双手做手术,效率也会高很多。大家都知道乳腺癌是妇女的第二杀手,这也是非常理想的变形体,但是现在就是通过做MRA把变形体送到里面,这样效率不高,成本却比较高。我们希望做一个机器人,包括特殊的扫描,旁边放一个小机器人,把病人送进去以后就可以直接做这个手术。但是这里有一个最大的挑战,就是在MRA里面怎么保证共融,因为一般驱动器电机会对图像有干扰,所以我们是通过气动来驱动这个东西。我们通过模拟了乳房模型,然后在MRA里面测试它的可用性。

  这是基于视觉的导航技术,也是对机器人非常重要的。现在我们研究的是工业车辆的自动驾驶,包括工厂里面的叉车和机场的牵引车,还有学校里面的这种校车,因为这种环境都是可控的,就是速度不高。这里的挑战主要是定位技术和Slam技术,大家做了很多,但是在现场的工厂环境真正能够用的研究很少。我们在这个方面花了很多工夫,包括开发了一些新的算法,就是要看怎么优化,然后使它在工厂环境下做到很多测试,现在可以达到10CM这样的精度,从而放到叉车里面,这样就很容易改装。我们花了很多工夫,这样速度就会非常的快,一般的速度大概是0.5-0.8米,0.8米是最大了,我们可以达到每秒2米,这也是人工叉车的极限。以前的人力代替叉车需要2-3个人,我们的效率可以实现80%左右的提升。

  因为我们是做视觉反馈的,需要实时的三维图像,这个方面也下了很多功夫,大家知道图像技术非常成熟,包括结构光和激光,大概有这样那样的问题,因为精度、可靠性和实时性,我们就把这种结构光和立体视觉结合起来,然后实现了一些高速、高分辨率和实时的图像反馈系统,包括投影,我们通过黑白投影和高速相机结合起来,实现了这种高精度20米左右的成像。这是我们Spin Off公司的一些产品,可以用到测量物体的三维信息,包括测量人体,大概就是在10-20MU,如果是在整形和做医疗上面就有很多应用。

  刚才我们讲的是机器人怎么实现这种操作智能,但是从另一个方面来说,机器人应该也要明白人的一些行为,特别是在人机交互上面我们需要看机器人的行为是怎样做出相应的反应。我们还是采取了一些深度学习的方法,但是我们希望跟运算机制不一样,因为我们是做机器人的,如果和他们做的一样我们也没法跟他们竞争,但是我们对运动的了解会比他们深很多。我的现行速度和人体速度,包括人总有一个人体模型,我有这样一个人体模型,然后把这种生物机械模型加入进去就会有很多新的成果。人体的通道也是一样的,就是3D Image Feedback,通过两个网络,一个是空间的,一个是时间的,两个结合起来进行这种识别。

  现在我们从时间来看,把线性速度引入了进来,这样把二者融合起来可以提高识别率。美国西北大学和加州大学洛杉矶分校有一个数据库,我们对它进行了比较,就是跟我们现在的算法有关。通过交叉可以达到60%,单独的可以达到70%左右。这些单独的都是最好的识别算法,目前关于人体识别把RGB信息融合起来,这样我们就可以达到识别率有很大的提高,可以达到75%。现在我们还是用一般的RGB传感器,然后看到人体动作,要让机器人重复你的动作,下面我们希望每个动作有些语义上的理解,然后做出相应的反应。

  家用机器人是面向小孩或者老人的,比如现在家里都是一个或者两个孩子,妈妈在厨房里面很忙,孩子自己跑到很高的地方怎么办?再就是用手摸插头也非常危险,所以我们通过机器人跟着小孩检测这些危险的行为,就算帮不了也可以给出一些警示,让妈妈知道小孩有危险。我们现在已经有了一个测试平台,大概的成功率可以达到80%左右。面向老人的行为也是把语音结合起来,通过行为和交互能够识别老年痴呆,老年痴呆是不是有问题,自己在家里待着看一看恶化程度,有没有早期的防范和预警。现在大概有2亿老人,很多都是自己在家独居,所以我们希望机器人对他们的行为进行监控和理解,能够从健康或者其它方面进行预测,帮助老人改善生活。

  肢体运动智能对机器人来说是非常重要的,也是不可或缺的一个智能。这里涉及到很多的问题,包括实时响应或者实时反馈控制是一个非常重要的技术,我们正在努力地在这方面做一些工作。

推荐阅读
聚焦
关闭评论