【钛坦白】uSens凌感陈佳敬:解锁VR、AR大众化的第一步——手势交互

摘要: 手势交互非常适合VR、AR的输入,但为什么还没有得到普及呢?uSens凌感有哪些遭遇呢?

在钛媒体Pro专业用户和付费用户专享的“钛坦白”在线课堂第36期,我们再次请来三位钛客,探讨如何从“伪VR”走向“真VR”。本期钛客之一、uSens凌感中国区商务VP陈佳敬,在华尔街工作8年,曾就职于SAC Capital、摩根大通、瑞士信贷,曾任高盛副总裁,曾任Leap Motion中国区总裁并协助完成C轮融资。

本文节选自陈佳敬在钛坦白的分享。如果您还不是钛媒体Pro用户,希望查看钛坦白所有干货,进入钛坦白九个专业群交流,并查看更丰富的专业数据和信息,可点击:http://www.tmtpost.com/pro 注册。

以下根据陈佳敬在钛坦白的分享实录整理:

各位朋友大家晚上好,我是凌感科技的陈佳敬,今天很高兴能跟大家分享与交流。

我认为一个产品能大众化,需要具备几项要素:从一个消费者的角度来说,当他去购买一个产品的时候,他考虑的是付出方面和获得方面。付出方面的话,无外乎就是价格,获得的话就是这个产品本身提供的体验。从体验方面来看,我可以把体验的部分区分为内容和交互。

很多人都知道,大家去年对VR还满乐观的,去年下半年可能市场有点降温。是哪些方面有所缺乏才导致VR/AR目前还没有大众化呢?我个人觉得主要是三个方面:

  • 第一,价格太高了,很多高端的VR/AR设备就需要一台高端手机的价格;
  • 第二,这些VR产品本身是很缺乏内容的,很多人买了VR设备之后,用了几分钟就把它放在旁边了;
  • 第三,目前VR/AR的交互技术主要是借用传统手柄的输入方法,其实广泛来说,很多第一代产品都会去用既有的一些交互方式,这种缺乏针对性的交互技术的状况是很多第一代产品的普通情况。

我们今天就针对第三点来讨论,VR/AR产品需要大众能接受的输入方式。

我们先看一下过去两个比较重大的例子: 电脑,在比较早期的时候,它的交互方式其实是用打字机的交互方式,也就是纯键盘的。到后来电脑比较成熟的时候,才有加上鼠标,所以当电脑用键盘加鼠标方式来操作的时候,这个产品就具备了交互大众化的基础条件。

第二个产品的例子是智能手机,像黑莓机一开始也是纯键盘的,借用了电脑的交互方式。大家知道是iPhone出来之后才选用了触摸屏幕,触摸屏幕的出现是让智能手机走向大众化的一个重要的转折点。

在这两个案例当中可以看到:当产品的交互输入方法有突破的时候,软件的界面操作也获得很大的升级,操作系统因输入方式而改变。

手柄交互在大众化方面的尴尬

目前的VR/AR产品所使用的交互方式,就是用头显上的按钮或者是手柄。接下来就来讨论为什么手柄不适合大众化,而需要手势交互。什么是手势交互呢?我个人的看法是:像很多科幻片里面一样,很多人会戴手套,在空中做些比划,达到控制机械的目的。人类和机器做互动的时候就不用通过键盘也不用通过鼠标或手柄遥控器,你直接用自己的手去做人机交互操作,这是我理解的手势交互。

为什么手柄在VR/AR大众化方面不是最好的输入方式?

  • 第一, VR/AR的视觉输出是3D的,当输出是3D的时候,最好的输入应该也是3D的输入,用3D的输入去搭配3D的视觉输出。很多手柄或按钮的输入,是2D不是3D,所以手柄在这方面是比较缺乏的。
  • 第二,手柄的学习成本很高,很多手柄像HTC或者是其他的一些家庭电玩主机的手柄其实是很复杂的,学习成本很高。非常熟悉手柄操作的重度玩家能用得很顺畅,但一个需要走大众化的产品,不能只针对重度使用者,更需要让大众可以很轻易的使用,所以复杂的手柄就比较不适合。拿手机的例子,可以看到触摸屏幕就是一个很容易被接受的输入方法。
  • 第三,VR强调身临其境。如果你戴上VR头盔,然后瞬间跑到火星上面,但还是用手柄进行交互的话,是很缺乏沉浸感的。如果说在火星上面你看到一本书,你是拿手柄按圈圈按钮把书翻开,还是你不用手柄,用自然手势交互,直接伸出手把这本书拿起来翻页,哪个沉浸感强呢?
  • 第四,穿戴式设备要走向大众化,这些产品势必要走向移动端。现在很多高端的VR是在房间里用的,在这情况下手柄是可以的,因为是在家里不需要带出门,但是如果产品要走出高端玩家,走向大众的话,它需要成为移动端的产品。出门在外使用一个移动端的VR设备的时候,如果必须在背包里再带两个手柄做交互,对使用者的体验来说其实是非常糟糕的。反之,在用移动VR设备的时候,就戴个头盔,用手势做非常自然的交互,这个才是有利于VR产品移动化的普及。出门时可能会忘了带手柄,但是出门不会忘记带自己的双手,手肯定是随时随地跟着你的,当你想要用VR/AR的时候,拿起手来在空中做一些比划做一些操作,那个体验是非常好的。

手势交互为什么没得到普及?

手势交互是非常适合VR/AR的输入。很多人会问:既然手势这么好,那为什么手势还没有普及呢?为什么还没有在VR/AR上面获得很普遍的使用?那我们接下来就来探讨这个问题。

现在手势输入,主要是走两个方面的技术:一个是手套的穿戴,一般来说,手套上会有很多电子设备,很多电路,可能还有些电池,然后使用者戴上这些手套,去做手势交互;另外一个手势输入方法,是我们凌感科技在研发的技术——电脑视觉。是在VR头盔上面放了两个摄像头,摄像头通过inside-out的方式捕捉画面,就很像你的眼睛在往外看。如果你的手伸出来,摄像头看到了你的手,捕捉这些画面,然后把画面传回电脑上的软件来做计算,看这个画面里面有没有手,如果有手的话,这个手势是在做什么样的动作。

下图中,大家可以看到,凌感的技术是有两个红外摄像头,捕捉到你手的画面,这画面是黑白的。捕捉完画面后,我们的软件就会去计算,你是有一只手还是两只手在画面里面,然后我们会做3D骨骼建造。所以我们会说,我们的技术是识别手部22个关节点,26个自由度,并且可以在移动平台上快速计算 。

刚才说到手势输入目前是两个方法,一个是使用手套,另外一个是偏向电脑视觉。现在说一下这两个技术方面目前遇到了一些什么样的问题,导致没有办法快速地取代目前的手柄方案。

  • 手套方案实现的困难

我们先来看一下手套,因为它本身会有很多电路嵌入在里面,所以成本是偏高的。如果使用者在每次使用VR/AR的时候,都要把手套戴上的话,那也比较麻烦。因为有电路,所以需要有供电的方法。我目前可以想到的供电的方法主要有两个:第一个是装电池在上面,如果你装电池在上面的话,可能电力不持久,而且电池本身有重量,这个体验也不是最理想的。那如果不直接用电池,就是要接线路到VR头盔整个设备,用设备去供电给手套,这个体验也不会非常好,因为手套会有一条线接出来,从手到头盔上有一条线,这样会影响运动。

再说每个人的手的大小不一样,如果做商品的话,手套要做大中小号,手套可能用脏了还要洗,手套可能不是太利于普及跟大众化的一个手势输入方法。

  • 电脑视觉实现手势交互的方式

那讲完了手套我们来看一下电脑视觉的硬件是怎么样的配置。我刚刚有提到,电脑视觉主要是靠摄像头来捕捉画面,然后用电脑软件再去算手在做什么姿势。说到电脑摄像头,目前分成两种,一种是TOF(time of flight) 跟 structured light,这是比较高端的摄像头,比较贵。它们的原理是:发射很多道光束出去,看光束是怎么弹回来的,由此可以做周围环境的3D建模。如果光发出去了,遇到手弹回来,它也可以识别空间里面有手在哪个方位,这个是比较昂贵的硬件方案。
像TOF 跟 structured light,我认为硬件其实不是太成熟,因为光要打得很密集,然后弹回来,才有一个比较准确高精度的3D建模的画面。但如果你光打得很密集的话,你的FOV可能也会受限,因为在VR最理想的状态,你可能需要有110度的FOV,但是目前这种硬件只可以做到70到90度,它的FOV是偏小的,这个主要是受限于硬件技术的方面。

电脑视觉除了这种高端的摄像头,我们凌感是走另一个方向。我们是用成本比较低的红外摄像头,这种低像素的摄像头,需要传输的资料量也少很多,但每秒可以到捕捉很高的帧率,像60帧或者是90帧,再由USB2.0、3.0传去电脑端或者是移动端的CPU上面去做计算,这点对于移动端VR来说还蛮重要的。

目前来看,如果是电脑视觉的话,像TOF 、structured light他们主要是受限于硬件,我们凌感目前认为传统摄像头的硬件比较成熟了。传统摄像头捕捉到画面之后,我们用软件去计算手在哪里,手在做什么样的动作,这个困难点在哪呢?困难点就是我们这个技术主要依赖软件技术,它对硬件的要求是非常低的。这个技术其实在开发方面有非常大的困难度。如果有人给你一张图片,跟你说手是什么姿势,你可能讲得出来,但你让电脑去看,这个照片里面手在做什么姿势,其实是非常难的。

目前市面上,用传统摄像头技术做这种手骨骼识别的公司,知名度和成名度比较高的也并不多,主要都是创业型的公司。对于创业公司来说,我们专注在技术研发,提供更优的解决方案。如果想让AR VR进入大众化,光有这个手势交互的技术是不够的,因为从使用者的角度来看,他不在乎你的技术有多好,只在乎你能给他带来多好的体验,他不会为技术买单,但是他会为体验买单。

凌感的“遭遇”与“机遇”

刚刚我就提到,像电脑和智能手机,当输入做升级的时候,硬件由纯键盘到键盘加鼠标,或者是从手机的纯键盘到触摸屏幕,软件交互操作界面也是需要升级的。现在我觉得手势输入最缺乏的就是这个交互界面。因为当苹果推出了他们的触摸屏幕的时候,他们也同时推出了IOS系统,但是我们现在有手势交互的技术,对创业公司来说,可能没有这个能力去同时做很多方面,所以我们并没有自己去开发基于这个交互技术的操作系统。

我们作为创业公司,专注走纯技术路线,在其他方面,我们可以去和一些大品牌、大公司合作。一般来说,其实大厂内部也会有手势交互的团队配置,他们在找寻解决方案的同时,自己也会同步研发,所以在进入大厂的时候,也会遇到一些挑战,也会遇到一间公司多个部门同时和我们对接不同需求的状况。

但创业公司的优势可能也就体现在这里。首先这些软件技术是非常复杂的,我们在做研发的时候有时也是因为突发奇想,想到一个点子,然后突然我们的技术就变更成熟了。就算是我们今天走到还不错的成熟度,也是花了三年的时间,我们的CTO在计算机视觉和三维图形学领域也有十多年的技术储备和累积,所以如果大厂说“我今年就要投入很多人力很多资源,然后明年就要有这个技术”,这其实是非常不现实的。

因为当你去招一批人的时候,你跟他说“我一年之后就要有这个技术”,这个团队的想法可能是“我要马上会有效果出来”。如果他们是这种想法的话,可能就会选用偏硬件的方式,因为硬件的话,像走TOF和Structured light,你一开始做研发的时候就会有成果,但是你很快就会遇到瓶颈,成熟度就会上不去。

其实我们可以看到,像国际知名大厂,有些可能着重在硬件方面,他们也有很强大的这种TOF的摄像头功能,他们也是用这个摄像头可以做像3D周围环境的建模,或者是也可以用来做手势识别的技术。但是目前来说,可以看到他们在手势方面做得比较有限,因为他们严重依赖硬件方面,硬件目前还没有达到非常成熟的地步,所以我们来看还是这种用传统摄像头然后走软件的方式去开发的效果比较好。

像我们这种创业型公司,现在有了这个技术,我们希望可以商品化。如果去找一些头盔厂商,大家也知道中国有很多头盔厂商,我们在去聊的时候会说:“你看我们的手势交互技术感觉还不错。”他们也会自己做测试,认为确实对目前产品来说,会是一个很大的改变,但是他们同时就会说:“哎,技术不错,但是你们有内容吗?”那这个问题是我们目前遇到的瓶颈,因为我们主要是做技术的公司,我们有些非常简单的demo的内容,但是这些不完整的内容是不大能去往消费者市场推的,当我们被问到有什么内容的时候,其实我们只能说目前来说还没有很完整的手势输入的内容。

所以我们去年也有做一个开发者大赛,就是让很多开发者团队拿我们的技术去做一些内容的开发,包括游戏、教育、房地产等行业。我们目前看到的状况是:因为手势输入还是一个非常领先的偏未来的技术,很多团队他们可能知道要怎么用键盘跟鼠标做游戏,可能会知道怎么用触摸屏幕做游戏,但如果要求他们,用自然手势交互去做游戏的话,我觉得很多人的经验还是不够多的。坦白说我觉得我们经验也不够多,因为这就是非常新的一个技术,所以对开发者来说,开发手势输入的内容是非常困难的。

所以我们现在在做手势交互技术拓展的时候就遇到这个问题,跟头显厂商聊的时候他们会问有没有内容。虽然我们最终的目标是要把我们的技术跟VR/AR头盔做结合,那他们在早期也希望能有一些内容配合,那我们今年也会在内容开发者方面提供多一些支援。当我们内容有一定存量和不同行业应用的时候,这时我们再去找头盔厂商谈合作,进程可能会更快。因为那个时候我们不但有手势交互的技术,我们也有基于这些交互技术的内容。

我们公司其实之前也有内部讨论:虽然这种自然手势交互很酷炫、很未来的感觉,但是很多开发者在开发的时候就会遇到很多开发的困难,不知道要怎么开发这个内容,所以我们也在看是否可以提供一些定义好的手势动作供开发者直接使用。

刚有提到手势输入是大致上分两种的。第一个是手势识别,就好像说你在用手机的时候,你是双手指滑、三个手指滑或者一个手指双点击,像这种就是手势识别,好比说你比“1”可以开灯,比“2”可以关灯,比“3”可能可以开冷气这样,像手语,你要记得比“1”是什么作用,比“2”是什么作用,用这些比较简单的手势识别去做操作。另外就是我们比较早开发的非常自然的手势交互:伸手拿一个杯子,拿一本书这样非常非常自然的动作,就不用去记了。

所以现在的话,我们可能会往这种简单操作的手势识别去做开发,因为我们觉得内容团队依据这种比较简单的手势识别去做开发的话,他们可能会比较熟悉。因为其实很多触摸屏幕的操作方式也是用手势在做操作的。

我的分享差不多了,再跟大家说一下,我们在开发的手势交互的这种技术还是非常前端的,也在做很多的探索、尝试。我们希望哪一天我们的技术真的是成熟到让很多使用者一戴上VR/AR头盔就可以很自然地做交互,完全没有学习成本,这是我们的梦想,我们希望可以让我们的手势交互的技术有更普及的应用。

钛坦白群友互动

1、请问陈总,光打出去返回这种交互,感觉对环境和操作要求比较高啊。有其他障碍物怎么办?手不在光束范围内怎么办?

陈佳敬:现在TOF摄像头的FOV侦测范围可能在90度左右,如果手不在这个范围内,那就侦测不到了。如果遇到障碍物或手指被挡住的状况,那是遇到了盲点,这个时候,可以靠软件来解决了。就像说一个柱子后面有颗球,那其实是很难判别到的。

2、请问凌感最主要用的技术是图像识别吧?我有个疑问,正对着摄像头的手肯定能拍照并且分析出来,但比如我指头弯曲,就会有一个面是摄像头无法透视的。怎么解决的呢?

陈佳敬:是的,凌感最主要的技术是图像识别,而且是针对裸手的识别。当手指被挡住的时候,摄像头看不到了,这个时候就是要用软件来做计算和预测。我拍个案例图给大家看。

像这个时候,摄像头只看得到大拇指和食指,但是我们很容易知道其他手指是在后面被挡住了,我们也教了我们的软件去识别这种状况和其他类似的状况。

3、刚才陈总提到凌感的技术在落地中遇到比较多麻烦,既然是软件为什么不考虑SDK嵌入硬件呢?在整个VR内容都不多的情况下,有考虑自己做内容,推动技术的使用吗?

陈佳敬: 我们现在跟 VR/AR 头盔厂商合作的时候,就是希望我们的硬件和 SDK 软件能集成到对方的头盔里面。但因为加了硬件,成本也会上去,产品售价也会提高。头盔厂商认为如果消费者要多买单,那产品需要提供更多的内容。

目前的问题就是缺乏手势交互的内容。我们自己有内容团队,主要是做体验级别的内容,而不是完整的消费级内容。完整的用户使用的内容,还是需要外面有丰富经验的团队来制作。

5、作为技术小白有个疑问:体验VR的时候发现VR内容里可与人产生互动的是特殊的几个点,或者特别的方向,比如一盏灯,面向地面。要实现全手势的操作是不是对于内容里各种物体的标记,需要增加特别多?

陈佳敬: 我个人看法是:很多内容是在 Unity 或 Unreal 里面开发的,我们能把现实的手动作转成虚拟的手动作。那虚拟的手跟虚拟物体的互动主要是在内容开发软件里实现,比如说碰撞侦测的判断,拿起和放下的互动。

物体的标记,我认为是内容开发团队需要根据内容去设计的。很多标记是放在现实物体上,那如果物体存在于虚拟世界中,真实世界没有这个物体,就不需要给现实物体做标记了,因为没有现实物体的存在。

6、请问陈总,是不是手势交互中的摄像头对手势有很多限制?有哪些困难呢?我想在VR里更自由啊。

陈佳敬:我们的技术是想让摄像头取代人眼,很多状况,人眼虽然看不到手的动作,但还是能推测的出手指在哪里。我们的软件技术,是在做类似的推测。

这里可以特别解释一个概念,很多客户有问到我们可以识别哪些特定手势?其实主要是依据手的轮廓做判别,但从我们提供的技术来说,是可以识别捕捉自然的手势动作。因为是对手部的关节点做追踪识别。至于具体用什么手势来表达含义,是由应用层开发定义的。

目前的困难除了之前讨论的手势交互外,另一个 VR 很需要的技术是位置追踪,基于移动端的从里到外的位置追踪(inside out tracking)。

7、请问产品是不是用到深度学习了?是否会随着使用精确度提高?

陈佳敬:是的,是有用到深度学习,时间久了,精确度会提升。

8、冒昧问陈总会不会被市场的反应打击了积极性,以后要不要做全身动作的捕捉呢?

陈佳敬:其实手部姿态的识别是非常复杂的,手指的灵活度非常高,也有很多遮挡的状况需要软件去判别。

全身动作捕捉有很多很棒的公司在做,也有很不错的应用,我们还是会聚集做好精准识别短距离的这个细分。

(本文独家首发钛媒体,根据uSens凌感中国区商务VP陈佳敬在钛坦白上的分享整理)

……………………………………

钛坦白第37期预告:区块链技术落地中的挑战与革新1

详情:http://www.tmtpost.com/2597450.html

更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体App

本文系钛媒体原创,未经授权不得使用,如需获取转载授权,请点击这里
分享到:

第一时间获取TMT行业新鲜资讯和深度商业分析,请在微信公众账号中搜索「钛媒体」或者「taimeiti」,或用手机扫描左方二维码,即可获得钛媒体每日精华内容推送和最优搜索体验,并参与编辑活动。

佳音
佳音

钛媒体资深运营编辑、微信社群运营总监,jiayinge@tmtpost.com。个人微信公号“空谷低语”

评论(2

  • 锅包肉 锅包肉 2017-04-21 13:02 via pc

    想想以后沉浸在VR里做几个手势就可以办很多事,真的很酷

    1
    0
    回复
  • Darren13 Darren13 2017-04-21 05:32 via iphone

    概念很多行动很少

    0
    0
    回复

Oh! no

您是否确认要删除该条评论吗?

分享到微信朋友圈