AR到底是不是下一个硬件入口，我做了一组“精准找人”实验-钛媒体官方网站

AR作为一个近两年广为人知的概念，2015年末在全球范围内出现了小范围的爆发。抛开资本趋热的环境优势，AR由于其复杂的技术源流在实用过程中存在着许多“水土不服”之处。使用场景的不明确和因技术实现带来的困境制约了AR目前的发展。如果能通过模块融合的方式解决AR目前遇到的问题，相信AR未来有可能会成为一个比较大的流量入口。

本文以“找自媒体”为案例，通过对比传统找人模式和AR技术加持下的找人模式，以理论假设的视野看看AR技术需要趟过哪些坑才能成为下一个硬件入口的可能。

就全球AR产品来看，其实2014年全球通信大会上的Blippar除了识别物体信息，基本上能够完成在二维识别层面上找人的需求，而在三维层面，2016年9月刚拿到260万美金的AR找人应用Navisens，则是借用多模块融合初步实现了找人的功能。

一、传统找人的障碍

广告公司的小A一大早就接到甲方的需求，上班前找到100个科技类自媒体。当然，常规的方法他需要先从微信5000个好友里筛选出50家优质的供应商，然后微信+电话，不出1个小时，他就会收到50+的报价单，里面有近万个报价不一的自媒体。随着deadline的临近，小A被开除。实践证明，传统找人存在效率和信息不足的困境。

二、用AR的方法找人

落寞的小A去了一家做AR的公司，他们的产品似乎还没上线，但小A发现，AR在找自媒体方法上竟然可以有新的突破！如何在写字楼、地铁站，通过手机+AR技术，快速找到100个自媒体，马上进入了小A研究的课题。

1、二维识别的解决方案

小A毕竟早年还做过开发，想到市面上的大部分AR产品都是“视频叠加”（video see-through），通过手机镜头捕捉周围环境和特定的图像就能加载出预先置入的视频内容，就可以实现自己想要的AR效果，再基于AR的技术特征虚实结合、实时交互、三维配准。于是，一个想法孕育而生。

首先，他采购了一批围巾，在围巾上录入了一个简单的标签——自媒体。之后，他装成礼品供应商联系了腾讯、搜狐、网易、凤凰等内容平台，表明自己希望赞助他们旗下的自媒体一批常用的冬日围巾。当然，他们有拒绝的，但大部分都接受了。小A的技术实现逻辑是这样的：

围巾信息写入→手机镜头→预加载视频→环境理解（自媒体脖子上的围巾）→渲染→视频合成显示（围巾上出现立体的“自媒体”几个字）

接下来，小A选择了某三个狂风大作的周一，拿着写好识别程序的手机，蹲点据说是媒体人出没比较多的国贸、金台西路以及中关村。

由于小A的围巾是通用款，所以一开始的识别并不顺利，不过10分钟后，手机镜头扫描到2、3个写录了自媒体标签的围巾，接下来他用一上午的时间“扫”到了30+的自媒体人。不过，这个方法显然太不互联网了，而且，小A发现AR技术对二维物体的识别存在一些不太理想的坑。

（1）环境的问题：这些自媒体带围巾的风格不同。预先给定的模板物体“围巾”，由于褶皱、折叠，镜头无法精准定位物体的三维位置。这个很严重，是小A之前没想到的，他事先只在几个常规带法上录入了视频信息。

（2）识别的时间差：自媒体工作都很忙碌走得太快。在环境理解过程中，模板物体R快速移动，导致无法得到配准的时间信息t，导致小A的手机识别的时候，只能得到物体边框的控制点，虽然没有出现“自媒体”立体文字，但也大概能判断哪些围巾写入了视频信息。

（3）算法的困境：风大的时候光照情况不稳定。无法控制的环境因素，导致小A选取的围巾边角控制点出现明暗的阴影变化，导致在模板物体R在时间信息t变化时无法得到正确的几何姿态P，算法中既定的映射方程组血崩。不过这个环境坑，在已经选择了最优的“控制点法”处理中，依然无法顺畅运作，小A也没有办法。

（4）横向拓展性：找围巾的方法不具备横向拓展性，如果运气不好，这些自媒体都不带平台送的围巾，那小A一个人都找不到。

最终，小A的方法1被PASS。

那么，既然围巾的几何姿态这么难找，小A为什么不使用较为精准的“全局法”呢？

其实，这个问题小A也想过，不过“全局法”有2个比较费时的坑，一是围巾最佳的几何姿态P如何定义？是按小A既定的围围巾的策略，还是做新的调整，显然重新替换策略会导致整体效率降低；二是就算不改变策略，那在哪个时间信息t下的围巾几何姿态是最优的？这需要反复模拟和尝试。常用的方法是假设自媒体围围巾经过的时间t下，该围巾在这个t范围内的几何姿态P为最优（无限接近既定的策略），经过归一化后，抠出与既定策略最为接近的P，与预录的视频对应，求解出围巾最佳的几何姿态。

相比全局推算，控制点法的逻辑更为便捷，常规的路径是：

识别图像 → 获取控制点信息 → 匹配 → 成功？（N/Y）N的话重新回到第一步，Y的话继续到 → 姿态估计 → 几何验证 → 模型输出 → 得出结果

所以，AR对二维物体识别的坑，还是和环境有关。

其实，早在2014年全球通信大会上一个叫Blippar的产品就可以让用户通过手机对现实世界中的物体进行扫描，并对物体进行图片识别，然后在屏幕上显示出相关的介绍或广告等虚拟内容。今年年中，Blippar上线了自己的AR浏览器Blipparsphere视觉发现浏览器（当然，这比小A的方法更加先进），结合AR与AI，它可以提供关于用户的物理环境的个性化信息，对目标对象进行扫描，后手机镜头不仅会获得有关被扫描对象的详细信息，还包括其他与之相关的项目。

2.基于SLAM的方法

不过，小A毕竟是搞过几年互联网的，在快速试错后，小A想到了方法2。这次他不发围巾了，而是基于三维配准算法SLAM开发出一套“找自媒体算法”（班余时间），只要买1个无人机，在国贸、双井、中关村“扫”楼就可以了。这次，小A的技术实现逻辑（理想状态下）是这样的：

接入百度地图建立GIS系统（知道要去的地点范围）→无人机针对上述三个点进行mapping（解决你在哪的问题）→在对点里的人和场景进行sfm（运动重建）→接入微博、微信的SDK→无人机读取出哪些人在社交平台上是认证的自媒体

然后，在接下来的几周时间，小A买的无人机完成了对这些写字楼的识别。当然，内部场景和人脸是小A装成清洁工把无人机上的感应器带进去而得到的。

又过了几周对算法的模拟，一个见证奇迹的时刻又要来临。无人机的工作效率很高，1天时间就回传了500多个社交媒体认证的自媒体人账号，但过大的数据量带来了巨大的功耗，无人机2天后就自爆了。虽然结果并不美好，但小A也从中发现基于SLAM的AR，其实也并不是找自媒体的最优选择。

（1）运动场景：运动场景重建困难重重。小A出于成本考虑选择的是稀疏SLAM，输出的信息是大量的三维点云，虽然能基于点云完成对室内场景的重构，但对运动的物体，尤其是运动中的人脸，效果并不是特别理想。小A仔细核对收集到的信息后，发现大部分账号都对应不上正确的人。

（2）初始化问题：无人机一旦停在某个区域过久必挂。这个问题在手机上也存在，初始化一旦读取不到信息，空间建构就会挂掉。小A查阅了相关学术文档后，似乎并没有很好的解决方案。

（3）数据处理问题：数据处理量过大，导致无人机自爆。虽然已经采用了稀疏SLAM，但依然有很大即时信息处理需求，平民设备还是无力承担。相比稠密SLAM，稀疏SLAM已经将物体简化为几个三维点，在单一场景下，基本上手机可以满足使用，但范围一旦放大，手机这些平民设备几乎无法对实时的地理位置和空间进行AR重构。单一场景如——行车记录仪领域ADAS（也算一种AR吧）就是一个比较轻便的利用。

不过，方法2已经是在理想的实验场景下进行了，进入到实用程度，小A还是觉得这也不是找出自媒体的好方法。

但今年9月，一家叫 Navisens的公司成功拿到260万美金投资，且它是一家基于自己独立研发的专利技术motionDNA进行AR跟踪找人较为成熟的公司。

Navisens官方称：“在城市区域或者GPS信号不好的地方，IMU（惯性测量单元）的数据可以让你获取更加准确的数据。无论是通过手动还是某种指向标，一旦初步建立起用户位于地图上的标注，IMU就能识别出，比如，你在楼的哪一边，同时还能知道具体是在哪一层。”这同小A的方法有相似之处。

值得一提的是，成立于2013年的Navisens最初的业务是帮助一些企业追踪员工或顾客位置。可见在“找人”领域，还是存在一定体量的市场。AR似乎也在通过这样一种新的方式切入场景，吸引自己的流量。

三、可能解决问题的光场显示

当然，方法1和方法2也是一种理论假设，如果可以再大胆一点，借用Magic Leap核心的光场显示的解决方案，小A找自媒体可以更为方便。这与方法1和2的思路有很大的区别，1、2是基于单目AR（单镜头），而光场显示则是基于双目AR（AR眼镜范畴）。

但Magic Leap的这个方案比常规的AR眼镜解决方案更为完美。因为市面上的AR眼镜，其实是一种策略上的3D效果，这个解决方案有个弊病就是双眼的聚焦和会聚行为是被强行分离的。因此，你带上这样的AR眼镜别说找自媒体了，走两步就已经头晕不已。而光场显示的解决方案则一种，以高速激光光纤扫描，进行成像的方案。

简单意义上来说，就是在人眼上附上一层高速激光打印的薄膜，这块薄膜类似隐形眼镜，在你通过眼球跟踪识别目标物体后。比如，是一个人，这块薄膜就会启动算法并连接网络，将这个人的种种信息——自媒体、姓名、体重、年龄等快速呈现在你的眼睛里，这是一种时间复用的方法。

那么方法3的逻辑就很简单了，即：

拿到各社交媒体的SDK，接入数据库→带上有了光场显示解决方案的薄膜→生物识别→找到目标人群（自媒体）

PC普及46年，手机普及27年，光场显示技术还只存在于学术demo里，但未来成为消费级的产品也不是不可以想象的。假设，这类的AR眼镜成为了一个日常使用的工具，笔者认为其所孕育的入口能量将不容小觑。

四、AR有机会成为下一个硬件入口

抛开复杂的技术实现，那么在人群中找自媒体在未来是否可以呢？答案是肯定的。但这一技术的实现需要植根于互联网的驱动力，入口的改变。反观，互联网的发展历程，入口的改变是互联网进一步发展的真正驱动力。

PC时代，PC作为一切流量的入口，新闻门户、游戏和社交网站在90年代末到21世纪前10年繁盛不已，以hao123、搜狐、58为代表的综合门户类网站都是一时翘楚，不过有个绝佳的注脚是——PC的渗透率达到60%。

移动互联网时代自不用说，以iPhone为代表的智能手机兴起后，手机几乎垄断衣食住行的一切，也在2012年-2014年形成了投资APP产品的热潮，大浪淘沙后留下了微信、微博、新美大、滴滴这些超级流量怪兽。

那么，下一个硬件入口的方向呢？

AR/VR确实代表了一种方向，16年VR的全球普及率不到10%，中国的普及率仅达1%左右（AR的普及数据未查到），其他如人工智能、智能手表等的普及率更低。这意味着，在下一个硬件入口低于10%的情况下，近两年互联网发展将进入一个没有人口红利的新常态。

对于创业者来说，意味着更高的获客成本，CPC、CPD从1块、10块、100块，那这也是一个好事，粗放地依赖网盟投放、地推的产品都会被淘汰。新形势下，互联网产品将必然朝着深耕细作——考虑产品优化、目标用户细分、精细化的用户体验运营方向发展。

这对AR/VR朝下一个硬件入口奔跑也是一个福音，以“找自媒体”为例，意味着技术端的升级也成为必然——人工智能下的场景驱动、多模态融合、眼球追踪及手势识别的智能交互，都将烘托AR/VR不断前进。

当然，阿里巴巴 7 亿美元领投 Magic Leap；百度发布AR平台Dusee，成立专注AR/VR的风投基金；腾讯投资AR旅行赞那度，并与联想、高榕资本一起投资了另一家美国AR公司Meta，3.3亿美元收购了Unreal Engine制作公司Epic Games已发行股本48.4%股份。

或许，这些因素都代表了一种趋势的到来，AR/VR说不定有可能，且有机会成为下一个硬件入口。（本文首发钛媒体）

更多有意思的分析，关注钛媒体微信号（ID：taimeiti），或者下载钛媒体App

下载钛媒体App

AR到底是不是下一个硬件入口，我做了一组“精准找人”实验

敬原创，有钛度，得赞赏