科技首页创事记互联网电信 IT业界投稿

A16Z合伙人：AR普及后的未来是怎样的？

2019-10-14 09:29:35 创事记作者：栈外

　　欢迎关注“创事记”微信订阅号：sinachuangshiji

　　文/Benedict Evans 编译/栈外

　　来源：微信公众号栈外

　　AR普及后的未来是怎样的？

　　知名投资机构A16Z合伙人Ben Evans描绘：我会在你头顶上看到你的LinkedIn资料卡；收到Salesforce提示说你是一个重要的目标客户； Truecaller给提示说你打算向我推销保险，并提醒我离开……

　　换句话说，VR意在为人们创造出能沉浸其中的虚拟世界，而AR（augmented reality，增强现实）技术的目标则是在识别和理解现实世界的基础上再为其增加一层数字化内容。

　　Ben Evans认为，在iPhone出现之前，大部分人都未曾想到多点触控技术会带来如此大规模的智能手机全球变革。AR技术中又是否能诞生如同智能手机一样的大众市场产品，取代智能手机成为人们日常通讯的工具呢？

　　也许这一切都是可能的。

　　2006年2月，杰夫·汉（Jeff Han）在TED演讲中演示了一个革命性的“多点触控（multitouch）”界面（视频详见今日推送二条）。现在看来，他所讲的内容很是老套，因为每台价值50美元的Android手机都采用了这种技术。

　　然而，当时的观众们（大多数是相对见多识广、且专注于科技的人）在看到杰夫的演示后，倒抽了一口气（惊讶），随后鼓掌喝彩。现在看来平庸的技术在当时是十分令人惊讶的。一年后（2007年），Apple发布了iPhone手机，科技行业围绕着多点触控技术重新起步。

　　十年后再回顾，当时关于多点触控技术有四个发展阶段：

　　第一阶段：研究实验室提出多点触控概念；

　　第二阶段：展示多点触控能做什么，从而将技术展现在公众面前；

　　第三阶段：iPhone的问世使多点触控成为真正可行的技术；

　　第四阶段：几年后，Android和iPhone不断改进，使多点触控技术得到普及。

　　你可以在下面的图表中看到多点触控技术的影响力存在滞后现象——2007年，Apple公司发布iPhone，但它的销量要到几年后才开始飙升（Apple公司此前曾调整iPhone的定价模式，但无济于事）。

　　大多数革命性的技术都是这样分阶段发展的——很少有什么东西能像弹簧一样一蹴而成。与此同时，历史也证明了同时期平行发展的一些技术走的道路是错误的，如Symbian（塞班）操作系统和日本无线网服务iMode等。

　　现在（本文写于2017年4月），我认为AR的发展处于上述四阶段中的第二阶段和第三阶段：我们已经见到第一批AR模型，也看到了优秀的演示，只是缺少迎合大众市场的商业产品，但我们离商业产品的到来已经不远了。

　　Microsoft已经推出Hololens全息眼镜：这款产品的位置跟踪能力非常好，并将计算功能集成到头显中，但这也同时导致设备体积较大，用户通过视图器看到的的视野也非常有限（比Microsoft的营销视频中展现的要小得多）。产品售价为3,000美元，第二代产品计划在2019年推出（已于2019年2月推出）。

　　Apple显然有所打算：公司方面进行了公开招聘、收购，公司首席执行官也发表了一些言论。（我怀疑这与Apple Watch和AirPods的小型化、电池、广播功能等有关）。或许Google、Facebook、Amazon还有很多小型公司、初创公司也在做一些有趣的事情。

　　与此同时，虚拟现实公司Magic Leap（一家A16Z投资的公司）正在开发自己的可穿戴技术，并发布了一系列视频，展示了这种设备已经具备AR的可能性。

　　视频看起来很酷。但就像是看一部有关iPhone使用的视频和真的使用一部iPhone之间有着天差地别一样，看一部AR视频和戴着AR设备四处走动时眼前的事物也是有很大的差别的。不过我曾试用过，还不算太差。

　　所有这些都意味着，如果我们现在已经处于“杰夫·汉”的阶段（提出概念），我们离iPhone 1的阶段（展示产品）就不远了，然后在未来十年左右的时间里，我们可以将其发展成一个真正的大众市场产品。

　　有10亿人使用的AR产品可能长什么样呢？

　　AR发展的第一个阶段产品是Google Glass，它是一块悬浮在你面前的显示屏，但并没有和现实世界连接起来。事实上，Google Glass在概念上与智能手表非常相似，只是你看的方向是右上方，而不是左下方。

　　该产品会为你提供一个新的屏幕界面，但它对你面前的世界没有任何感知。然而，随着技术的进步，我们可以扩展这个屏幕，使你拥有360°无死角的视野，并且可以令界面窗口、三维物体或任何其他东西漂浮在空中。

　　然而，有了我们称为“真实AR”，或者可以称其为“MR（mixed reality，混合现实）”技术之后，产品设备开始对你周围的环境有了一定的感知，并可以在其中“放置”一些物体。如果你可以暂时放下自己的怀疑，便完全可以想象这些物体是在现实环境中真实存在的。

　　与Google Glass不同的是，这种头显可以对你周围的环境进行3D测绘，并随时跟踪你头部的位置。因此，它就有可能在墙上“放置”一台“虚拟电视”，（因为是虚拟的），所以在你走动的时候也不会移位。又或者这一头显干脆让整面墙都变成显示器。你可以把游戏Minecraft（译注：中文名字为《我的世界》是一款创造生存类游戏，玩家可以在一个三维世界里用各种方块建造建筑物）或Populous（译注：PC即时策略游戏）放在咖啡桌上，用手举起或放下游戏中的山脉，就像在做粘土模型一样。

　　此外，任何戴着同样眼镜的人都可以看到同样的东西——你可以把一面墙或一张会议桌“变成”一个显示器，这样你的整个团队都可以同时使用它。

　　你和你的孩子可以围绕着同样的Minecraft地图，扮演上帝的角色。Minecraft中的小机器人藏在沙发后面，或者你可以把它藏在那让你的孩子们去找。（当然，这与VR的有些用例重叠，尤其是当人们谈论附加的外部摄像头时）这是一个由屏幕呈现的混合现实，它也许可以把你周围的世界变成无限的屏幕。

　　但这一技术还可以进一步发展，因为目前的技术实质还停留在实时定位与地图构建（simultaneous localization and mapping，SLAM）上：上述技术所能做到的是定位和增加虚拟内容，但它还不能理解现存的周围环境。

　　我在一场社交活动上遇见了你。假设我会在你头顶上看到你的LinkedIn个人资料卡，看到Salesforce提示说你是一个重要的目标客户，或看到Truecaller（译注：TrueCaller是一款非常强大的手机来电显示和拦截软件）的提示说你打算向我推销保险并让我离开。又或者像科幻剧情类电视剧《黑镜》（Black Mirror）里的剧情一样，你可以屏蔽别人对你信息的读取。这时，“眼镜”上的图像传感器组所做的并不仅仅是定位现实生活中的物体，而是能够识别它们。

　　这才是真正的“增强”现实。你不仅能够通过AR设备把虚拟世界中的事物投射到现实世界，而且还能将它变成现实世界的一部分。你的设备既可以向你展示你可能在智能手机或2,000英寸屏幕上看到的东西，也可以将屏幕上的元素分解融入到现实世界中，改变现实世界。

　　因此，AR可以带来不同范围的改变：一方面，你可以通过屏幕来丰富（污染）整个世界；另一方面，你可以利用屏幕让世界呈现出最微妙的提示和改变——不仅仅是你在旅行的时候把每一个符号翻译成你所使用的语言，而且可以把“美式英语”修正为英式英语。

　　人们现在可以在他们Chrome浏览器上安装一种拓展插件，这种拓展插件能把网页上所有出现的单词“Millennial”都换成“snake people”。那么， “MR拓展插件”又会给我们的生活带来怎样的变化呢？让你的老板口吐彩虹怎么样？（毕竟找乐子才是人生大事。）

　　不过又有另一个问题。当AR设备有朝一日变得足够轻便后，你会随时佩戴着它们吗？如果你不会一直戴着这些设备，那许多环境应用程序就不能工作。

　　为了让这些应用程序制工作，你可能需要一款“一直处于开机状态”的手表或手机，配合一副在有需要的时候就佩戴上的眼镜。这令我们想到了Google Glass遇到的一些社会问题：人们能够理解拿出手机、看看手表或戴上一副眼镜这样的行为，但如果一个人在酒吧里戴上Google Glass，就会显得非常奇怪。

　　这涉及到另外一个相关问题——AR和VR最终是否会合二为一？这当然是有可能的，这两者在工程方面需要攻克的难题也都是相关的。

　　在一台设备上同时使用这两种技术存在一个挑战：为了让你感觉进入另一时空，VR需要遮住所有其他事物，因此眼镜边缘需要进行密封处理。

　　但AR则不需要这样做。AR的挑战在于要在你面前呈现所有事物，但同时又能遮挡住某些需要遮挡的东西（也因此，目前在明亮的阳光下AR的可能效果没那么好）。VR眼睛的初始状态就是黑屏，但戴上AR眼镜，你可以看到别人眼睛。

　　在十年或二十年内，很多事物的发展都是有可能的。这两种技术只是在目前看来处于不同的发展轨迹。

　　在20世纪90年代末，我们争论“移动互联网”设备是否会有一个独立的射频单元、屏幕，加上一个耳机，或者是一个键盘，亦或者是一个带键盘和屏幕的翻盖装置——那时我们仍处在探索设备外形的阶段，直到2007年或者更晚些时候我们才在一块玻璃上找到了答案。VR和AR技术在很长时间里可能也将处在类似的探索发现阶段。

　　那么，对于没有实际存在的事物，你该如何对其进行控制，与其互动呢？VR的物理控制器是否足够多？不能清晰显示手指手部动作的追踪器足够好吗？

　　智能手机的多点触控技术意味着我们可以与机器直接进行物理交互，在屏幕上触摸我们想要的东西，而无需移动一两英尺之外的鼠标。但我们能够触摸到悬浮在空中的AR物体吗？这种界面模式能够全天使用吗？

　　当然，Magic Leap可以创造一种身临其境感，让你相信自己能触摸到那些东西，但你是否进一步想要手滑过一些真正坚硬的东西表面的触感？

　　我们应该改用语音交互吗？想象一下，即使有了完美的语音识别技术，人们完全通过语音交谈来控制电话或电脑，这在多大程度上限制了你的能力？或者是眼球追踪键——如果用眼镜做虹膜追踪，你会想通过注视想要的东西并点击手表来选定它吗？

　　当然，这些都是智能手机和之前的个人电脑（Personal Computer，PC）同样想要解决的问题，这些问题就像1990年或2000年有关手机设备外形的探索一样，答案并不明了，甚至连问题也不甚明确。

　　不过，随着用户对AR的体验深入，认为AR真的将物体和数据“放置”到了周围世界，上述问题就会逐渐变成一个AI和物理交互跨界的问题。

　　当我走向你时，我应该看到的是什么？是LinkedIn的提示，还是Tinder的提示？我应该什么时候看到那条新消息——是即时显示还是略有延迟？我是应该站在餐厅外面说“嘿，Foursquare（注：是一家基于用户地理位置信息的手机服务网站，并鼓励手机用户同他人分享自己当前所在地理位置等信息），这家店好吃吗？”还是说设备的操作系统（Operating System，OS）会自动实现这一过程？上述过程是如何实现的？是通过操作系统、你添加的服务或者云端中的一个“Google大脑”来实现的吗？

　　Google、Apple、Microsoft和Magic Leap对这个问题可能都持有不同的态度，但在我看来，如果你希望它运作得好，很多东西都必须是自动的——必须由AI完成。

　　不知是否有人想起埃里克·雷蒙德（Eric Raymond）曾说过的一句话：如果计算机能够解决一个问题，那么它就永远不会问你。而一台能够看到你所看到的一切并知道你在看什么的计算机，经过未来十年机器学习领域发展带来的改进，应该可以解决我们当下认为必须手动处理的所有问题。

　　因此，当我们从桌面计算机的Windows/键盘/鼠标用户界面（User Interface，UI）模型向智能手机的触屏和直接交互设计转变后，一系列问题就会得到解决——问题的抽象层次也发生了变化。智能手机不会问你该把照片保存到哪里，不会在你叫车的时候问你身处在什么位置，不会问你使用哪个电子邮件应用程序，（有了指纹扫描技术之后）不会问你密码是什么——它会移除所有问题（和选择）。

　　AR朝着相同的方向又迈出了一步：它不单单可以让智能手机的应用程序在你面前的小方形窗口中悬浮。Snapchat的运行方式与Facebook的桌面网站不同。一个环境氛围友好的、无形的、由AI主导的的UI将再次改变一切。

　　与此同时，当AR眼镜越了解你和你周围的世界，它们看到的就越多，并能够根据情境、用例和应用程序模型，将它们看到的一些内容对应发送到无数不同的云服务中。

　　这是一张脸吗？你在和它说话吗？AR眼镜把它（或者对其进行压缩——是的，所有这些都涉及到带宽）发送给互联网公司Salesforce、LinkedIn、TrueCaller、Facebook和Tinder。

　　如果是一双鞋呢？AR眼镜会把它发送给Pinterest（译注：Pinterest是知名图片社交分享网站）、Amazon和奢侈品电商Net-a-Porter。或者，干脆把所有东西都发送给Google。如果大家在会议上感到无聊，你是否能将相关情况上传至Success Factors（译注：人力资源SaaS公司，提供员工生命周期解决方案）？

　　AR同时也带来了一些非常明显的隐私和安全问题。我在另一篇文章中提到，由于无人驾驶汽车一直在拍摄360度高清3D视频，因此，充满无人驾驶汽车的城市最终将变为全景监狱。那么，如果每个人都戴着AR眼镜，又会发生什么——人们有可能逃跑吗？如果你被黑了怎么办？如果你联网的家庭网络被黑客入侵，你相当于遭到恶作剧；但如果你的AR眼镜被黑客入侵，你会产生幻觉。

　　最后，一个非常重要的问题——有多少人会拥有这样的设备？AR眼镜会成为一部分手机用户（比如说智能手表）的配件吗？或者，巴西和印度尼西亚的每个小镇都会有商店出售几十种不同的、价值50美元的中国AR眼镜吗？（到那时带宽的成本是多少?）

　　现在说这些依然为时过早。20世纪90年代末和21世纪初的另一个争论点也很有意义：是否每个人都会拥有同样的移动数据设备，或者一些人会拥有我们现在所说的智能手机，而大多数人拥有的还是“功能手机”，甚至一直退化/退化到没有摄像头、没有彩色屏幕的简单设备。

　　事后看来，争论是否会人手一部只能手机就像是在争论是否每个人都会拥有PC，是否有些人会坚持使用文字处理器一样。从规模大小和通用计算的逻辑来看，PC和智能手机相继成为了人们唯一的通用设备——如今有50亿人拥有手机，25亿至30亿人拥有智能手机。显然，剩下的绝大多数人也将紧随其后慢慢拥有属于自己的智能手机。

　　那么届时是会有大多数人会坚持使用智能手机，一部分人（一亿人？五亿人还是十亿人？）会把AR眼镜当成配件，还是说，AR眼镜会变成新的通用设备？这个问题的任何回答都只是想象，而不是具体分析。但是，1995年时就已经有人说了：地球上的每个人都会有一部手机。

　　*“增强现实”到底是什么意思？人们常常用这个词来指代Pokemon Go（译注：一款利用App在现实生活中“捕捉”神奇宝贝的游戏）和Snapchat的滤镜，甚至会用这个词来指代博物馆里随着地点挪动而响起的语音导览，但在这篇文章中我讲的主要是眼部佩戴设备，你可以通过这一设备将虚拟世界中的事物“放置”到现实世界。换句话说，就是眼镜。混合现实一词也有类似的含义，但我们在这篇文章中用AR指相关功能就已足够。

　　原文来自Ben Evans's blog，作者Benedict Evans