深度解读：VR设备是如何实体感交互的？_智慧城市

2024-01-13 智慧城市

在目前的消费级VR设备中，除了三大（HTC vive、Oculus rift、PS VR）头显外，大部分的VR头显都不具备配套的体感交互（需要第三方设备），而正因为缺少了体感交互，使得这些设备未能构成完善的虚拟现实体验。

关于体感交互的设备，笔者此前也曾发表过一篇文章《好马配好鞍，除了强大的头显你还需要这些VR外设》，下面主要来聊聊关于VR目前市面上常见的动作捕捉及空间定位技术。

基本原理就是在空间内安装数个可发射激光的装置，对空间发射横竖两个方向扫射的激光，被定位的物体上放置了多个激光感应接收器，通过计算两束光线到达定位物体的角度差，从而得到物体的三维坐标，物体在移动时三维坐标也会跟着变化，便得到了动作信息，完成动作的捕捉。

HTC Vive的Lighthouse定位技术就是靠激光和光敏传感器来确定运动物体的位置，通过在空间对角线米的“灯塔”，灯塔每秒能发出6次激光束，内有两个扫描模块，分别在水平和垂直方向轮流对空间发射激光扫描定位空间。

HTC Vive的头显和两个手柄上安装有多达70个的光敏传感器，其通过计算接收激光的时间来得到传感器位置相对于激光发射器的准确位置，利用头显和手柄上不同位置的多个光敏传感器从而得出头显/手柄的位置及方向。

激光定位技术的优点是相对其他定位技术来说成本较低，定位精度高，不会因为遮挡而无法定位，宽容度高，也避免了复杂的程序运算，所以反应速度极快，几乎无延迟，同时可支持多个目标定位，可移动范围广。

不足的是，其利用机械方式来控制激光扫描，稳定性和耐用性较差，比如在使用HTC Vive时，如果灯塔抖动严重，有几率会使无法定位，随着使用时间的加长，机械结构磨损，也会导致定位失灵等故障。

这种技术的基础原理是通过在空间内安装多个红外发射摄像头，从而对整体空间进行覆盖拍摄，被定位的物体表面则安装了红外反光点，摄像头发出的红外光再经反光点反射，随后捕捉到这些经反射的红外光，配合多个摄像头工作再通过后续程序计算后便能得到被定位物体的空间坐标。

与上述描述的红外光学定位技术不同的是，Oculus Rift采用的是主动式红外光学定位技术，其头显和手柄上放置的并非红外反光点，而可以发出红外光的“红外灯”。然后利用两台摄像机进行拍摄，必须要格外注意的是，这两台摄像机加装了红外光滤波片，所以摄像机能捕捉到的仅有头显/手柄上发出的红外光，随后再利用程序计算得到头显/手柄的空间坐标。

相比红外光学定位技术利用摄像头发出的红外光再经由被追踪物体的反射获取红外光，Oculus Rift的主动式红外光学定位技术，则直接在被追踪物体上安装红外发射器发出红外光被摄像头获取。另外Oculus Rift上还内置了九轴传感器，其作用是当红外光学定位发生遮挡或者模糊时，能利用九轴传感器来计算设备的空间位置信息，从而获得更高精度的定位。

标准的红外光学定位技术同样很有高的定位精度，而且延迟率也很低，不足的是这全套设备加起来成本非常高，而且用起来很麻烦，需要在空间内搭建非常多的摄像机，所以这技术目前一般为商业使用。而Oculus Rift的主动式红外光学定位技术+九轴定位系统则大幅度的降低了红外光学定位技术的复杂程度，其不用在摄像头上安装红外发射器，也不用散布太多的摄像头（只有两个），用起来很方便，同时相对HTC Vive的灯塔也有着很长的常规使用的寿命。不足的是，由于摄像头的视角有限，Oculus Rift不能在太大的活动范围使用，可交互的面积大概为1.5米*1.5米，此外也不支持太多物体的定位。

可见光定位技术的原理和红外光学定位技术有点相似，同样采用摄像头捕捉被追踪物体的位置信息，只是其不再利用红外光，而是直接利用可见光，在不同的被追踪物体上安装能发出不一样的颜色的发光灯，摄像头捕捉到这些颜色光点从而区分不同的被追踪物体以及位置信息。

索尼的PS VR采用的便是上述这种技术，很多人以为PS VR头显上发出的蓝光只是装饰用，实际是用于被摄像头获取，从而计算位置信息，而两个体感手柄则分别带有可发出天蓝色和粉红色光的灯，之后利用双目摄像头获取到这些灯光信息后，便能计算出光球的空间坐标。

相比前面两种技术，可见光定位技术的造价成本最低，而且无需后续复杂的算法，技术实现难度不大，这也就为什么PS VR能买这么便宜的其中一个原因，而且灵敏度很高，稳定性和耐用性强，是最容易普及的一种方案。不足的是这种技术定位精度相对较差，抗遮挡性差，如果灯光被遮挡则位置信息无法确认；而且对环境也有一定的使用限制，假如周围光线太强，灯光被削弱，可能没办法定位，若使用空气有相同色光则可能会引起定位错乱；同时也由于摄像头视角原因，可移动范围小，灯光数量有限，可追踪目标不多。这项技术基于计算机视觉原理，其由多个高速相机从不同角度对运动目标进行拍摄，当目标的运动轨迹被多台摄像机获取后，通过后续程序的运算，便能在电脑中得到目标的轨迹信息，也就完成了动作的捕捉。

Leap Motion在VR应用中的手势识别技术便利用了上述的技术原理，其在VR头显前部安装有两个摄像头，利用双目立体视觉成像原理，通过两个摄像机来提取包括三维位置在内的信息进行手势的动作捕捉和识别，建立手部立体模型和运动轨迹，以此来实现手部的体感交互。

采用这种技术的好处是可通过少量的摄像机对监测区域的多目标进行动作捕捉，大物体定位精度高，同时被监测对象不需要穿戴和拿取任何定位设备，约束性小，更接近真实的体感交互体验。不足的是，这种技术需要庞大的程序计算量，对硬件设备有一定配置要求，同时受外界环境影响大，比如环境光线昏暗、背景杂乱、有遮挡物等都无法很好的完成动作捕捉；此外捕捉的动作若不是合理的摄像机视角以及程序处理影响等，对于比较精细的动作可能没办法准确捕捉。

采用这种技术，被追踪目标需要在重要节点上佩戴集成加速度计，陀螺仪和磁力计等惯性传感器设备，这是一整套的动作捕捉系统，需要多个元器件协同工作，其由惯性器件和数据处理单元组成，数据处理单元利用惯性器件采集到的运动学信息，当目标在运动时，这些元器件的位置信息被改变，从而得到目标运动的轨迹，之后再通过惯性导航原理便可完成运动目标的动作捕捉。

代表：诺亦腾 - Perception NeuronPerception Neuron是一套灵活的动作捕捉系统，使用的人要将这套设备穿戴在身体相关的部位上，比如手部的话捕捉需要戴一个“手套”。其子节点模块体积比硬币还小，却集成了加速度计、陀螺仪以及磁力计的惯性测量传感器，之后便能够实现单臂、全身、手指等精巧动作及大动态的奔跑跳跃等等的动作捕捉，能够说是上述的动作捕捉技术中可捕捉信息量最大的一个，还能够无线传输数据。

优缺点相比以上的动作捕捉技术，基于惯性传感器的动作捕捉技术受外界的影响小，不用在使用空间上安装“灯塔”、摄像头等杂乱部件，而且可获取的动作信息量大、灵敏度较高、动态性能好、可移动范围广，体感交互也完全接近真实的交互体验。比较不足的是，需要将这套设备穿戴在身体，可能会造成一定的累赘，同时由于传感器的工作。小结：未来，计算机视觉动作捕捉技术才是王道这么多的动作捕捉技术中，每种技术都有各自的优缺点，比如HTC Vive的激光定位技术精度高、可移动范围广，但稳定性和耐用性就差，虽然Oculus Rift的主动式红外光学定位技术解决了这个不足，但可移动范围却成了短板。综合看来，自己觉得目前应用在VR上最实用的还是HTC Vive的激光定位技术，毕竟在消费级别里面其能实现最大范围的空间定位和交互，而且定位精度非常高。但在理想情况下其实还是诺亦腾的基于惯性传感器的动作捕捉技术好，其能实现更为精细的动作捕捉又满足更大空间的游走，不过这套系统目前还是主要使用在在商业上，民用中未曾发现。

然而，在未来自己觉得计算机视觉动作捕捉技术才是王道，当摄像机、运算程序以及运算硬件跟上后，其优势会比基于惯性传感器的动作捕捉技术还要强，毕竟在无需穿戴传感器在身上的情况下也能满足动作的精细捕捉，像Hololens此前发布的远程3D全息影像便是采用这种类似的技术，但目前总的来看这项技术并未成熟，未来可期。

作为今日头条青云计划、百家号百+计划获得者，2019百度数码年度作者、百家号科技领域最具人气作者、2019搜狗科技文化作者、2021百家号季度影响力创作者，曾荣获2013搜狐最佳行业媒体人、2015中国新媒体创业大赛北京赛季军、 2015年度光芒体验大奖、2015中国新媒体创业大赛总决赛季军、2018百度动态年度实力红人等诸多大奖。

[上一篇] 中国大模型产业落地这一年

[下一篇] 340页《人工智能趋势报告