环球今日报丨从Vision Pro一窥眼动追踪交互的巨大潜力

文/VR陀螺万里

(资料图片)

Vision Pro发布后，有人评价这款产品是现有VR/AR、显示、光学、人机交互技术的集大成者。虽然里面罕见新技术以及新场景，但它把原有的XR体验提升至了一个新的高度。

以交互为例，以往手柄是头显的标配，有部分厂商还进行了手势识别的探索，而Vision Pro带来的解决方案是“眼动追踪+手势+语音”。苹果把常见的眼动追踪技术融入进了核心交互中，并为我们呈现了最为自然的体验。

以眼动追踪为核心，苹果定义标杆级XR交互方式

眼动追踪指的是测量注视点或眼睛相对头部的运动过程，它并非前沿技术，其最早的研究甚至可以追溯到19世纪。

目前眼动追踪技术包含了眼电图EOG法、巩膜搜索线圈法、眼睛影响捕获、通过视网膜影像变化、图像计算进行注视点追踪、视网膜角膜反射法等技术路线，陀螺君了解到，瞳孔角膜反射法是目前的主流，也是一众具有量产性的方案中最为可靠的一种。

此前VR陀螺文章《新一代XR头显标配，详解眼动追踪技术的价值和挑战》对瞳孔角膜反射法已有相关介绍，简单来说，该方案由眼动摄像机、光源和算法共同完成。光源发射红外光在眼角膜反射形成闪烁点，眼动摄像机捕捉眼睛的高分辨率图像，再经由算法解析，实时定位闪烁点与瞳孔的位置，最后借助模型估算出用户的视线方向和落点。

眼动追踪技术多应用于医疗健康、广告、社科等领域，近年来，伴随着VR/AR的发展，它在里面开始发挥越来越重要的作用。如2015年，FOVE 0头显在Kickstarter展开众筹，其核心卖点便是配备了眼动追踪技术。FOVE指出，其眼动追踪技术可用于控制游戏角色移动、注视点渲染、医疗健康等。

FOVE 0，图源：网络

近年发布的PICO 4 Pro、Quest Pro、PS VR2等产品同样配备了眼动追踪技术。以Quest Pro为例，在眼动追踪的加持下，Avatar可获得更为丰富的眼神细节信息，此外，结合注视点渲染（ETFR）技术，最高可节约近52%的GPU性能。而PICO 4 Pro则把眼动追踪与自动瞳距调节功能结合在了一起。有关眼动追踪的更多应用场景，可查看VR陀螺过往文章《【盘点】眼动追踪在XR中的八大应用，注视点渲染仅是“前菜”》

除前面提到的这些功能外，基于眼动追踪的交互也是颇具潜力的应用场景之一。此前Meta Reality Labs的一份关于“手柄、头动以及眼动交互”的一份研究指出，以90Hz运行的平均精度误差低于1°的眼动追踪系统（在无光标或其他反馈的条件下），它在易用性、采用率和疲劳度相较于头部输入（Head input ）分别提高了66.4%、89.8%和116.1%，而相较于手柄输入则分别降低了4.2%、8.9% 和 116.1%，不过它的失误率是三者当中最高的。论文总结道，随着交互设计的改进，眼动追踪对于下一代AR/VR设备而言具有巨大的潜力。

实验中出现的三种交互方式，图源：Meta

微软于2019年发布的HoloLens 2同样支持眼动追踪功能，其产品开发者文档中提到了眼动追踪交互的几大优势：

使用起来毫不费力，几乎没有其他多余的身体动作参与进来；交互具有私密性；眼部肌肉是人体反应速度最快的肌肉，可以实现快速指向。简单做个类比，人眼单次扫视的时间为20-40毫秒，而使用鼠标在玩枪战游戏时的反应时间约为250毫秒。可以分析用户正在关注的对象，从而开发出更为智能的用户界面。

陀螺君了解到，近年来XR眼动追踪模组的价格已经进入了一个快速下探期。早期眼动追踪在XR产品中渗透率低，整体价格比较高，如2019年亮相的Pico G2 4K眼球追踪一体机，眼动追踪上机成本约两千元。如今眼动追踪模组的BOM+License成本已经下探到了两百多。

一方面是Vision Pro的激励作用，另一方面是价格的下探，相信我们很快就能看到更多配备眼动追踪技术的XR新品推出。

高规格硬件+算法积累，Vision Pro带来高精度眼动体验

在Vision Pro发布前，其预测消息已经满天飞。以交互为例，有人认为是肌电手环+手势，也有人认为是Siri+手势等。而Vision Pro特别引入了眼动追踪，会后在很多人看来这有一种意料之内而又大吃一惊的感觉。

一方面，用眼动做交互并不复杂，一位XR从业者告诉陀螺君，早些年他曾经做过一个类似的解决方案，即通过眼动进行选择，然后用头动（Head Tracking）进行数据修正再用按键点击确认，他把这种交互称之为多阶交互法。

就在Vision Pro发布不久后，一个名为ThrillSeeker的YouTuber只花费了两天时间，便在Quest Pro的基础之上复刻了一套“手势+眼动”的交互演示demo。他指出，虽然Quest Pro的眼动追踪硬件精度稍差，但运行起来一切正常。

图源：Youtube

而另外一方面，让很多人“大吃一惊”的地方在于，Vision Pro完全舍弃了如今最为成熟的手柄方案，并激进地选择了尚未成熟的眼动追踪作为交互的核心。

以Quest Pro为例，在很多用户看来，它的眼动追踪只是一个“感知不强、徒增功耗”的小功能，并且Meta对它也不受待见。它在系统中处于默认关闭的状态，用户需要在设置栏中自行启用。此外，它的应用场景严重缺失，能让用户明显感知的唯二功能不过是Avatar照镜子以及眼动录入与校准的小动画。

第三方应用程序方面，虽说也有主打眼动追踪的应用，但它们以实验探索性的demo居多。如SideQuest有一款眼动追踪打字demo《Eye Tracking Keyboard》，陀螺君体验发现，它在操作上比较科幻，但是经常会出现视线抖动以及对不准的情况，暂未清楚是硬件问题还是软件问题。

图源：VR陀螺

相反，Vision Pro的上手体验媒体均对它的眼动追踪交互给予了很高的评价：用户的眼睛就像是PC端的鼠标，眼睛注视图标然后双指捏合，即可打开新的应用；眼睛在菜单栏停留一段时间会自动弹出二级菜单.......很多人表示这简直就是魔法。

从这些评价中不难发现，Vision Pro的眼动追踪交互技术已经具有极高可用性以及易用性，而这是Vision Pro在硬件、算法、UI三方面同时发力的结果。

眼动仪器常见的指标主要有两种，分别是准确度（Accuracy）和精确度（Precision），前者反映的是凝视位置与真实凝视位置之间的差异，后者则反映的是持续记录同一个注视点时的离散程度。这些数据能直观反映眼神标定究竟“准不准”。

前面提到的FOVE 0，其官方宣称眼动追踪准确度可以达到1°、HoloLens 2的准确度在1.5°左右，市面上某款在售XR眼动追踪模组宣称其准确度可以做到<0.5°。陀螺君测算，在正常使用电脑的情况下，大图标的肉眼视角约为1.5°，单一文字的视角约为0.38°（仅供参考，不一定准确）。

目前Vision Pro并未公布其眼动追踪模组的具体规格，不过据部分Vision Pro体验用户反馈称，Vision Pro的眼动交互可以实现文本选择复制粘贴等操作，从这方面来看它的准确度应该妥妥属于XR第一梯队。

图源：微软

此外，Vision Pro的眼动追踪硬件也十分豪华，它左右眼分别配备了两颗红外摄像头，相比之下Quest Pro以及PS VR2等产品仅配备了左右眼各一颗摄像头。两颗摄像头加入，在保障追踪精度的同时，还能用于测算双眼瞳深，进而完善预畸变算法以实现更好的画面显示效果。

图源：苹果

微软HoloLens 2软件开发指南中曾提到，人眼视线的运动是不规则且跳跃的，并且速度很快。可能在用户完成点击动作之前，视线早已经飘走，因此将快速眼睛凝视信号与慢速的控制输入结合起来需要格外小心。

在算法方面，苹果已经有很多年的技术储备。早在2017年，苹果收购德国眼动追踪技术开发商SensoMotoric Instruments（SMI），这是一家专注于该细分领域的头部企业，已有30余年的发展历史。2017年，苹果首次将眼动追踪功能应用于其Face ID中，以提升解锁的安全性。而近些年来，苹果陆续有眼动追踪相关专利申请流出，这为Vision Pro的交互奠定了良好的基础。

苹果前员工Sterling Crispin爆料称，苹果围绕Vision Pro有一个专门研究神经技术的开发小组，而他所做的工作之一是通过AI预判用户的操作行为。他提到，“你的瞳孔会在你点击某物之前作出反应，部分原因在于用户对接下来发生的事有所期望。因此，可以通过观察用户的眼睛行为并配合实时反馈的UI来增强用户大脑的预测性瞳孔反应，从而创建生物反馈。”

AI算法的加入，也是Vision Pro的眼动交互备受好评的重要原因之一。

图源：苹果

降低手势门槛，提升UI审美，“隐性”层面提升交互幸福感

除硬件以及算法外，人机交互设计也是苹果的一贯强项。业内人士告诉陀螺君，“基于苹果这套眼动追踪硬件，开发者其实也能实现高精度的眼球操作，里面的算法其实并不难，真正难的是苹果所开发的这一整套交互逻辑。”

前面提到，Vision Pro配备的是以“眼动+手势+语音”的多模态交互解决方案，这也是从产品底层出发推导的结果。

目前市面上已有不少基于眼动追踪的单一交互解决方案，如扫视选择凝视确认（如上面的键盘demo）、眨眼确认、双重凝视（快速扫视两次进行确认）等，不过这些方案总体而言都不符合自然的使用直觉，所以Vision Pro在此基础上补充了手势。

双重凝视，图源：ISMAR

而对于手势而言，Vision Pro也进行了一系列优化。此前Quest 2、HoloLens等产品饱受诟病的地方在于其视觉盲区很大，使得用户使用裸手交互时需要把手抬起来，使用过程中非常容易疲劳。而Vision Pro则配备了四颗用于手势识别的摄像头，可以检测腰部以下的手势，用户甚至可以把手放在膝盖上进行操作。也就是说，在这种情况下，苹果保证了“眼动+手势”不会成为其体验的减分项。

在之前，UI设计并非头显“刚性”的需求，因为它并不影响功能的实现，不过，苹果在这方面也花费了很大的功夫，以保证体验的饱满。WWDC 2023期间，苹果围绕Vision Pro的软件开发带来了一系列主题分享，其中《空间输入设计》中介绍了有助于提升眼动追踪体验的设计规范：

人眼会自然引导我们注意物体中间的形状，基于此，可以使用圆形、圆角矩形、药丸等形状；避免使用带有锋利边缘的形状，因为后者会引导眼睛聚焦在外面；保持形状平坦，粗糙轮廓会让我们引起对边缘的注意；使用大量填充使文本和字形保持居中；实现眼睛交互的元素最低保持60pt × 60pt；不同交互目标之间应该保持一定间距。

来源：苹果

为了让眼动追踪交互能够正常响应，视觉的反馈是必须的。苹果在这方面同样提供了底层级的支持。比如用户视线扫过某个APP图标时，它会出现相应的3D效果，当用户查看菜单栏时，也会有相应的光流效果出现。

陀螺君了解到，在软件开发时，开发者只需要设计图标，并考虑好内容之间的分层结构关系，而光影、眼神反馈等效果则交由visionOS系统后台实时处理。这既降低了开发门槛，同时也保障了不同软件之间的体验一致性。

视线扫过时的细腻动画效果，图源：苹果

最后再来谈一谈Vision Pro眼动追踪所带来的隐私问题，这也是产品发布会上所强调的重点之一。

眼动是一项非常隐私的数据，研究表明，一个人的目光数据可能暗含用户的性别、年龄、种族、体重、性格特征、情绪状态、技能等各种敏感信息。

实际上，广告心理学上也有一项名为视向心理测量的研究，即通过使用眼动仪来分析消费者注视广告的时间、焦点、眼跳等来洞察其心理偏好。如果这些数据不加以保护，未来可能会出现更多更为准确的“猜你喜欢”广告推送服务。（这也是Quest Pro发布时备受吐槽的一点）

Mike Rockwell透露，Vision Pro的解决方案是把眼动数据进行隔离并在后台进行单独处理，苹果称只有当用户进行双指捏合操作时才会释放结果，这样就很好规避了APP和网站获取隐私问题。

结语

单从Vision Pro的眼动追踪的应用这一项便不难发现，这是一款细节满满的产品。以“眼动+手势+语音”确立产品核心交互范式，通过硬件以及算法让眼动追踪交互提升至体验的及格线，再从人机交互、UI设计、隐私保护等方面切入使得它的体验达到了优秀水平。

毫无疑问Vision Pro会成为XR市场的新标杆，而它的这套交互设计或许也会成为各大厂商在未来竞相学习以及追赶的对象。

标签：

观察：五部门：加强财政金融政策协同，形成金融支农综合体系

上海九院面部脂肪填充哪个医生好

匿名高管：公认的事实是更有天赋的球队能赢下7场但绿军输了

焦点热门:北京已达39.2℃，仍在上升！高温下除了避暑还得注意

2023年06月21日

2023年06月20日

2023年06月20日

2023年06月19日

2023年06月17日

2023年06月17日

观察：五部门：加强财政金融政策协同，形成金融支农综合体系

上海九院面部脂肪填充哪个医生好

匿名高管：公认的事实是更有天赋的球队能赢下7场 但绿军输了

焦点热门:北京已达39.2℃，仍在上升！高温下除了避暑还得注意

2023年06月21日

2023年06月20日

2023年06月20日

2023年06月19日

2023年06月17日

2023年06月17日

匿名高管：公认的事实是更有天赋的球队能赢下7场但绿军输了