增强现实、AIGC、语言模型全线发力,苹果Apple Vision Pro“出场即王炸” | 速途网
北京时间6月6日凌晨,苹果WWDC 2023全球开发者大会正式开幕,作为苹果一年一度的开发者盛会,不仅迎来了iOS、iPadOS、tvOS、macOS、watchOS等一系列新系统以及新技术的发布,同时也迎来了M2 Max、M2 Ultra两款桌面级芯片,预示着苹果Mac产品线开始全面转向自研芯片。
而作为“One more thing”登场的Apple Vision Pro,更是将所有人的兴趣点直接引向高潮,成为近年来最受关注的苹果产品。
Apple Vision Pro杀入XR市场,苹果“出场即王炸”
作为几乎不在人前提及“元宇宙”的苹果公司,如今靠着Apple Vision Pro杀入元宇宙领域,不得不让行业感叹,其作为全球市值最高的科技公司,那令行业望尘莫及的产品设计能力,与品牌号召力。
苹果公司CEO库克表示,“Apple Vision Pro将带我们进入空间计算时代,这是一个伟大历程的起点,一个强大个人化科技的全新维度。”
首先在设计上,Apple Vision Pro采用了环绕式的头带设计,相比市面上XR很多为了分摊重量而采用顶部头带式的“发型毁灭者”设计,对于烫头爱好者来说要友好得多。
而为了解决XR产品的“沉浸感”难题,苹果用做VR头显的方式,打造了一台AR头显。Apple Vision Pro完全放弃传统AR眼镜显示画面与现实场景叠加的方式,转而采用摄像头捕捉场景,并通过内置双目定制的高素质Micro-OLED屏幕映射现实场景,实现了视频上的“通透模式”。这样做,成功避免了传统AR头显在强光下显示不清晰的问题。
当然,用户还可以通过拨动数码旋钮,实现现实场景与虚拟场景的切换,当用户切换至虚拟场景中,就仿佛在视觉上开启了“降噪模式”,大幅提升了使用的沉浸感。
虽然实现形式与目前VR行业普遍采用的VST(Video See Through,视频透视)功能并无二致,但苹果在传感器的堆料上,却可以用“丧心病狂”来形容。
Apple Vision Pro正面共搭载了6颗常规摄像头、2颗深感摄像头、2颗红外发射器,以及一颗LiDAR(光学雷达)构成,能够以极高的速度捕捉外部场景与手部动作。内部则由4颗红外摄像头以及LED照明模组构成,用以捕捉眼神的移动。此外机身内部还内置了5枚传感器与6个麦克风,分别进行用户头部动作和声音的捕捉。
而想要同时驱动大量的传感器,苹果还从芯片层面开始定制,为Apple Vision Pro搭载了M2芯片,强大的算力能够执行先进的计算机视觉(CV)算法,全新的R1芯片专门负责处理来自摄像头、传感器和麦克风的输入,将图像在12毫秒内传输到显示屏上,实现几乎无延迟、实时的视界观感。这也让Apple Vision Pro实现了不需要额外的手柄外设,仅通过头显对于眼神、手指、语音的捕捉,便可以实现大部分的操作。
另外,Apple Vision Pro所搭载的M2芯片,更是为设备提供了强大的性能。相比市面XR设备普遍采用的高通骁龙XR2芯片,M2的CPU性能是前者的2.5倍,GPU性能更是前者的5倍。配合深感镜头,Apple Vision Pro能够直接录制3D视频。
至于佩戴XR设备时的“社交”难题,苹果给出的答案是“EyeSight”功能,通过一块向外的屏幕,可以展示你的眼睛,让附近的人知道你是否在使用应用程序或完全沉浸在体验中。而当有人接近时,Vision Pro会在画面中让用户看到对方,并向他们展示眼神。用眼神的专注,解决社交的尴尬。
事实上,在速途元宇宙研究院看来,Apple Vision Pro相对于XR 行业现有困局的多点突破,源自于“不惜成本”:一个软硬件实力皆强劲的企业,在产品上死命堆料的结果,而代价是3499美元的高昂售价,这也充分体现了苹果强大的行业号召力,以及充足的现金流,给予了苹果定价的勇气。
而Apple Vision Pro的发布,也给了行业一些思考:我们看似始终到达不了的那个“元宇宙”,并非遥不可及,只是我们需要更多的能量,用产品改变世界的能量。
内卷改变不了世界,但创新可以。
Apple Vision Pro将于2024年年初逐步开售,高昂的价格以及近一年的准备期,也为其他XR企业预留了发展的空间。一方面,苹果在等待开发者构建成熟生态的时间里,也为其他厂商提供了产品转向的机会;另一方面,3499美元之下,充分的定价空间,也让更多XR厂商们能够现在现有的技术条件下,做出Cost Down的产品,丰富XR市场,带来XR市场的繁荣。
除了惊艳的Apple Vision Pro,作为目前大热的AI技术领域,苹果也小小地秀了一下肌肉,发布了多项基于AIGC、语言模型、机器学习等方面的技术,展示了苹果这家看似平时不怎么与AI搭边的公司,不容小觑的AI实力。
AIGC、语言模型技术亮相,苹果AI积累不容小觑
AIGC生成人像
在使用Apple Vision Pro进行FaceTime视频通话时,由于没有朝向用户的摄像头,而用户佩戴XR设备,也会让用户看上去非常奇怪。为此,苹果通过Apple Vision Pro前置镜头扫描人脸信息,基于机器学习技术,系统会使用先进的编码神经网络,为用户生成一个“数字分身”,并动态模仿用户的面部和手部的动作,甚至可以保留数字分身的体积感和深度。使用的简易性和效果甚至超越了目前市面上的一部分数字分身软件。
更加智能的输入法
众所周知,XR行业目前最受诟病的困局之一,便是输入方式的匮乏,无论是手柄的单键输入,还是浮空键盘的输入方式,无论在效率与精度上,相比实体键盘,体验都十分糟糕。
而Apple Vision Pro主要互动方式为眼神、手势和语音,这就意味着语音输入可能将成为Apple Vision Pro最主要的键入方式之一。
虽然苹果并没有在Apple Vision Pro介绍中强调输入法,但是在iOS 17的介绍中则提到了更加智能的输入法,不仅可以纠正拼写错误,甚至还可以纠正用户在输入过程中的语法错误。自动更正的单词会被临时下划线标记,让用户清晰地知道哪些单词被更改了,并且只需轻触一下即可恢复到原始单词。
更为重要的是,基于设备端的机器学习,输入法还会根据用户每一次的键入自动改进模型。将输入法的自动纠正功能达到了前所未有的准确度。此外,基于最前沿的单词预测Transformer语言模型,单词联想功能 可以非常快速地输入下一个词,甚至是完整的句子。
而这种极为个性化的语言预测模型,也可以让输入法更加了解用户的语言习惯,也能在用户使用语音,输入的时候大幅提高输入的准确性。
全新的“手记”App
伴随iOS 17发布的,还有全新的“手记(Journal)”App,能够利用设备上的机器学习技术,根据用户的照片、音乐、锻炼等信息为您创建个性化的回忆和写作建议。App会根据这些信息为您提供适合您的时刻进行记录和书写的建议。
这意味着基于iPhone的算力,设备已经能够部署本地化处理文字、图片等多媒体内容的语义理解能力,同时具备一定的生成式AI功能。
场景与动作识别能力
除此之外,例如空间音频的计算、眼球动作以及手部行为的捕捉,这些也是人工智能技术所发力的领域,苹果凭借着M2和R1两颗芯片提供的算力支撑,实现了人工智能顺利的本地化部署,充分体现了苹果在消费电子领域人工智能应用的能力。
尽管在WWDC 2023上,苹果并未过度强调其AI能力,但从产品功能的方方面面来看,其AI能力却已经深入渗透到其产品的各个细节中,成为改进用户体验的重要手段。作为全球最具影响力的科技公司之一,尽管苹果没有过多宣传其在人工智能方面的成就,但 你苹果擅长一鸣惊人的产品风格来看,其在人工智能领域的实力仍然不容小觑。