
根据您问的人,增强现实是否进入或完全处于炒作周期。 2017年,Apple和Google都通过AR应用程序开发套件推向市场。 众多公众一直在享受可以帮助您测量物体,摆放家具,学习东西,进行寻宝活动的应用程序,而时尚/美容应用程序和游戏也正在进入市场。
吸引这类内容就像拿起手机并保持在视线高度一样简单。 但是,当我们不可避免地在几分钟后想知道为什么内容不够吸引人时将手机放下时,并不总是很清楚体验中缺少的内容。 在大多数移动游戏玩家不使用耳机玩游戏或将音频静音的情况下,以这种方式参与内容的玩家会错过音频带来的许多沉浸式质量。
- 如何加强播客游戏:#3录制环境
- 数字新闻出版商如何通过音频提高观众参与度
- Skylar Gray —为您杀脚 阿姆(带歌词的音频)
- AudioQuest NightOwl Carbon评测:现实的剂量
- 为什么高Alpha投资于Fuzic
解锁AR中沉浸和存在的下一个阶段的答案实际上是我们几十年来一直在训练自己忽略的东西。
这个由两部分组成的系列文章将深入研究我在与OSSIC一起工作期间(以及围绕OSSIC的时间)在进行原型设计和研究音频时所遇到的初步思考和学习。这对2017年的OSSIC来说,这对文章将是一个不错的入门。您了解我们可能看到的挑战和我们应该要求的功能,因为我们看到越来越多的针对移动AR和基于耳机的AR开发的应用和游戏。
第一篇文章将专注于定义技术本身,存在哪些类型的AR设备,为什么AR如此具有挑战性以及我认为在这种新媒体中音频将最难克服的方面。
第二篇文章将深入研究音频对AR的认知益处,在支持AR Audio方面我们的工具和技术在哪些方面以及我们需要开发什么样的创造性实践以提供“最终” AR音频体验方面的更深入研究。 。
为什么要关心AR中的音频?
将物体放置在空间中的意义远不只是确保将其放置在或正确照明。 从视觉上看,这些是很好的起点。 仅考虑照明,物体的阴影和光度对于视觉上属于该空间的物体很重要。 但是,这些元素一起仍然可以提供3D全息图的效果。

在文化上,我们有大量的全息图示例和蓝图。 从1940年代丹尼斯·加博尔(Dennis Gabor)对全息术的最早研究到《星球大战》(Star Wars)和最新的《银翼杀手》(Blade Runner),全息术为我们提供了足够的接触点,可以轻松地将AR简化为我们在早期科幻电影中看到的简单表达。 为了使AR坚持下去,被投影物体的影响必须非常重要,以至于立即使人们难以置信。

我们的听觉是一种在潜意识中处理的东西,并且它的处理速度比视觉刺激要快,这已被广泛接受。 大脑在确定内容是否“适合”我们所消费的媒体中正在发生的事情的“基调”方面也非常快(在认知神经科学领域对此领域进行了大量探索)。 在AR中没有音频会破坏沉浸感(通过违反参与者对与空间互动的对象的期望)并导致更快的“放下”时间。
深入研究
除了对“沉浸式”的一般概念的最初好处之外,AR技术中音频的“用途”是多种多样的。 在AR中更深入地利用音频有认知,用户体验和用户界面优势。
通常,使用更多种形式的方式(视觉,触觉,声音等)来表示信息,这意味着相对于默认的视觉表示,可以对信息的表示方式进行更多的选择。 避免用户的认知超负荷可以像以声音之类的非视觉形式呈现信息一样简单。
我们可以考虑通过研究证明(甚至在其他娱乐技术(例如游戏和VR)中得到证明)的特定认知优势。 在移动提示(例如基于技巧的游戏或射击游戏)中包含音频可以将响应时间缩短多达50%(Barde,Ward,Helton和Billinghurst(2016))。 这就是为什么像Raw Data和Space Pirate Trainer这样的游戏会设计敌人在穿越太空时发出声音的原因-无论是呼engine的引擎,颤抖的脚步声还是平稳的伺服声音,这些提示都可以帮助您在有空之前就了解周围的世界将您的头转向声音的发出方向。

对于口头单词,正确定位(空间化)的声音可以提高包括多种声音(或声音)的设置中的理解力和体验质量。 不会对声音进行空间化处理(即仅使用立体声甚至单声道声音)的体验实际上会将所有声音“压缩”到一个压缩的声场中,这会使得很难听到分离的声音以及这些声音的位置(尤其是在3D场)。
AR硬件“风味”
我们主要讨论了移动AR —您可以使用智能手机查看的AR。 当今,AR还有其他几种类型,并且在音频技术和设计方面每种都有细微的差异。
移动AR是AR的“智能手机作为窗口”执行。 这是我们在过去几年中开发的AR风格,其中以Google的Tango,Vuforia和Pokemon Go作为早期的关键示例。 这种类型的AR具有最低的进入障碍,但对声音在AR空间中的感知位置具有有趣的影响,因为设备仅跟踪设备的位置,而不跟踪耳朵的位置(您希望在此处听到声音)声音)。

像Mira AR平台这样的带有设备的AR装置要求您将移动设备(仅在Mira的情况下为Apple iPhone)插入头戴式皮套中,这样才能将手机中的图像反射到清晰的显示屏上。 这种类型的AR允许使用控制器与AR场景中的对象进行交互,并且由于这种类型的显示中的图像更加透明,因此可以从音频上下文中获得更大的收益。

诸如Microsoft Hololens,VRVana Totem(已被苹果收购),Meta和备受期待的Magic Leap头戴式耳机等头戴式AR显示器处于各个阶段,因此对AR和用于AR的音频都具有最大的希望。 这些设备从头开始设计成为未来的设备,它们通常具有房间探测传感器,可以提供有关设备所在空间的关键信息以进行声学处理。

通常,在各种设备中,有一些关键差异会影响音频的作用。 这些可以分为几类:视野(FOV,视觉),交互样式,头/耳位置,处理限制,房间感知能力和外围设备潜力。
视场
目前,视野是大多数AR技术的主要限制。 使用移动设备时,视野仅限于您所使用的屏幕范围。 对于某些iPhone,它可以小到进入360度世界的4英寸窗口。 即使对于Hololens,所提供的视野也只有全部360度的35度。 图腾(未发布)的FOV达120度,但它使用直通相机(这会给用户带来不同的体验)。

为什么FOV对用户很重要? 人类对周围的视觉世界有极大的偏见。 如果FOV比正常的感知FOV减小,那么用户在偶然的机会下环顾四周的可能性就更低了,因为他们背后可能会发生更多的体验。 音频是人体唯一的360度感官,因此可以用来帮助提示玩家转身以消耗更多的整体体验(如我们之前所述)。
跨AR硬件的交互
这一系列的硬件平台都为用户提供了不同的方式,使其可以与周围的AR场景进行交互。 Mobile AR提供了最基本的交互方法(到目前为止,该字段仍处于起步阶段),如果您可以在屏幕上看到它,也可以使用该屏幕与其进行交互。

Hololens提供的优势是该设备的前向传感器,使用户可以用自己的双手直接与物体进行交互。 对于短暂尝试过Hololens的任何人,他们可能会发现学习手势确实是一种精神上的飞跃(当然,我仍然不能使用Xbox控制器),这为音频提供了一个机会,可以在教育和反馈过程中提供帮助。用户正在适应新的基于手势的交互方案。

音频相关的特质
一般而言,AR技术还会对音频处理和消耗产生有趣的影响。 之前我提到一种效果-AR场景中“窗口”的位置与您的头/耳的实际位置不同。 我们还遇到了有趣的跨平台和特定于平台的效果。 不同的设备将具有不同的空间检测能力,每个设备的总体处理限制将有所不同,并且各种外围设备(耳机,扬声器)的存在和位置也会影响音频处理管道。
耳朵与设备位置
移动AR面临的最普遍挑战之一是,作为您进入AR世界的“窗口”的移动设备将被放置在与用户的耳朵不同的位置。 如果您假设距离和角度的差异很小,这似乎是一个简单的“是的,所以人们不会注意到”。 但是,人的平均手臂长25英寸(63.5厘米)(我们知道,人在使用手机时不会完全展开手机),该距离足以影响声音的质量在近场头部相关传递函数(HRTF)的范围内(当刺激在1米/ 39英寸以内时,“使用”此HRTF)。

未经训练的听众可能无法完全理解为什么声音“听起来很怪异”,但他们可能会注意到,位于他们下方的声源突然与他们的耳朵水平一致。 解决这个问题比您想象的要复杂。 您可以估计设备与耳朵位置的距离和角度以及为此的偏移量,但是您将对侦听器的解剖结构做出假设,这会使他们对您尝试创建的场景的感知产生偏差,您如果用户完全移动,可能会错过这些角度的变化。
处理限制
当前的AR设备具有三类硬件募集-移动设备,多合一设备和捆绑设备。 尽管对所有硬件产品进行了持续改进,但值得强调的是,招募移动设备来为其体验提供支持的AR体验将遇到处理方面的限制。 快速将顶级iPhone X和Pixel 2 XL与Microsoft Hololens与HTC Vive定义的VR就绪最低规格进行快速比较,可以证明技术上的差距。

台式机最低规格与该行移动设备的(当前)顶级规格之间的差异非常大(尽管值得注意的是,当前MacBook Pro的当前最高规格也不满足该最低规格)。 Hololens处理规格和Vive最低规格之间的差异也很大,这对于第一代技术完全可以,因为第一代技术具有不受束缚的头戴式AR设备独特的潜力。
这种处理能力的差距实际上意味着这些设备的处理能力是有限的(我们习惯于在PC和移动游戏开发之间进行考虑)。 这意味着更少的音频对象,以及在这些设备上进行房间感知和渲染的潜力。 (“空间感知”是设备“感知”其正在“看到”的空间的能力-无论是通过捕获还是通过一个或多个传感器进行扫描)。
房间意识和渲染
我认为增强现实音频的圣杯能够将体验中的声音与设备所处的环境进行声学协调。此特定元素在不同的AR硬件类型之间可能具有不同的潜力和限制,以及实现这一“圣杯”的时间表和管道。
当前可用的所有AR技术都具有对FOV的限制,因为它们了解设备所在房间的能力。这是通过内外跟踪还是具有能够深度感知的双摄像头阵列的摄像头。 移动AR能够通过iPhone X和支持AR的iPad(2017)中包含的双摄像头阵列检测表面并允许在AR对象周围移动。 Hololens,Meta和其他AR耳机能够检测房间的范围和深度。 仅具有一台摄像机的低端移动设备仍能够检测表面,但深度检测的级别不同。

与

要解锁移动设备上的更深层次的声学渲染,可能需要对空间进行一些捕获或校准,才能使用此数据进行高级声学渲染(类似于用户必须校准VR设置以确保外部摄像机“知道”摄像机在哪里拍摄)。耳机在空间中)。 是否可以将这种类型的校准存储在移动设备上以进行处理,以及是否可以在非绑定设备上执行基于几何的实时渲染算法,这是我们在接下来的几个问题中可能会回答的问题年份。 当前,只有少数软件空间化工具(例如SteamAudio和NVIDIA)才能进行物理渲染。
外围设备的潜力
每种设备类别也为最终用户提供不同范围的音频体验。 这是由于提供了用于回放的内置硬件,以及将不同的外围设备连接到设备的可能性。 尝试ARkit或ARcore游戏或应用程序的用户可能无法连接耳机,最终会遇到单声道或立体声混音的情况。 对于装有移动设备(例如Mira)的AR硬件也是如此。
其他设备(例如Meta和Meta 2)在设备上都有扬声器,但将通过其设备的音频输出限制为“四声道”。 Hololens在设备上也有扬声器,但能够提供完整的基于对象的音频。 这些设备还具有用于耳机的模拟插孔连接,但是设备的形式可能会限制可与设备一起使用的耳机的样式。

这篇“技术评论”文章实际上只是个开始。 ARkit和ARcore(用于创建移动AR体验的Apple和Google DK)在此阶段仅运行了2-3个月,只有数量有限的支持AR的移动设备可用于体验这些应用程序和游戏。 理解每种技术之间的区别以及每种格式周围存在哪些音频注意事项是能够为这种新格式创建的第一步。
在下一篇文章中,我们将更深入地研究围绕AR的技术和研究相关细节如何成为潜在的创造性实践。 我们还将更深入地研究可用的技术,或者可能需要开发哪些技术来设计用于AR的音频。 我们还将研究AR的潜在音频,以及这些技术在未来的应用领域。
Sally Kellaway是虚拟,增强和混合现实音频领域的行业领导者。 她的任务是创造,突破界限并帮助对其行业进行教育。 您可以通过Twitter或Linkedin与她联系。 通过Kofi平台支持Sal可以使她创建更多内容!