耳机中的「空间感」是如何实现的？

超哥

作为真无线耳机博主，尝试回答下这个问题，希望真正研究的算法工程师来补充下。

查阅了科普中国，源头信息北大信息技术学院头相关函数数据库，还有谷歌学术，甚至维基百科的一些内容，发现是 10 年前的学术研究论文，作为毕业多年本科生，读起来挺吃力的，但好歹也读完了。自己仔细揣摩了 HRTF 定义，还有不同研究就够的研究范畴，发现为了做好耳机的空间感，技术积累从 1994 年就已经开始了——我们现在习以为常的产品和技术，竟然是长达 20-30 年不断的积累。

一切的核心——头相关传输函数 HRTF，魔术一样影响我们听觉空间认知。

先回归到物理世界，我们双耳是怎么定位的？^[1]

声音借助空气传递到头部的耳朵外部时（注意是耳朵，还没通过耳道到达骨膜），如果不是正前正后方，一定会有两个变量：

时间差——两个耳朵听到声音是先后顺序
能量差——两个耳朵听到声音大小的差别

图中所示：右耳先听到且声音大，左耳后听到且声音小。经过长期生活的训练，我们通过这些细微的差异，来判断声源的方向。

如果这么简单，那么声学也不至于被调侃为玄学？

从正前方和正后方放声音，按这种理论理论，我们应该分辨不出来，但实际正常人都能分辨出来。

问题出在哪里？

就是声音传递到耳道后，会被耳郭反射——反射后的声音，自带了位置信息，我们很容易判断出来。

最复杂声学问题，出现在这了——外界声音经过耳郭被“加密”了

耳郭这种反射是高度个性化的，每个人的形状深浅完全不同，且随着年龄还会变化，换句话说，我们耳膜听到的声音，是被耳郭等各类反射后，进行了空间信息的“加密”，视为加密声。

如果想复现外部音源空间感，就必须在耳道内播放“加密后”的声音。

而这个外部声音经过耳郭之后加密的过程，可以抽象成为一个函数——头相关传输函数（Head Related Transfer Functions，缩写：HRTF^[2]）

头相关传输函数和哪些因素有关呢？

和声源距离，和声源仰角，声源水平角，和肩膀，和声音频率有关，甚至还和衣服，毛发，五官轮廓有关，等等等等

抽象成为一个数学函数和模型，就是这个：

PL，PR 分别是简谐点声源在倾听者左、右耳产生的复数声压。
Po 是人头不存在时，头中心位置处的复数声压。
一般情况下 HL，HR 是声源的水平方位角θ、仰角Φ、声源到头中心的距离 r 以及声波的角频率Ω的函数
对于远场，即 r>1．2 m 的情况，HL，HR 基本上与 r 无关
另外，由于不同人的头部、耳廓、躯干等的尺寸和形状不同，因而严格来说每个人的 HRTF 是不同的，也就是说 HRTF 是一个具有个性化特征的物理量。公式中 a 表示具有个性化特征的参量，如头部的尺寸

注意：头相关传输函数可以是，指任何自由场点声源与听众耳道指定位置之间的声学传递函数^[3]。

我们假定是加密后的声音 2，这是自带了空间感的加密声音，被鼓膜听到后，大脑反向解密，勾勒出大致的位置和变化^[4]。

用耳机播放耳道声音 2

这时，如果能够获得耳道声音 2，用耳机直接来播放，不就是一样的效果么？

问题好像开始变得简单了，就是利用头部相关传输函数，获取外部声音在耳道不同位置加密后对应的声音，然后用耳机播放就行——看起来挺简单的。

举例来说，在一场真实的音乐会上，小提琴在听众的左边 45°，钢琴在听众的右边 45°，无论是小提琴的声音，还是钢琴的声音，都能够经过听众的头部进行加密过的。
如果别人想通过耳机获得身临其境的体验，那么耳机内部的数字电路可以选择左边 45°的头相关函数来加密小提琴的声音，右边 45°的头相关函数加密钢琴的声音，这样就能够“欺骗”大脑，让耳机内的声音听起来也有很好的方向感和空间感。

可这不是数学，是函数模型！！

要大量的声音结合大量的人群来测试，逐一验证各个变量和最终结果的关系，这才是最难的部分。

而且耳道这个位置，又敏感又不安全。最完美的位置，应该是耳膜吧？可麦克风和耳机靠近耳膜，安全问题又难保证。

所以，从音源到获得加密后的耳道声音 2，需要构建准确的头部相关函数，就需要大量的数据库，所以 10 年之前北大的研究是跨越性的——北大言语听觉研究中心发布了头部传递函数数据库^[5]

至此，理论层的研究打通，剩下的就是各个工程师努力要克服的研发和生产以及量产的问题了，我已经尽最大努力回答了这个问题，期望看到更好的其它回答。

后续是更为复杂和繁琐的产品，量产，商业问题等等，欢迎专业博主来回答。

补充下：

根据个人了解，不少品牌方将会陆续发布空间音频的产品，万魔也会在未来一段时间发布，甚至有更多品牌方告诉我今年的空间音频计划。

根据上游供应链的反馈，2022 年将会是空间音频发力的元年，因为上游的产业链已经开始成型了，而且不少方案商已经开始推出稍微成熟的方案了。随着量产大批量的新品上市，入门级价位将会有越来越多的优秀产品出现。

而空间音频作为计算音频中最易感知的存在，第一步迈出去了，那么真无线耳机一直被吐槽的音质体验，大概率也会被头部相关函数通过计算音频的方式，提高到传统有线耳机几十年都达不到的程度。

但再往深层，空间听觉通过头相关传输函数，被完美欺骗了，那么元宇宙，会不会是最终的的技术应用场景呢？

老规矩，求赞求关注。

结尾：原本想着随便回答下，没想到整理回答中，问题越挖掘越多。之前总是看到头相关传输函数 HRTF，仔细看完，最难的其实是大量的数据获取，而且这些数据竟然和不同的确的人群有显著相关性。更是发现这竟然是研究了几十年的技术，到最近一两年才开始应用的^[6]。

附整理过程中，辅助理解的手稿吧，给这个小众回答一个怀念——貌似现在还看这些内容的人，越来越少了。

查看知乎讨论