上周,我们目睹了世界如何在Instagram影响者Cloe Feldman发布的音频听起来像是“ Laurel”还是“ Yanny”之间相互分裂。 我们还看到了特朗普政府的主要成员对音频做出了判断,该音频当时获得了2300万次点击,在YouTube上全球排名第二。
作为一个全球公民,属于脆弱的高人种,能够感知20Hz到20khz之间的频率,我无法坐下来观看简单的3秒机器人语音录音,这甚至与人工智能都不存在关联在我们中间大肆破坏。 因此,作为一名财务专家和吉他手,我决定进行一次快速检查,以确定音频剪辑中的单词是Laurel还是Yanny,以便使用Python解决此“全局问题”。
- Rilisan Yang Patut Dilirik:Januari 2019
- 怯场:它变得更好(大部分)
- The Saylor的“ It's Fire”必听
- 阿瑞莎·富兰克林的灵魂(在星期六晚上和星期天早上之间)
- 佛蒙特州伯灵顿音乐会场地指南
在继续之前,让我们快速了解“声音”的基本原理
在物理学中,声音只是空气振动。
在人类生理学中,声音是对此类波的接收及其“大脑的感知”。
现在,很明显,大脑的知觉决定了您听到的声音,因此让我们检查一下,首先馈入大脑的内容是否恒定。
A.声音的图形表示
机械手的声音将单词重复两次。 首先,让我们以图形方式绘制随时间变化的声波,以可视化是否嵌入了任何欺骗手段。
尽管我们人类可能会说我们有鹰眼-现实是,我们的眼神低劣,而鹰眼的视力却强了8倍。 因此,请允许我在下面绘制一些箭头以突出显示音频中的差异。
我们可以看到,第二次重复单词时,波形略有变化。 这部分是人类感官感受的作用,帮助YouTube视频获得了数百万的观看次数。
B.短时傅立叶变换(STFT)和增强型自相关(EAC)
为了进一步证明3.86秒音频剪辑的上半部分和下半部分之间存在差异,让我们执行STFT。 我们首先将信号分割为狭窄的时间间隔,然后对每个分段进行傅立叶变换,然后将其绘制成下面的频谱图。
频谱图是声音的图片。 它显示了从低到高构成声音的频率,以及它们如何随时间变化。 如果我们充分观察图像,可以看到音频的后半部分在水平方向上略有放大。
为了进一步证实机器人语音通过单词重复欺骗我们的事实,让我们使用增强的自相关算法可视化音频的音调。
高音调的声音颜色较亮,低音调的声音颜色较暗而暗。 在图像2.1的下半部分,粉红色变亮,表示“音调增加”。
C.音高变化如何使我们听到不同的单词(Laurel和Yanny)?
音频结构:youtube.com/watch?v=krHR1UXJTgo&feature=youtu.be音调增加或减小-您可以听到两个字。
yu fnid tihs是否嘲笑raed? 休止于咽部的咽部脓肿,msot plepoe做。
我们的大脑是一台复杂的大型模式识别机器。 我们一直被各种模式轰炸。 我们的大脑从所有感觉输入中获取信息,并通过识别和分类不断构建我们周围的世界。 因此,您所看到和听到的是您的感知,期望,现有信念,过去的经验和理解所驱动的。
使用频谱图和增强的自相关分析音频后,很明显音调在第二次重复中突然变化。 大脑是一个活跃的解释器,当面对信号的歧义时,它会紧紧抓住并赋予较高的权重,以一种月桂树或Yanny的感性解释。
此外,年龄因素也起作用。 被称为“纤毛”的神经细胞吸收不同的频率,将其转换为电信号,然后将其发送至大脑进行处理。 调到高音调的神经细胞是第一个受到声波冲击的细胞,因此它们承受的压力更大,而且随着年龄的增长,我们感知高音调的能力会下降。 因此,听觉更好的人可以听到高音扬尼,其他人则必须坚持使用月桂树。
因此,如果是劳雷尔(Larrel)或Yanny(Yanny),您仍在挠头,答案就在您的大脑中。
最好的祝福,
C·罗希思·泰尚
投资分析师
新加坡